ビッグデータ:5つの大きな神話となぜそれらが積み重なっていないのか

人々はしばしば大きなデータのボリューム面にぶら下がってしまいますが、他の要因はビジネスのために提起した問題のように言えるでしょう。

調査:大規模なデータ傾向 – コスト、成果、成果、人員配置、Hadoopが大きなデータの中核フレームワークとして浮上、ITプロのためのBig Data入門

一部の人々は、誇大広告で覆われた広範なブラシマーケティングのように、用語「ビッグデータ」を見ています。しかし、大きなデータコンセプトを額面に取っている人でさえ、ある誤解を克服する必要があります。

ガートナーは、誇大宣告がこの分野で正しい行動方針を選択することを難しくし、まだ残っている神話のいくつかを解消することはほとんどないと考えています。

Apache Spark:Hortonworksがメモリ内のエンジンを狙う方法、IBMのチャンピオン、巨大なデータ、TEDサミットの医療を変えるオープンソース、大きなデータ:まだセキュリティの不安に悩まされていますが、ヨーロッパの追いつき、大きなデータ伝道者再教育キャンプに送られた

このような誤解には、データの80%が非構造化されているという考えが含まれています。そうではありません。高度な分析は通常の分析のほんの複雑な形になります。

ガートナーは、ビッグデータに関連する事実の詳細を明らかにするために、ビッグデータがアナリティクスや情報インフラに及ぼす影響についての神話を扱った2つのレポートを発行しています。ここでは5つの間違った信念があります。

神話1:大企業では誰もが先行している;大規模なデータテクノロジやサービスへの関心は高まっているが、ガートナーは73%の企業が投資や計画を立てていると考えている。

だから、競合他社が大きなデータを先取りしていると心配するのは間違っている。実際、調査対象者のうち13%しか実際に関連技術を展開していませんでした。

ビッグデータ分析、Big Data Analytics、DataRobotはデータサイエンスの欠点を自動化することを目指している、Big Data Analytics、MapR創設者のJohn Schroederが辞任し、交換するCOO

「組織が直面する最大の課題は、大きなデータから価値を得る方法と、どこから始めるかを決めることです」とガートナー氏は述べています。

多くの組織は、技術をビジネスプロセスや具体的なユースケースに結びつけないため、パイロット段階で立ち往生してしまいます。

ガートナー氏は次のように結論づけています。実際のタスクの戦略を構築し、ITとビジネスを巻き込みます。

神話2:非常に多くのデータがあり、小さな欠点は重要ではありません。数多くの法則のために考えている人もいれば、個々のデータの欠陥は重要ではなく、分析結果に影響しません。

データが少ないときよりも個々の欠陥がデータセット全体に及ぼす影響がはるかに小さいかもしれませんが、データが多いため以前よりも多くの欠陥が存在します。

「データの品質が悪いとデータセット全体に及ぼす全体的な影響は変わりません。また、大規模なデータ環境で組織が使用するデータの多くは、外部からのものでも、構造や起源も未知のものです。 。

これは、データ品質の問題の可能性が以前より高くなっていることを意味します。したがって、データの品質は実際に大きなデータの世界でより重要になります。

Gartnerは次のように結論付けています。データ品質に対する新しいアプローチを考案し、データ品質レベルを選択する。データ品質保証の基本原則に従ってください。

神話3:大きなデータはデータ統合を排除します;スキーマ・オン・リード・アプローチによる情報の処理は、企業が複数のデータ・モデルを使用して同じソースを読み取ることを可能にします。この柔軟性により、エンドユーザーはオンデマンドであらゆるデータ資産をどのように解釈し、個々のユーザーに合わせたデータアクセスを提供するかを決めることができます。

しかし、実際には、ほとんどのユーザーは、スキーマ・オン・ライト(schema-on-write)に依存しており、データが記述され、内容が規定されており、データの完全性について合意がなされている。

神話4:高度な分析のためにデータウェアハウスを使用している点はありません。高度な分析で新しいタイプのデータを使用できるようになると、データウェアハウスの構築は時間の無駄です。実際、多くの高度な分析プロジェクトでは、分析中にデータウェアハウスが使用されます。

また、分析に適した新しいデータ型を洗練する必要があるかもしれません。さらに、どのデータが関連しているか、どのデータを集約するか、そして必要なデータ品質のレベルについて決定を下す必要があります。

Gartnerは次のように結論づけています。可能であれば、データウェアハウスを高度な分析用のキュレーションデータのセットとして使用します。

神話5:データウェアハウスはデータウェアハウスに取って代わるものです。データレイクは、異種のデータソースをネイティブフォーマットで分析するためのエンタープライズ規模のプラットフォームとして販売されることがよくあります。しかし、データウェアハウスの代替品や分析インフラストラクチャの重要な要素と見なすのは間違いです。

データ・レイクの背後にある技術は、確立されたデータ・ウェアハウス・テクノロジーで見られる機能の成熟度と幅が欠けています。「データ・ウェアハウスは、すでに広範なユーザーをサポートする機能を備えています。企業はデータ湖が追いつくのを待つ必要はありません。

Gartnerは次のように結論付けています。既存のデータウェアハウスとともにHadoopなどのデータレーキ技術を使用します。データ・レイクは、メタデータ管理スキル、ツール、およびトレーニングに投資することなく、ビジネス価値を提供しません。

Gartnerの2つのレポートは、大きなデータが分析に及ぼす影響に関する主要な神話と、大きなデータが情報インフラストラクチャに及ぼす影響に関する主要な神話と呼ばれています。

LinkedInが新しいブログプラットフォームを発表

これはBig OLAPの時代ですか?

DataRobotは、データサイエンスの果実を自動化することを目指しています

MapRの創設者John Schroederが辞任し、COOが辞任

ビッグデータ