ビッグデータ:革命か進化?

アンドリュー・ブラスト

ビッグデータの今後の方向性

クラウド、CanonicalとMicrosoftがコンテナで共同作業、Great Debate、本当に忘れられる権利があるのか​​、Great Debate、Satya Nadellaの勇敢な新しい戦略:Microsoftが実行できるか、偉大な議論、IBMとAppleのウェイクでは、その企業チャンス?

ダン・クスネズキー

司会者は最終評決を出しました。

Andrew Brust:Big Dataは間違いなく画期的です。テクノロジの世界で初めて、データを削減し、残されたものをアーカイブする方法の代わりに、より多くのデータを収集して分析する方法を考えています。私たちはもはやデータ量に脅威を感じていません。今は、私たちがビジネス、政府、そして社会へのさらなる洞察を得るための追加データを探します。

コモディティサーバやディスクのクラスタ上での分散処理の登場は、これを推進する大きな要因の一部ですが、ストレージの低価格と低価格もそうです。ビッグデータを収集、処理、分析するための技術、そして実際に必要なことは、私たちとかなりの時間にわたって行われてきましたが、これまでは効率的で経済的ではありませんでした。そしてそこに革命があります。私たちはいつも私たちのデータについて知りたいと思っていましたが、尋ねることを恐れていました。今私たちは恐れる必要はありません。

Dan Kusntezky:大きなデータは本当に新しいものではありません。私たちが現在ビッグデータとして知っていることは、急速に移動する大量のデータを扱う長い分析ツールから、古くて尊敬されるログデータの分析から生まれます。オペレーティングシステム、アプリケーションフレームワーク、データベースエンジン、ネットワーク製品、ストレージシステムから出てくるログデータを分析することは、何十年もの間、大規模なデータとして行われてきました。 Splunk、Loggly、RainStorなどのベンダーに質問してください。

ビッグデータはどこに行くと思いますか?それがITのサブカテゴリになるのだろうか、それとも単純にBIとDWの次の段階ですか?

ビッグデータはすでに独自のサブカテゴリであり、おそらくそこに残っています。しかし、それはBIとDWと同じ食物連鎖の一部であり、これらのカテゴリは、離散的かつ完全に異なる分野として、連続体に沿って存在することはありません;それは、事実上、データベース管理者やモデラーとBIデータマイニングの専門家。どちらかの人が両方を行い、他の人はオンまたは他を専門にします。彼らは相互に排他的ではなく、単に他のものよりも新しい表現でもありません;そしてそれはビッグデータとなります。ビッグデータ:独自のテクノロジー、製品、構造とのデータ専門知識の領域ですが、焦点を絞ったハイテク専門分野です。接続はハイテク産業とコンピュータサイエンスの間に存在しますが、それでもまだ区別は正当で、有益で実在しています。

ビッグデータは、それらのいずれかを置き換えるのではなく、いくつかのIT分野の一部になる予定です。 IT管​​理者は、オペレーティングシステム、ネットワーキング、アプリケーションフレームワーク、アプリケーション、データベースなどの運用データをより詳細に調べることができます。失敗につながる。ビジネスアナリストは、IT担当者が常に新しいコードを開発したり、データベーススキーマを変更したりすることなく、自分のことを実行できるようになります。企業は顧客の詳細を把握してより良いサービスを提供できるようになります;ビッグデータは、現在使用されているツールキットに追加するためのいくつかの新しいツールを提供するだけです。

アンドリューとダンは明日閉幕を発表し、木曜日に勝者を宣言する。今と今の間に、あなたの投票を投げて、このトピックに関するあなたの考えを投稿するために、以下の議論に飛びつくことを忘れないでください。

次の10年間にビッグデータ分析で120万の新しい雇用が必要になると伝えられています。これはIT業界で一番ホットな仕事になるのでしょうか、あるいはソフトウェアエンジニアは一番ホットな商品ですか?

両方の要求があります。私たちはそれをどちらか/または疑問にする必要はありません。開発者とデータベースの専門家が長い間存在してきたように、ソフトウェアを構築する人や、ソフトウェアが生産し消費するデータの調達と分析に特化した人が引き続き呼び出されます。 2つは無料です;しかし、私の考えでは、両方で強力なコンピテンシーを開発する人は、確かに非常に高い価値を持っています。これは、ほとんどのITプロフェッショナルが互いに選択するように見えるため、特に当てはまります。私はこれについて強い正当性があるとは考えていませんでしたが、長い間、業界の傾向としてそれを観察しました。その傾向を克服した人々はまれであり、したがって需要があり、非常にうまく補償されます。

どれだけ多くの新しい役職が創設されるのか、どこで創設されるのかはまったく明らかではありませんが、これはまったく新しいものではなく、ソフトウェアエンジニアにとってさらに特化したものです。非ITアナリストは、システムの専門家になる必要はなくても参加できるようになりました。

米国政府は、ビッグデータに2億ドルの投資を発表し、潜在的影響の点でスーパーコンピュータとインターネットの台頭に匹敵しました。この投資はどれくらい重要ですか?

投資には象徴的な意味があると思うが、欠陥があるとも思う。多くの連邦政府機関に分割された場合、2億ドルは比較的少額の資金です。この資金のいずれかが独立した研究者への助成金の形で授与されるのか、支出のすべてが社内の連邦研究のためであるのかどうかは分かりません。後者の場合、政府の非効率性がこの投資の影響をさらに弱めるかもしれないと私は心配しています;政府がビッグ・データを政府の仕事と社会への重要性に活用することの重要性を語るとき、インパクト。また、一般的な技術だけでなく、ビッグデータを中心に労働力が必要であると述べると、それはさらに深い確信を示します。米国連邦政府はデータの集積を収集し、オバマ政権はデータに大きな潜在価値があることを明確にしている。

COBOL、Fortran、PL / Iの最高の機能を組み合わせるはずのプログラミング言語であるAdaを覚えている人は誰でも、Adaはまだ重要ですがいくつかの政府のプロジェクトでは、それは世界を占めることはありませんでした;私は投資が米国政府がより効率的かつ効果的になることを願っています。その夢が現実になるかどうかは時間だけで分かります。

ビッグデータはまた、新しい職名を開始しています:データサイエンティスト。しかし、これらの新しいデータは、適切な質問をしたり、過去のデータウィークよりもストーリーを伝えるためにデータ分析を使用したりすることに関して、もっとうまくいかないのでしょうか?

ビッグデータの定義に濫用があると、データサイエンティストの定義にはさらに大きな桁があります。私にとっては、データサイエンスの分野は、統計、データ分析、モデリング、および計算上の思考に関するものです;残念ながら、この用語は、ビッグデータ技術スキルセットを持つ人々を説明するために少し愚かになりつつあります。たとえば、Hadoopの設定と使用方法を理解していて、Rプログラミング言語(オープンソースの統計と分析パッケージ)について少し知っている人は、Data Scientistとして記述することができますが、実際にはHadoopスペシャリストと呼ばれるべきです。

アナリストはデータを掘り下げているようで、初めにどのような質問をするのかよく分からないようです。これは、新しいツールの主な利点の1つです。従来のBIツールやDWツールでは、アナリストが何を求めているのかを既に知っている必要があることがよくあります。

投稿者Jason Hiner

ビッグデータの約束の一部は、データベース以外の専門家がより自然な言語のクエリを実行できるようにする優れたツールです。これは現実的ですか?これを行うツールの例はすでにありますか?

Hadoop(したがってBig Data)で自然言語処理(NLP)を実行するためのソリューションがあります。 1つは、Pythonプログラミング言語と、NTLK(Natural Language ToolKit)と呼ばれる一連のライブラリを使用し、それらをHadoopの機能である「Streaming」とマッシュアップすることです。ビッグデータエンジンはほぼすべてのプログラミング言語で制御することができます;自然言語技術とビッグデータの潜在的および挑戦のもう一つの例は、iPhone上のAppleのSiri技術です。ユーザーはSiriと話をして、膨大な数のドメイン専門知識から回答を得ることができます。時々それは著しくうまく、他の回それは少しklunkyです。興味深いことに、ビッグ・データ・テクノロジそのものは、自然言語技術を向上させるのに役立ちます。なぜなら、ビッグ・データ・テクノロジそのものは、大きなデータ量処理され、アルゴリズム的に理解されます。したがって、ビッグデータは、それ自体が使いやすくなるのを助けます。

これは、ビッグデータツールのサプライヤが行っている多くの約束のうちの1つにすぎません。多くの場合、最も重要なことではありません;データアナリストは、データをリアルタイムで見分けてビジネスの詳細を知ることができるというより重要な約束です;この学習は、クエリ一連のチェックボックスまたは自然言語文を使用して作成されます。

ビッグデータの動きの一部として、非構造化データを少し掘り下げてみましょう。いくつかの例は何ですか?それはなぜ重要ですか?

テキストは良い例です。書籍、論文、報告書は、文章や段落と同じように構造化されていますが、そのデータのパターンはまだ存在しています。公的企業から証券取引委員会に提出された年次報告と四半期報告、政府機関の歴史、経済学現象へのフレーズとパッセージを報告書で相互に関連付けることを想像してみてください。それは素晴らしい構造化されていない/ビッグデータのシナリオを使用している;オーディオやビデオを含む他のメディアも良い飼料です。両方ともデジタルまたはデジタル化可能であるため、パブリックセーフティ、顧客サービスまたは運用改善を最適化する目的でパターンをマイニングすることができます; 24時間365日のセキュリティまたはトラフィックカメラビデオに含まれるデータの量を検討する場合は、 、または911 /顧客サービスコールセンターの電話オーディオを使用すると、大きなデータと非構造化データの交差が重要な理由を理解できます。イベント駆動型のデータは、しばしば構造化されていません。

ドキュメント、プレゼンテーション、ウィキ、ブログ、ビデオ、およびオーディオを検索する機能は、自分が作成したコンテンツ、顧客がメッセージの形式で送信したコンテンツなどをよりよく理解するのに役立ちます。どのようなコメントをしたのかによって、企業の成功を助けることができます。これは、単にショッピングバスケットを分析して、顧客が何を望んでいるかについてのあるレベルの理解を収集するだけではありません。

ビッグデータと過去10年間のビジネスインテリジェンスおよびデータウェアハウスとの違いは何ですか?

ここでもまた、データの粒度(したがってスケール)の問題です。 MPP(Massively Parallel Processing)アプライアンスを含む特定のデータウェアハウジング製品は、ビッグデータテクノロジとも呼ばれます。さまざまなデータビジュアライゼーション製品は、BIおよびビッグデータの両方のコンテキストで使用できます。 TableauはHadoopとHiveだけでなく、Data Warehouseアプライアンス、リレーショナルデータベース、さらにはスプレッドシートやフラットファイルにもネイティブに接続されているため、このような優れた例です。ビッグ・データでは、従来の従来の技術では、これまで以上に広い範囲の操作や相互作用をカバーするデータセットについての洞察を得ることができます。完全に新しいコンテキストで使い慣れたツールを使い続けることができるという事実は、一見不可能に見えるものは突然、カジュアルさえもアクセス可能になります。それは革命的です。

ほとんどのBIとデータウェアハウジングは、明確で構造化されたデータに依存しています。ビッグデータには、構造化と非構造化の両方を含む多くの種類のデータが含まれています;例えば、データウェアハウスは、キャッチフレーズビッグデータを含む企業プレゼンテーションの数はいくつですか?

ビッグデータの話題をすべて理解しようとしているビジネスプロフェッショナルにとって、2012年のビッグデータを理解する上で最も重要なことは何ですか?

BDとBIは別々ですが、接続されています

アンドリュー・ブラスト

進化は革命ではない。

ダン・クスネズキー

最も重要なことは、ビッグデータが主流になっているということですか?科学技術企業の専門的な使用から企業のITアプリケーションに移行しています。ツーリング、使いやすさ、セットアップの容易さのための主流のIT標準は、科学技術企業のサークルよりも高いため、大きな影響があります。それで、Microsoftのような企業が、Webブラウザからリクエストして設定できるBig Dataテクノロジのクラウドベースの実装でゲームを始めるのはなぜですか?Big Dataをもっとエンタープライズフレンドリーにするための探求技術の洗練化とそれを操作するためのコストを削減する必要があります。現在のところ、この技術にはぎざぎざさがあり、導入や運用には高価で高度な専門技術者が必要です。それは変化しつつありますが、これは革命的な品質の証です。

ビッグデータは、IT市場の高性能コンピューティングニッチから沸き起こっているキャッチフレーズです。今回の新機能は、多くのサプライヤーが比較的簡単に学べる強力なツールを提供していることです;いくつかのオープンソースプロジェクト、 Apache Hadoop、Cassandra、Solrなどのツールは、低コストでツールを利用できるようにしています。

ビッグデータは過去数十年間、ほとんどの企業でExcelスプレッドシートウィザードが行ってきたこととどのように違いますか?

スプレッドシート・ジョックが行ってきたことは正当にアナリティックと呼べるが、確かにビッグ・データではない.Excelは以前に定義したビッグ・データ・セットに対応できない。 2007年まではExcelがスプレッドシートあたり16,384行以上の行を処理することはできませんでした。大規模な運用データのロードは処理できず、大規模なデータのロードはそれほど多くありません;今や、ビッグデータ分析の結果は、Excelでさらに掘り下げて調べることができます。実際、マイクロソフトでは、Excelと、Hadoopへのリレーショナル/データウェアハウスのインターフェイスであるExcelを、象徴的なBig DataテクノロジであるHadoopに接続するアドインを開発しました; Heres the low-down:小規模なデータセットの洗練された探索と分析Excelは、Big Dataテクノロジとデータセットで行われた比較的単純な作業を非常にうまく補完します。 Big Dataは、ポストプロダクションとして粗編集やExcelベースの分析として機能します。

3つのVがここに出場する。目標は、大量のデータの中から有用な情報を簡単に見つけ出すことです。このデータは、通常、数百万または数十億のレコードで測定されます。これは、Excelなどの個人的な生産性ツールが処理できるものをはるかに超えています。

私の2人の討論者はオンラインですか?

準備できました

私はオンラインで、会話を楽しみにしています。

「ビッグデータ」という用語は、すでに「クラウドコンピューティング」として過度に過剰使用され始めています。ビッグデータをどのように定義しますか?

Big Dataの主な定義は、非常にきめ細かなイベント駆動型データの調達と分析です。これには、ウェブサイトの分析とセンサデータをはるかに超えるインターネット由来のデータが含まれており、その多くは最近まで捨て去っています。排気ガスとして流出していたデータは、現在、操作、顧客のやりとり、自然現象などをより深く理解するための燃料となります。イベントデータ型のデータセットは、トランザクション型データベースシステムが効率的に処理するには大きすぎます。これらのワークロードには、Hadoop、CEP(Complex Event Processing)、MPP(Massively Parallel Processing)システムなどのBig Dataテクノロジーが組み込まれています。トランザクションシステムは改善されますが、それ以上に使用するように設計されていない閾値が存在します;その他の定義はありますが、私は、運用データベースが扱うように設計されたものを超えたイベントデータのスケーリングについて検討します。

シンプルな言葉で言えば、組織が非常に大規模なデータセットやストレージ設備を作成、操作、管理できるツール、プロセス、手順を指しています; Think three Vs. Volume;ユーザーからのデータの量Twitter、LinkedIn、Facebookなどのベース、または膨大な量のマシン/センサーデータ;バラエティ – データは、テキスト、イメージ、ビデオ、およびあらゆる種類のマシンデータフォーマット; Velocity – それがどこから来ても、毎秒数十万回、数百万回の書き込みを取らなければなりません。ビジネスアナリストや非IT担当者が分析を行うためのツールが利用可能になりました。

アンドリュー・ブラスト

この議論では、ビッグデータがより確立されたデータベース、データウェアハウス、BIおよび分析テクノロジに関連するいくつかのシナリオについて説明しました。結びつきは数多くあり、Big Dataの進歩は単なるインクリメンタルに見えるかもしれません。結局のところ、既存のツールを使い続けることができれば、その変更はどのように “Big”になるのでしょうか?

しかし、革命はこれらのツールを通じて放送されていません。それらから遠ざかっています;私たちは、安価なサーバーやディスクを使用して、膨大な量のデータを非構造化しています。そして、私たちは従来のシステムにデータをふるい落としています。私たちは新しい、より大きな質問、そしてそれらの多くに答えています。一度捨てたデータを使用しています。ストレージが高価すぎて処理が遅すぎるためです。そして、われわれは使い慣れた方法でそれを使って作業を進めている。それは力を与える。それは前例のないことです。そして同時に、それは直感的です。それは革命的です。

ダン・クスネズキー

私の役割はしばしば「システム考古学者」の役割であることがわかります。市場が成長し、何年にもわたって進化していくのを見て、多くのことを学びました。

サプライヤは新しい製品やサービスを提供し、それが独特で新しいことを宣言します。私は同じことをした1970年代、1980年代、1990年代、または2000年代の製品を彼らに伝えることによって、しばしば彼らのパレードに雨を降らさなければならなかった。多くの場合、新たな唯一のことは、製品を構築したプラットフォームです。大きなデータ製品やサービスのサプライヤが私に訪れるのに時間がかかるときも同じことが起こります。

ビッグデータサプライヤが提供しているツールは分析プロセスを容易にし、ITアナリストや非ITアナリストがより多くのデータを選別できるようにしますが、分析プロセスは変わりません。

新しいものは、基本的なプロセスではなく、データのソース、データの量、そのデータのさまざまなフォーマット、データの到着速度です。

ビッグデータは、まったく新しいものではなく、進化のステップにすぎません。

ジェイソン・ヒナー

CanonicalとMicrosoftがコンテナで共同作業

私たちには本当に忘れられる権利がありますか?

Satya Nadellaの勇敢な新しい戦略:Microsoftが実行できるか?

IBMとAppleのウェイクでは、Androidはエンタープライズチャンスを失ったのだろうか?

私たちに参加いただきありがとうございます

投稿者Jason Hiner

それは本当に技術で一番ホットな仕事ですか?

投稿者Jason Hiner

行くべき仕事の数多く

アンドリュー・ブラスト

鍵は、非ITアナリストが参加できることです

ダン・クスネズキー

米国政府のビッグデータへの投資

投稿者Jason Hiner

ビッグデータは大きな政府で働くことができますか?

アンドリュー・ブラスト

アダを覚えている?

ダン・クスネズキー

新しい仕事:データ科学者

投稿者Jason Hiner

この用語はむしろ科学的ではない

アンドリュー・ブラスト

正しい質問がすぐに現れないとどうなりますか?

ダン・クスネズキー

自然言語のクエリ

投稿者Jason Hiner

ときどき自然、時にはそうではない

アンドリュー・ブラスト

リアルタイムで何が起こっているのかを知ることは、より重要な自然言語です

ダン・クスネズキー

非構造化データ

投稿者Jason Hiner

テキストとメディアが構造化されていない

アンドリュー・ブラスト

どのように顧客に聞くのですか?

ダン・クスネズキー

BIとDWとはどう違うのですか?

投稿者Jason Hiner

ビッグデータ11へ

アンドリュー・ブラスト

BIとDWは高度に構造化されたデータを扱う

ダン・クスネズキー

最も重要な要因は何ですか?

投稿者Jason Hiner

2012年:ビッグデータの年?

アンドリュー・ブラスト

新しいツールは、以前に行われた分析のタイプを単純化するように見える

ダン・クスネズキー

Excelレポートとはどう違うのですか?

投稿者Jason Hiner

スプレッドマートはビッグデータではありませんが、役割はあります

アンドリュー・ブラスト

構造化されたデータは始まりにすぎません

ダン・クスネズキー

マイクチェック

投稿者Jason Hiner

テスト

アンドリュー・ブラスト

Dan Kはオンラインです

ダン・クスネズキー

「ビッグデータ」を定義しましょう

投稿者Jason Hiner

ビッグデータ定義

アンドリュー・ブラスト

多くの定義がそこにあります。最高の1つは、3つの対を使用しています。

ダン・クスネズキー