データサイエンティストのいない企業でもHadoopを有効利用できるビッグデータ分析サービスDatameer

最近は、データサイエンティストでないふつうの人にデータ(とくにビッグデータ)分析を提供するプラットホームが増えているが、Datameeerもその一つだ。コンピュータといえば仕事でスプレッドシートを使うぐらい、という圧倒的多数のコンピュータユーザが、こうやって徐々に本格的なデータ分析に接近しつつある。

Datameer 3.0には、“Smart Analytics”(スマートアナリティクス)と呼ばれる機能があり、それによって、データサイエンティストたちがつねに自分でゼロから計算するようなワークを、あらかじめ組み込んでいる。そろそろ、こういう抽象化〜ラッパー化があってもよい頃合いだ。Hadoopの普及率は今ではとても高いから、今度はそうやってそのアクセス性が向上すべきだ。

そのための重要な課題が、雑多なデータの統合化だ。すべてのデータを集めて、それらを分析可能に整理すること。また物理面では、サーバクラスタのセットアップ、という課題もある。さらに、技術者でない者にも理解できるユーザインタフェイスも必要だ。そしてもちろん、分析結果がユーザの仕事に活をいれる、有益なものでなければならない。

Datameer 3.0のSmart Analyticsは、以下の4つの方法でデータ分析を単純化する:

  1. レコードをクラスタ化してデータ集合中に有意なグループが見られるようにする。データは、位置データ、写真、顧客のオペレーティングシステムなどさまざまだ。このクラスタ化により、ユーザはたとえば顧客リスト中の顧客データを有意義に分類できる。
  2. デシジョンツリーが目的とする結果を表示し、その中の多様な要因を分析して、デシジョン(意思決定)に導く過程を一望する。
  3. カラムディペンデンシー(column dependencies, カラム間依存関係)により異なるカラム間の関係を表示し、データ間の、それまで自明的ではなかった結びつきを明らかにする。たとえば、位置と疾病タイプの関係や、職階とクレジットスコアの関係が分かったりするだろう。
  4. ユーザの履歴データに基づいて、次はどんなものに関心を持つかを予測し、個人化されたリコメンデーションを生成するような、リコメンデーションエンジンを提供する。この機能により企業ユーザはユーザに対し、より関係性のあるより有意義なリコメンデーションができるようになる。社内にデータサイエンティストがいなくても。

CEOのStefan Groschupfが今日(米国時間6/24)のブログ記事で、市場の現状について述べている。Hadoopはそのほかの技術と同様に進化してきているので、今や何かをスクラッチで(==ゼロから)作る必要はない。Hadoopベースのサービスの中には、カスタム化ができず、長期的なメンテナンスが困難なものもある。しかし今では、Hadoopを企業がより現実的に活用できるためのサービスもあるのだ、と。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))