データを発見しそれらの起源・出自を調べるLinkedInの社内ツールWhereHowsがオープンソース化

linkedin-chocs

LinkedInが今日(米国時間3/3)、WhereHowsをオープンソース化した。WhereHowsは主に同社の社員が、同社が生成するデータを見つけ、また同社のさまざまな内部的ツールやサービスで使われているデータ集合の出自を調べるために使っている、メタデータツールだ。

今では多くの企業が毎日のように大量のデータを作り出しているから、それらの情報のフローを全社的に管理することがほとんど不可能になっている。データウエアハウスに保存するのはいいけれども、結局のところ、同じようなデータ集合が大量に集積したり、元のデータ集合のいろんなバージョンが散乱したり、いろんなツールで使うためにデータ集合がさまざまに変形されていたりする。まったく同じデータが、名前やバージョンを変えて複数のシステムにあることもある。だからたとえば新製品開発をこれから始める、というとき、あるいは単純に役員が見るためのレポートを作ろうとするとき、どのデータ集合を使えばよいのか、よく分からないことが多い。

2016-03-03_0839

LinkedInのShirshanka DasとEric Sunによると、同社もまさしく、この問題に直面していた。そこで彼らは、WhereHowsを開発した。それは、LinkedInのような大きな企業で、データに何が起こっているかを常時追跡するための、中央的リポジトリ兼Webベースのポータルだ。今では中小企業ですら、大量かつ雑多なデータの整理や管理に悩まされているだろう。LinkedInでは、WhereHowsが現在、約5万のデータ集合と14000のコメントと3500万のジョブ実行の、ステータスに関するデータを保存している。それらのステータスデータは、約15ペタバイトもの情報に対応している。

LinkedInはHadoopの大ユーザーだが、このツールはほかのシステムのデータも追跡できる(Oracleデータベース、Informatica、などなど)。

WhereHowsはAPIとWebの両方でアクセスできるから、社員たちはデータ集合の出自や由来を視覚化したり、注釈を加えたり、いろんなことができる。

DasとSunによると、LinkedInは、そのサービス本体に属していないプロダクトをこれまでも長年、オープンソース化してきた。その基本的なねらいは、会話を喚起することだ。ビッグデータの大きなエコシステムがあれこれのツールを採用すると、同社もそのことで結果的に得をする。これまでぼくが取材してきた多くの企業と同様に、LinkedInでも、オープンソースが同社の技術のブランドイメージを高め、すぐれた人材の獲得を容易にするのだ。

2016-03-03_0844

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。