LinkedInのメタデータツールDataHubを商用化するAcryl Dataが約10億円を調達しステルスを脱却

2019年、LinkedInのエンジニアリングチームは「DataHub」を発表した。同社の膨大なデータコレクションからインサイトを整理、検索、発見するのに役立つように構築されたメタデータツールだ。LinkedInは2020年にこれをオープンソース化している。そしてこのたび、DataHubの開発者の1人と、Airbnbのデータポータルの開発に貢献した元上級エンジニアが共同で設立したスタートアップがステルスを脱し、LinkedInなどの支援を受けて、DataHubプラットフォームをその最新チャプターとなる商用化へと導こうとしている。

Acryl Dataと名付けられた同社は米国時間6月24日、8VCが主導し、LinkedInとInsightも参加した900万ドル(約10億円)でローンチした。企業が自社のビッグデータのニーズに合わせてこのツールを利用できるように支援していく。

Acryl Dataの推進力は、ビッグデータが、運用に大規模なデジタルコンポーネントを有する組織にインパクトを与える難しい課題を抱えているという、顕著な事実から生み出されている。具体的には、ビッグデータの組織化や理解を促進し、断片化されたビッグデータの宝庫(SnowflakeやDatabricks、Lookerなどの複数の場所から取得されたり、そこで利用されている情報を含む)を最大限に活用できるようにすることだ。従来、大手テック企業はこの問題に対処する上でより革新的な存在となっており、その多くは自社の技術をオープンソース化して他の企業が利用できるようにしている。

Acrylの創業者たちにとってのブレークスルーは、メタデータがビッグデータ情報を整理するための鍵を握ると認識したことを契機に訪れた。同社を立ち上げる前、まだ彼らがそれぞれの大手テック企業で働いていた頃のことだ。

「メタデータに関して興味深い側面は、それが事実上ビッグデータにおける解決すべき問題になっていることです」と、LinkedInでCEOを務め、Swaroup Jagadish(スワロウプ・ジャガディシュ)氏(AirbnbのCTO出身)と共同で同社を設立したShirshanka Das(シャルシャンカ・ダス)氏は語る。「つまり、私たちが保有するデータインフラのDNAはすべて、大規模なデータコレクションの構築、ストリーミング、インデックス作成、検索といった点で、現代の企業の要求に実際に対応できるメタデータ管理ソリューションを必要としているのです。それこそが当社が提供する、解決の鍵となる妙策であると考えています。私たちは、データインフラを適切に運用するためのベストプラクティスを取り入れたメタデータプラットフォームを構築し、それをメタデータインフラの運用に適用することを可能にしました」。

オープンソースプロジェクトとして、DataHubは大きな牽引力を得ている。LinkedIn自身に加えて、Expedia、Saxo Bank、Klarnaをはじめとする多くの企業が、本質的には一般化されたメタデータ検索および発見ツールであるこのフレームワークを利用しており、独自のメタデータグラフを構築して、さまざまなデータエンティティを相互接続している。プロジェクト全体でGitHubのスターは3200人を超え、100人以上のコントリビューターがいる。

Acryl Dataは、他のオープンソースの商用化の取り組みと同様、フレームワークのスケールアップを容易にし、より多くのユースケースに適用できるようなツールセットの構築に着手している。特に、これらの実装を独自に構築するリソースが不足している企業に向けたものだ。その第1弾は、Airbnbのデータポータルから得た設計情報に基づくデータカタログになるという。LinkedInは、今後の製品に関して、より広範なオープンソースコミュニティに加えて、Acryl Dataとの協業を進めていく予定だ。

LinkedInの最高データ責任者であるIgor Perisic(イゴール・ペリシク)氏は、声明の中で次のように述べている。「LinkedInの世界経済に対する独自の見解は、データ駆動型のインサイトとAIを活用した製品を通じて、世界中の何億人もの人々の経済的成果を改善する機会をもたらします。適切なデータを発見して、研究者やエンジニアが毎日使用する何万もの派生データセットをナビゲートし、それらを適切に管理するために、DataHubの存在は欠かせないものです。Acryl Dataと提携して、DataHubをさらに進化させていくことに、私たちは大きな期待を寄せています」。

これは意義深い好機といえるだろう。同じ分野の競合であるCollibraは、2020年に23億ドル(約2540億円)の評価額でラウンドを行った。別の競合、Alationは2021年6月初めに12億ドル(約13330億円)と評価された。しかし、イノベーションの余地は十分に残されており、この分野で最も基礎的なツールを開発した人財がこの課題に取り組むために起業家として留まっているのを見るのは、とても興味深いことだ。

「最新のデータスタックにおいては、メタデータの管理方法を根本的に見直す必要があります」と、Insight PartnersのMDであるGeorge Mathew(ジョージ・マシュー)氏は声明の中で語っている。「次世代のリアルタイム・メタデータ・プラットフォームが求められています。Acryl Dataは、DataHubでの先駆的な活動をベースに、この変革をリードしていく最高のチームです」。

画像クレジット:Who_I_am / Getty Images

原文へ

(文:Ingrid Lunden、翻訳:Dragonfly)

Googleが膨大な数の「ヘタクソな絵」を公開した、AI研究者にとっては面白いネタの宝庫だ

昨年の11月に、Googleはファンキーな機械学習実験のいくつかを発表した。中でも目立っていたのがQuick, Draw!だこれは、あなたが何かをスケッチすると、画像認識システムがそれが何かを推測するゲームだ。そして今Googleはこのゲームのプレイヤーたちが残した膨大な結果を、AI研究者たちが利用できるように、オープンデータとしてリリースした。

さて、この膨大な(5000万にも及ぶ)帽子、靴、そして猫のヘタクソな絵の集まりをただ眺めていくのは、とても退屈そうだ。だが安心して欲しい。それがこの記事の本題ではない。

ここでの本題はメタデータに関するものだ。これらの絵はさまざまな国から来たもので、例えばドイツと韓国ではネコの捉え方がどう異なっているのかを見るのは楽しい。あるいは椅子とか!

へえ。

よく見てみよう。そこには注目に値するパターンが存在する。明らかに、韓国語とロシア語の人たちは、椅子を斜めにまたは横方向から描く傾向があった。何故か?それこそが、このデータを用いてこの先作られる機械学習システムが、発見することを期待されていることだ。

実際、興味深い違いがたくさん存在する。Googleの投稿が指摘しているように、スニーカータイプのシューズへの大きなバイアスがかかっていたため、システムはハイヒールやサンダルの認識に問題があるだろう。そして、ネコはどうだろう?確かに人びとが、ネコたちを描く際に選んだサブ(ネコ)カテゴリが存在している。実際私が1回これを試した時には、ネコの全身を描いた。私は珍しく丁寧な例外なのだろうか?ああ、もし私が、ヒントを見い出すための機械学習システムの作り方を知っていたなら。

Googleは、彼らの新しいファセットツールを使用して、セット内の膨大なデータを視覚化することを勧めている。そして、そこがこの全体の中でも、本当に興味深いところだ。このように膨大なデータセットを持っている場合、たとえ全体レベルからでも、粗いパターンや追求する価値のあるアイデアを見つけられるようにするために、どのようにそれらを並べ替えて、観察することができるだろうか?そして、体系的なバイアスや、改善のチャンスのようなものは、どのように見つけ出すことができるのだろうか?

今回の5千万枚の絵は単なる始まりに過ぎない。他の7億5000万枚以上の絵がこの先徐々にリリースされる予定だ。そしておそらく、他のプロジェクトの興味深いデータもリリースされることだろう。最新情報のために、Google Researchブログ(もちろんTechCrunchにも)注目していて欲しい。

[ 原文へ ]
(翻訳:Sako)