マイクロソフトがBing検索の重要アルゴリズムをオープンソース化

米国時間5月15日、Microsoft(マイクロソフト)11は、Bing検索サービスが検索結果をユーザーにすばやく返す技術の主要部分をオープンソース化したことを発表した。このテクノロジーをオープン化することによって、デベロッパーが小売業など他の巨大データ検索が行われる分野でも同様の体験を提供することを同社は期待している。

今日オープンソース化されたのは、収集したデータをより有効に活用するために同社が開発したライブラリーと、Bingのために作られたAIモデル

「ほんの数年前まで、ウェブ検索はシンプルだった。ユーザーがいくつか単語を入力し、結果ページをめくっていく」と同社が発表リリース文で言った。「今日では、その同じユーザーが携帯電話で撮った写真を検索ボックスにドロップしたり、端末に物理的に触れることなくAIアシスタントに質問している。さらに、それらしい答の書かれたページ一覧ではなく、具体的な答えを期待して質問をするユーザーもいる。

オープンソース化されたPythonライブラリーの中核をなす空間分割ツリーグラフ(SPTAG)アルゴリズムを用いることで、Microsoftは数十億件の情報をミリ秒単位で検索することができる。

ベクトル検索自体はもちろん新しいアイデアではない。Micrsoftはこのコンセプトをディープラーニングモデルに応用したこと。開発チームはまず、事前訓練済モデルのデータをベクトルにエンコードした。それぞれのベクトルは単語またはピクセルを表現している。次に新しいSPTAGライブラリーを使ってベクトルインデックスを生成する。検索クエリがやって来ると、ディープラーニングモデルがテキストや画像をベクトルに変換し、ライブラリーがインデックスから最も関連の深いベクトルを見つける。

「Bing検索では、検索エンジンがインデックスした1500億件以上のデータをベクトル化することで、伝統的キーワードマッチングを改善した」とMicrosoftは言う。「ベクトルは1つの単語や文字からウェブページの断片、検索クエリ全体、その他のメディアまで多岐にわたる。ユーザーが検索すると、Bingはインデックスされたベクトルをスキャンしてベストマッチを返す」

ライブラリーは現在MITライセンスの下で利用可能で、分散ベクトルインデックスを構築、検索するためのツールもすべて提供されている。 このライブラリーを利用するための詳細情報やサンプルアプリはここで入手できる。

[原文へ]

(翻訳:Nob Takahashi / facebook

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。