米国時間5月15日、Microsoft(マイクロソフト)11は、Bing検索サービスが検索結果をユーザーにすばやく返す技術の主要部分をオープンソース化したことを発表した。このテクノロジーをオープン化することによって、デベロッパーが小売業など他の巨大データ検索が行われる分野でも同様の体験を提供することを同社は期待している。
今日オープンソース化されたのは、収集したデータをより有効に活用するために同社が開発したライブラリーと、Bingのために作られたAIモデル。
「ほんの数年前まで、ウェブ検索はシンプルだった。ユーザーがいくつか単語を入力し、結果ページをめくっていく」と同社が発表リリース文で言った。「今日では、その同じユーザーが携帯電話で撮った写真を検索ボックスにドロップしたり、端末に物理的に触れることなくAIアシスタントに質問している。さらに、それらしい答の書かれたページ一覧ではなく、具体的な答えを期待して質問をするユーザーもいる。
オープンソース化されたPythonライブラリーの中核をなす空間分割ツリーグラフ(SPTAG)アルゴリズムを用いることで、Microsoftは数十億件の情報をミリ秒単位で検索することができる。
ベクトル検索自体はもちろん新しいアイデアではない。Micrsoftはこのコンセプトをディープラーニングモデルに応用したこと。開発チームはまず、事前訓練済モデルのデータをベクトルにエンコードした。それぞれのベクトルは単語またはピクセルを表現している。次に新しいSPTAGライブラリーを使ってベクトルインデックスを生成する。検索クエリがやって来ると、ディープラーニングモデルがテキストや画像をベクトルに変換し、ライブラリーがインデックスから最も関連の深いベクトルを見つける。
「Bing検索では、検索エンジンがインデックスした1500億件以上のデータをベクトル化することで、伝統的キーワードマッチングを改善した」とMicrosoftは言う。「ベクトルは1つの単語や文字からウェブページの断片、検索クエリ全体、その他のメディアまで多岐にわたる。ユーザーが検索すると、Bingはインデックスされたベクトルをスキャンしてベストマッチを返す」
ライブラリーは現在MITライセンスの下で利用可能で、分散ベクトルインデックスを構築、検索するためのツールもすべて提供されている。 このライブラリーを利用するための詳細情報やサンプルアプリはここで入手できる。
[原文へ]
(翻訳:Nob Takahashi / facebook )