グーグルが15回目の誕生日を祝う中、ハミングバートと呼ばれる新しいアルゴリズムが導入された。ただし、グーグルは、ページランクを含む、その他のランキングシグナルを全て置き換えたわけではないようだ。新しいアルゴリズムの告知では、グーグルが数週間前から既にハミングバードの利用を始め、検索の90%に影響が及ぶ可能性があることが伝えられた。
ハミングバードは、検索ボックスに入力するような短いキーワードのマッチングの代わりに、音声入力で用いる、長い自然の言語のクエリの理解に秀でた、クエリの拡大または拡張のアプローチとして、描かれている。
例えば、[What is the best place to find and eat Chicago deep dish style pizza?](シカゴのディープディッシュスタイルピザを探して、食事する場所はどこが一番いい?)等のクエリは、ハミングバードに最も適していると言える。このタイプのクエリでは、グーグルは、類義語を使って、クエリ内のその他のスキップ不可なワードを分析する取り組みと組み合わせて、クエリのルールを置き換え、クエリの用語のコンテクスト、そして、当該のクエリに取って代わるクエリを理解し、検索された用語を再編成(または交換)することで、より質の高い結果を提供することが出来る。
グーグルは、[What is the best place to find and eat Chicago deep dish style pizza?]を確認し、このクエリの結果を求めているユーザーは、「place」(場所)の代わりに「restaurant」(レストラン)を利用すると、より満足する可能性が高いと理解する。
「place」の代わりに「restaurant」を利用する判断は、検索結果に共起、つまり、共に現れる用語(当該の用語の検索が行われた場合)、あるいは、クエリのセッションで共起する用語に焦点を絞る、交換ルールに基づき、類義語または代わりのワードとして考慮されると見られる。
あるクエリと別のクエリの関係等、異なる検索のエンティティの分析により、一連の検索結果の中からあるページを選び、そのページに滞在した時間等の基準に応じて、検索結果に対するユーザーの満足度が改善されていると特定されるようだ。
今週、グーグルは、最近seobythesea.comに投稿した記事(上にリンクを掲載)で取り上げた3点の特許をベースとした特許を公開した。私がこの記事の中で取り上げていた特許は、本日発表されたハミングバードアルゴリズムにとてもよく似ていた:
共起する用語を基に類義語を特定
発明: Abhijit A. Mahabal、Takahiro Nakajima、Zachary A. Garrett、Kenji Inoue
付与先: Google
米国特許番号: 8,538,984
付与日: 2013年9月17日
申請日: 2012年4月3日
概要
以下の目的のために、コンピュータの保存メディアにエンコードされたコンピュータプログラムを含む、メソッド、システム、そして、装置:
- もともとの検索クエリの具体的なクエリ用語を特定する
- もともの検索クエリの中では具体的なクエリとは接していない、他の非隣接クエリとの関係における、具体的なクエリの類義語の候補を特定する
- 具体的なクエリと類義語の候補を含む用語のペアに対して、その他の非隣接クエリの用語のそれぞれの信頼値を識別する、保存されたデータにアクセスする
- 保存されたデータにおいて、その他の非隣接クエリの用語が、基準を満たしているかどうかに応じて、信頼値を特定する
- 他の非隣接クエリの用語が基準を満たした信頼値の特定を基に、もともとの検索クエリを変更して、具体的なクエリの類義語の候補を盛り込む判断を下す
この特許は、共起の計測は、候補の用語/類義語のペアを、当該の用語が共に現れる頻度、関連するユーザーのクエリ(クエリのセッション内の続きのクエリ等)に対して現れる頻度、または、関連するクエリの結果で共に現れる傾向の頻度を基に評価するために用いられると説明している。
グーグルは、類義語のデータベースから複数の類義語を検討し、クエリ全体のコンテクストにどれだけフィットするかを確認する。例えば、用語「car」と「auto」は、とりわけ、 [car mechanic]や[auto mechanic]等のクエリで用いられている場合、類義語と考えられることが多いものの、[railroad car]や[railroad auto]等のクエリのコンテクストでは、類義語扱いされない。
[railroad car]を検索した人物が、この用語の結果に加えて、あるいは代わりに[railroad auto]の結果を望んでいる確率は低い。先程リンクを張った「交換ルール」に関する記事の中でも指摘しているように、類義語にも同様のルールが策定され、ともに類義語または代わりのワードのデータベースを作るために用いられる可能性がある。このデータベースには、共起のデータ等を基にした、用語が類義語または代わりのワードに値するかどうかにおける自信のレベル、そして、同じクエリ内のその他の用語に関わるルールを基に、類義語または代わりのワードかどうかにおける自信のレベルに関するデータが含まれると考えられる。
2005年にグーグルが申請した特許には、同様の領域が多く取り上げられており、また、関連する特許として、特許の審査官によって言及されている — クエリのコンテクスト内でクエリの用語の類義語を特定。この特許に関しては、グーグルに付与された後、 「グーグルがクエリ内のワードの類義語を使って検索を拡大する仕組み」で説明している。このタイプのクエリの拡大における概念は、長年、グーグルで検討されてきた。
ハミングバードとの関係
キーワードを検索ボックスに入力する行為自体は、問題視されていないものの、音声でクエリを入力する際、ユーザーはキーワードのマッチングを諦めているように思える。検索ボックスには[chicago style pizza restaurant]のようなクエリが入力されるものの、携帯電話での音声検索においては[What is the best place to find and eat Chicago deep dish style pizza?]等のクエリが用いられる傾向が強い。
この特許では、前後関係を考慮してクエリが用いられ、当該のクエリ内の別のワードを類義語や代わりのワードで置き換えることが可能な他のワードを正確に理解する仕組みの例が豊富に紹介されている。
ハミングバードのアルゴリズムは、この特許の説明とは若干異なる仕組みで動く可能性はあるものの、共通点は多数見受けられる。これは、ハミングバードの特許なのだろうか?皆さんの意見を聞かせてもらいたい。
この記事は、SEO by the Seaに掲載された「The Google Hummingbird Patent?」を翻訳した内容です。