9月(2003年)、Googleは、検索エンジンのユーザーが投稿したクエリを書き直すアルゴリズムを導入したと発表した — このアルゴリズムには、「ハミングバード」と言うコードネームが与えられていた。当時、私はハミングバードとの関連性がとても高いと見られる特許に関する記事を作成していた。この特許は、長く、複雑なクエリを書き直し、その一方で、クエリ内の全てのワードに注目する取り組みに焦点を絞っていた。そのため、私はこの記事に「Googleハミングバードと思われる特許を分析」(日本語)と言うタイトルをつけた。
野草に関する記事の画像 — US Forest Serviceのビル・メイ博士
Googleには、クエリの書き直し(クエリの拡大やクエリの拡張と呼ばれることもある)に関する複数の特許が与えられている。これは、ユーザーがニーズを満たすために必ずしも最適なキーワードを選択していなくても、検索エンジンが、ユーザーが求めている結果に近い結果を提供する確率を高めるための取り組みである。また、最近、私は、Googleが、クエリを書き直す仕組みに関する特許を取り上げたが、Googleは、ページのランク付けの可能性を正しく理解するために、検索の情報のやり取りに注視する枠組みを作っているように思えた。
検索のスペリシャリスト、ダニー・サリバン氏は、ハミングバードの変更点をよくある質問集形式(日本語)でまとめており、その中に、次の質問と回答が掲載されていた:
新しいエンジンは古いパーツを利用しているのか?
どちらとも言えない。一部のパーツは今でも問題なく動くため、捨てる理由はないが、頻繁に交換が行われるパーツもある。グーグル曰く、ハミングバードは、既存のパーツと新しいパーツで構成された新しいエンジンであり、10年前のテクノロジーを用いて10年前の需要に応えるためではなく、現在の検索の需要に応えることを念頭に置いて、整備されている。
以前から、クエリの書き直しに関する特許の作成にGoogleが取り組んでいたことを知っていた私は、この難題にチャレンジすることに決めた。ハミングバードの仕組みを描写した、約10年前に申請された特許を見つける決意をしたのだ。私は真剣に捜索を行い、その結果、Googleの検索の品質を統括し、先日のハミングバードの告知にも関わっていたアミット・シンガル氏が、考案者に名を連ねる特許を探し当てることに成功した。この特許で描かれているテクノロジーは、よく似ているものの、遥かにシンプルであり、モバイルデバイスのユーザーが、会話型の検索に対応する際に抱えるニーズに焦点を絞っているようには見えなかった。当該の特許は、次のようにこのテクノロジーを説明している:
ユーザーが入力する検索クエリは、通常、ユーザーが求める情報を表現する多くのクエリのうちの1点のみである。例えば、車の交換部品を探している場合、検索クエリ「car parts」を入力すると推測される。しかし、検索クエリ「car part」、「auto parts」、もしくは、「automobile spare parts」は、関連する結果を返す上で、「car parts」と同程度、もしくは、それ以上に有効だと見られる。通常、ユーザーのクエリには、ユーザーが適切と見なす文書を返す上で有効な複数の代わりのクエリが存在する。
従来、1つ目のユーザーのクエリに関連する追加のクエリは、検索用語の異なる形式に応じて(例えば、「part」や「parts」)、あるいは、検索用語の類義語に応じて(例えば「car」の代わりに「auto」)、検索エンジンによって自動的に作られる。こうすることで、検索エンジンは、ユーザーの検索クエリとは完全にマッチするわけではないものの、同じように関連する文書を見つけられるようになる。
面白いことに、この過去の特許は、2003年に申請されていたものの、付与されたのは2011年であった。
クエリの意味の情報に基に検索クエリを改善
考案: アミット・シンガル、メヘラン・サハミ、ジョン・ランピング、マーシン・カスケル、モニカ H. ヘンジンガー
付与先: Google
米国特許番号: 8,055,669
付与日: 2011年11月8日
申請日: 2003年3月3日
概要
検索エンジンに対する検索クエリが、検索クエリから得られる情報を考慮して、当該の検索クエリの用語に意味が近い代わりの用語を盛り込むことで、改善される可能性がある。ここでは、検索クエリ内のもともとの用語の意味が近い一連の代わりの用語の初期のセットが作られる。
初期の代わりの用語のセットは、もともとの検索クエリから得られる情報と比較される可能性がある。例えば、1つ目の検索クエリを使って行われた検索に対する文書の情報が挙げられる。もともとの検索クエリから得られる情報との関係を基に、もともとの検索クエリに1つ、または、複数の代わりの用語が、加えられることもあり得る。
この特許は、クエリの書き直しには、複数の方法が存在すると指摘している。また、2つのメソッドを紹介しており、クエリ内の一部の用語を使い、もともとのクエリ内のワードの一部を変形するために「語幹解釈」を用いるか、もしくは、類義語辞典でワードを調べるかのいずれかが採用されるようだ。語幹解釈は、同じ語幹を持つワードに注目し(例えば、congressとcongressional)、同じワードのバリエーションを用いてクエリを書き直す。類義語辞典の利用は、「car」を「automobile」等の類義語で置き換える仕組みを用いていると考えられる。
2013年に付与された特許は、この2つのアプローチの問題点を次のように説明しているs:
語幹ベース、および、類義語ベースの手法を使って、追加の検索クエリを探そうとすると、同じ状況では、同じような意味を持つものの、異なる状況では意味が異なる2つのワードを処理する際に、大きな問題が生じる。例えば、「automobile」は、クエリ「Ford car」においては、「car」に近い意味を持つものの、クエリが「railroad car」の場合は異なる。その結果、このアプローチを採用すると、無関係の結果を返す検索クエリを作り出してしまうことがある。また、クエリ「jaguars」が、語幹「jaguar」から生じる場合、クエリの意味が、動物から、人気の高い自動車メーカーに変えられてしまうこともある。
私が「ハミングバードの特許」と呼ぶ最近の特許は、語幹解釈や類義語、あるいは、Googleが研究してきた類義語を特定する手法には全く触れていない。しかし、どちらの特許も、クエリとして用いられる各用語に対して、検索結果内で、もしくは、クエリのログファイル内で、同時に起こるワードを、クエリを書き直すために用いる類義語の候補として、特定する仕組みを描いている。2003年に申請された特許もまた、もともとのクエリの「クエリのコンテキスト」を理解して、意味の通るクエリを書き直す試みを取り上げている。
もともとのクエリ全体のコンテキストを考慮している新しい特許は、クエリを書き直すために用いるプロセスを、より分かりやすく説明している。従って、新しい特許は、このタイプのクエリの前処理の仕組みについて精査を重ねた後で、作られた可能性がある。特許「共起する用語をベースとした類義語の特定」では、このプロセスにおいて、クエリのコンテキストは重要な鍵を握ると指摘していた:
基本的に、この特許で描写されているテーマにおいて斬新な点は、検索クエリに含まれている特定のクエリに対して、前後以外のコンテキストを使って、類義語の候補を評価するメソッドに表れている。特定のクエリの用語の前後以外の検索クエリに含まれる追加の用語に応じて、候補の類義語が、当該のクエリの用語にとって、類義語なのか、もしくは、代わりの用語なのかを特定するため、評価が行われる。例えば、検索クエリに複数の用語が含まれる場合、検索クエリの始めに位置するクエリの用語内の特定のコンテキストが、最後に位置するクエリの用語によって定義されることがある。クエリの用語に対するコンテキストを利用すると、「候補の類義語 = 当該の特定のクエリの用語に対する類義語」である点に関して、自信を持つことが可能になる。
現在のテクノロジーと10年前のテクノロジーでは、共起する用語を探して、クエリのコンテキストをより正確に理解するシステムを基に、セマンティックを分析する精度が改善されたように思える。
結論
ここ数週の間に、ハミングバードをより分かりやすく説明しようと試みるブログの記事が多数投稿されていた。
中には、ハミングバードを、Googleのナレッジグラフベースを活用して、クエリやページを説明する固有のエンティティを理解するためのアルゴリズムと説明するブログがあった。しかし、ハミングバードの告知では、検索の90%が影響を受けると指摘されており、特定の人物、場所、事象のクエリだけが影響を受けるとは考えにくい。また、今回紹介した特許で挙げられていた例には、固有のエンティティは含まれていなかった。
schema.orgのマークアップ等、セマンティックをベースとしたアプローチが、ハミングバードの仕組みにおいて重要な鍵を握っているのではないか、と問われたことがあるが、私は否定的な見方をしている。schema.orgのマークアップは、インデックスするページの内容を検索エンジンが理解する上では役に立ち、リッチスニペットにつながる可能性はあるものの、クエリを書き直し、コンテキストを正確に理解する取り組みとは関係がない。
ハミングバードを考慮して、キーワードリサーチの方法やコンテンツの作成を変えた方が良いのだろうか?キーワードを調べている際にコンセプトに焦点を絞っているなら、変える必要はないだろう。「キーワードリサーチの代わりにコンセプトリサーチを行うべきか?」の中で、私は次のように指摘した:
何らかのトピックに関して記事を作成している時、あるいは、キーワードリサーチを行う時は、利用することに決めたワードが、ワードをつなげただけではなく、様々な側面を持つ特定のコンセプトを表現するように心掛けるべきである。
ハミングバードを考慮して、リンク構築を変えるべきだろうか? Googleのランク付けにおいて、ページランクは今でも用いられており、また、リンクをページに集める取り組みは、引き続き実施する必要があると思われる。しかし、ハミングバードアルゴリズムでは、各種の検索エンティティの間の関係に関して、データが集められる方法を正しく理解することが、検索結果のランキングに影響を与えるようになると推測される。検索エンジンのユーザーが、特定のクエリに対して、特定のページをクリックして、長時間留まる傾向があるなら、クリックして、滞在するページは、ハミングバードの下で、上位に押し上げられる可能性がある。
追加: 2013年11月10日 – 2013年11月5日、同じ特許(クエリの意味の情報を基に検索クエリを改善)の続きがGoogleに付与されていた。新たに付与された特許では、請求項が、実に興味深い内容に、大幅に書き直されていた。新しい特許は、クエリ内のもともとの用語に代わりの用語を用いて、逆文献頻度をカウントし、修正されたクエリの結果のセット、および、もともとのクエリの結果のセットにおいて、代わりの用語が表示される回数を確認する手法を描いている。この特許の更新が行われたタイミングに、実に興味をそそられる。以下のリンクは、本特許の古いバージョンへと導くので、お望みなら、請求項を比較してもらいたい。
この記事は、SEO by the Seaに掲載された「Google’s Hummingbird Algorithm Ten Years Ago」を翻訳した内容です。