In-Depth Articles、そして、今後のオーサーランク等の機能において、オーサー(作者)の専門分野を理解する上で、ハミングバードは重要な鍵を握っているのだろうか?コンセプトベースのナレッジベースを利用して、オーサーのコンテンツが考慮されるため、その可能性は十分にあり得る。
Googleの検索エンジンに大きな変更を加えたハミングバードアルゴリズム(日本語)の目標は、スマートフォンに音声で入力するタイプの長く、複雑なクエリを正確に理解することだけではない。ハミングバードは、ウェブページ、Google+の投稿、投稿に掲載されたコメント、ツイート、ステータスアップデート等のソーシャルシグナルの中で、そして、メッセージに対するコンテキストの情報が少ない、短いテキストベースのメッセージの中で、記述され、そして、議論されたコンセプトとトピックを正しく理解することも目標に掲げている。
以下のスクリーンショットには、Probaseのコンセプトを基調としたナレッジベース(確率的ナレッジベースを用いた短文テキストの概念化から抜粋)を使って、ツイートを分析することで得られるコンセプトが記述されてている:
Googleは、とりわけ固有名詞を含むクエリが入力された際、検索結果の隣にナレッジパネルを提示している。例えば、[Jerry Lewis](ジェリー・ルイス)を検索すると、Googleは、ウェブ上のページから抜粋したJerry Lewisのデータを表示する。この中には、Wikipediaに掲載されている情報、Jerry Lewis(コメディアン)が出演するイベント、出演したことがあるテレビ番組や映画、そして、Jerry Lewisを検索した際に、検索されることが多い人物 — Dean Martin、Bob Hope、Tony Curtis、Milton Berle等が含まれる。
Kanye Westで検索を行うと、データ、作詞を担当した曲の名前、パフォーマンスを行った曲の名前、リリースしたアルバム、そして、Kanye Westを検索した際に、検索されることが多い人物名等、同様の結果が表示されるが、Jerry Lewisの名前は盛り込まれていない。
どちらのケースにおいても、Googleは、クエリ内の固有名詞を認識し、ナレッジベースでリサーチを行い、ナレッジパネルを表示している。また、表示するウェブ検索結果にもこの情報を利用する。しかし、Googleは、エンティティ(固有の人、物、物事)を調べているだけではない可能性がある。ユーザーが検索したことがあるクエリを検討する際に、エンティティのコンセプトと属性も探すと見られている。エンティティ、その属性、コンセプト、そして、キーワードを含むナレッジベースは、検索されたクエリを拡大して、上のProbaseの例のように、広範な関連する検索結果を表示する上で有効である。
Googleがコンセプトベースのナレッジベースを構築する仕組み
ハミングバードを深く理解するため、最近、私はMicrosoftのコンセプトベースのナレッジベース「Probase」について、2本の投稿「あなた、あなたの会社、または、製品はナレッジベースに存在しますか?」と「コンセプトベースのウェブ検索」の中で精査した。コンセプトを基盤としたナレッジベースを構築し、クエリの内容を正確に理解する各種の方法に関する特許が、昨年、Googleに付与されていた。また、Microsoftが発表したレポート「確率的ナレッジベースを用いた短いテキストの概念化」も同様の領域を取り上げている。以下に、その一部を抜粋する:
このレポートでは、コンセプトに関して、(世俗的な知識に関して、人間の知能と同じぐらい)豊かな情報を持つ確率的ナレッジベースを使って、テキストの理解度を改善する仕組みを紹介する。その後、ワードと短いテキストを概念化するための、ベイジアン推論メカニズムを開発した。我々は、テキストの用語の概念化において広範な実験を行い、Twitterのメッセージのような短いテキストを分割した。
潜在的なセマンティックのトピックのモデル化等、純粋に統計的なメソッド、もしくは、既存のナレッジベース(WordNet、Freebase 、Wikipedia)を用いるメソッドと比べて、我々のアプローチは、クラスタリングの精度を反映し、短いテキストの理解を大幅に改善する。
今後、短いテキストのメッセージを正確に理解するため、そして、オーサーが作成する記事のトピック、および、ウェブのページ上で議論されるトピックを理解するために用いられる、コンセプトベースのナレッジベースを作る仕組みを描いた、Googleに付与された複数の特許を私は調べていくつもりだ。
オーサーシップ & トピックの専門性の特定
Googleのオーサーシップは、ウェブ上、および、Google+やウェブのその他の場所で、自分が作成したコンテンツにデジタル署名を行うプログラムである。Googleは、オーサーが作成したメッセージ、ブログの投稿、そして、記事を理解し、取り上げるトピックに応じて、計測を行い、採点する手法を研究していると考えられる。「GoogleがGoogle+やソーシャルネットワークでユーザー生成コンテンツをランク付けする仕組み」の中で、私はGoogleが、このようなユーザー貢献(評価)スコアを作成する仕組みを描写した特許を取り上げていた。
評価と専門知識を、様々なトピックにおける各種のスコアと併用して、ランキングシグナルとして利用するためには、Googleは、ユーザーが作成した作品のコンセプト、そして、コンセプトと各種のトピックとの関連性やフィット感を理解するスキルを必要とする。「In-Depthの検索結果での表示」に関するページで、Googleは次のように説明している:
オーサーシップのマークアップは、アルゴリズムが、関連するオーサーとエキスパートを見つけ、検索結果で提示する上で有効である。
オーサーが特定のトピックで専門知識を持っているかどうかを判断するためには、Googleは、作品の内容を理解して、関連するトピックを取り上げている他のオーサーと比べて、どの程度の専門知識を持っているかを判断することが出来る必要がある。Pubcon 2013のキーノートプレゼンテーションで、オーサーのオーソリティについて、Googleのマット・カッツ氏は次のように語っていた:
Googleは、オーソリティを検知し、押し上げることにも注目している。 医学の分野を例にとって説明していこう。 医学分野でオーソリティとして認められている人物なら、そのことをGoogleに伝え、医学分野のクエリが現れた際に、上位に押し上げてもらいたいはずだ。これは手動の作業ではなく、個別のトピックの領域を選択しているわけではない。事実、数多くの様々なトピックに適用される。
そのため、ユーザー側は、特に何もする必要はないが、あるトピックのオーソリティなら、オーソリティの確立を続け、提供するコンテンツの量を増やしていくべきである。リソース、そして、オーソリティになるべきであり、実際にオーソリティになることが出来たなら、特定の変更によって、上位に押し上げられる確率は高くなる。
結論
ハミングバードを介したGoogleによるアルゴリズムの書き換えにおいて、コンセプトを中心としたナレッジベースが、オーソリティのトピックを計測する上で、Google+のスレッドやコメント等のソーシャルシグナルをより良く理解するために用いられる可能性は高い。
Probaseに関するMicrosoftのレポートに掲載されていた上のスクリーンショットは、このようなナレッジベースを使って、短いテキストのソーシャルメッセージから、コンセプトを抽出する仕組みを描いている。この仕組みは、固有のエンティティだけでなく、エンティティに関連する属性、そして、短いテキストで特定されたコンセプト、さらに、ナレッジベースにエンティティ/属性/コンセプトの関連性が存在しない場合には、キーワードとも連動すると考えられる。
Googleが積極的にナレッジベースを構築しており、ナレッジベースが拡大していくにつれ、異なる要素に絡む関連性が生まれていく点を覚えておいてもらいたい。
この記事は、SEO by the Seaに掲載された「Hummingbird and Author Rank Authority」を翻訳した内容です。