Googleがワード間の関係を基にページのランクを決定する仕組み

最近、SEOのマニアックな記事が少ない!とお叱りの声を受けることも多いので、今回は久々にSEO by the SeaのディープなSEO記事を。 — SEO Japan

前回の投稿「アンカーテキストがSEOに与える影響【2012年度末版】」(日本語)は、数週間前にSEOmozに投稿された動画「予想: 瀕死のアンカーテキスト – 共同引用は後継者になれるのか?」への私のリアクションである。当時、次の投稿(今回の記事)で、この記事、そして、特定のワードがページで同時に発生する現象が、ランキングシグナルになり得ると言う見解を再び取り上げることになるとは思っていなかった。

ランド・フィッシュキン氏は、クエリに対して最適化をあまり行っているようには見えない3つの異なるページがSERPの1ページ目に掲載されている現象を取り上げ、クエリに関連するワードがページ上で同時に発生する共通点があると指摘していた。一方、私はこのようなランキングの原因になったと思われるグーグルによるランキング変更のアプローチを調べ、フレーズベースのインデックス、リーズナブルサーファーモデル、固有表現、クエリに割り当てられたカテゴリ、ウェブページに割り当てられたカテゴリを含むカテゴリをベースとしたメソッド、そして、クエリ内での類義語を利用するアプローチをリストアップした。

グーグルのフレーズベースのインデックスは、クエリに対する上位(10/100/1000)の検索結果で一緒に現れる(共起)ワード(フレーズ)に注目し、共起に応じてページのランキングを押し上げるアプローチであり、フィッシュキン氏が取り上げたページが1ページ目の結果に表示させた原因のように思える。私が紹介したその他の再ランク付けのアプローチもまたこのランキングの原因になっている可能性がある。その後、今週グーグルに付与された特許が、この現象の背後にあるのではないかと感じたのだ。

ワードの関係とドキュメントのランキング

下のイメージは、街の郊外にある古いホテルの前に立てられている看板である。以前、シェナンドア国立公園内で30分の距離にあるスカイラインドライブに向かう途中、このホテルに泊まる人達が大勢いた。看板に描かれた「Vacancy」と「Enter」の2つのワードは、最小限のワードで伝えたいこと表現している。

この点を踏まえ、文書内で特に重要なワードを幾つか選び、互いの距離に応じて、同時に現れる文書に対する関連性および重要性を特定することが出来るとしたらどうだろうか?

An old sign stating that there is a vacancy at the hotel it appears in front of.

例えば「mockingbird」等のクエリをグーグルで検索にかけ、検索結果に表示されたトップ1000の文書を引き出したとする。文書から大半の用語に対して、表示されている場所をマークした後に抽出し、文書内で現れる回数や文書の始めへの距離等を基にそれぞれのワードのスコアを計算する。

大文字表記の分析および一部の言語分析を実施し、用語が名詞なのか、固有名詞なのか、固有表現なのか、あるいは、文のような情報の塊なのかを特定する。このような用語には、文書内の動詞やその他のタイプの用語よりも高いスコアが与えられる可能性がある。また、その他の分析が用いられ、用語が固有表現かどうかを特定する試みが行われることもあり得る。

tf-idfスコア等のツールを使って、ウェブで頻繁に登場する傾向のある用語をカットして、一般的な用語を確認する。tfidf分析を基にした閾値を上回った上位20前後の用語を維持し、残りの用語は捨てる。残した用語は、文書内で特に重要な用語だと言える。

次にそれぞれの文書で残った関係のスコアを計算する。互いの距離が近いことを前提として、相関関係を持つワードは、関係があると見なされる。同じ文または段落、あるいは、特定の本数の文の中で登場する場合は距離が近いと思われる。これはローカルタームの関係と呼ばれる。残った用語がその他の用語とローカルタームの関係を持っていない場合、対象から外される。

文書の用語のスコアは、文書内の1位の用語、そして、当該の用語と他の用語の間に存在する文の本数を基にした最短距離に応じて算定される。同じ文に掲載されている場合は、距離はゼロとなる。

An image from the patent showing a flow of local term relationship scores into document scores that could influence rankings of those documents.

すべての文書の用語が抽出され、スコアが与えられ、関係スコアが判明した後、ローカルタームの関係および文書のもともとの順序を基に関係が特定される。それぞれの文書のスコアは、どの文書が共通する用語を持つのかを確認し、共通する用語を持つ文書同士を比較し、そして、もともとのランキングスコアとそれぞれの文書内の用語の関係スコアに基づくスコアを組み合わせて、生成されると推測される。

この特許はこのメソッドを利用する利点として次のメリットを挙げている:

  • 曖昧なクエリに対してより広範な検索結果が提示される
  • 検索結果が表示される順序が並べ替えられ、上位の検索結果でより広範な情報を提供するようになる
  • 異なる文書をつなぐハイパーリンクを持たない文書間の関係が特例される。コーパス内のある用語に関連する用語が特定され、コーパス内の文書に対するナビゲーショナルなリファレンスとして利用される用語として提示される可能性がある

それではこの特許を詳しく説明していく:

ワードの関係を利用した文書のランク付け

発明: Sharad Jain

付与先: Google

米国特許番号: 8,321,409

付与日: 2012年11月27日

申請日: 2012年6月30日

概要

文書に得点を与えるメソッド、システム、そして、コンピュータプログラム製品を含む機器。順位が付けられた複数の文書を受信する。複数の文書の用語の間に存在するローカルタームの関係が特定される。それぞれの文書の用語と用語の間の関係が、それぞれのローカルタームの関係に値する。

複数の文書における関係は、ローカルタームの関係および文書のもともとの順序に応じて特定される。各文書に対するスコアは、文書の関係に基づいて決められる。

教訓

この特許で描かれているプロセスは、クエリに対して返された上位のページで特に重要で影響力のある用語を特定する試みを行う。このような用語と同じページ上のその他の用語の関係の強さに注目する。文書内の用語の場所、そして、重要な用語の間の相対距離(用語が複数回登場する場合、最も近い距離が採用される)に応じて、スコアが生成される。

文書のスコア、そして、重要な用語の違いによって、ランキングが2通りの方法で影響を受けると思われる。文書のスコアは、ページのもともとのスコアと組み合わされ、一連の検索結果で押し上げられることもある。

文書内のワードにおける重要な用語の違いは、様々なタイプの結果が提示されること、そして、クエリが曖昧な用語であることを示唆し、検索エンジンが結果を並び替え、もともとの検索結果よりも広範な意味を網羅する可能性がある。例えば、クエリ[java]では、プログラミング言語に関する結果、島に関する結果、そして、飲み物に関する結果が提示される。各ページの重要なワードまたは用語は、検索結果の1ページ目に提示されるべき3つの異なる意味を指摘する。

文書のスコアに応じたランキングの押し上げ、そして、様々な結果を表示する上での並べ替えのおかげで、クエリの用語に対して関連性が低いページが、検索結果において大幅にランクを上げる可能性がある。

前回作成したウェブページや投稿したブログのエントリをチェックして、ページ上で最も重要なワードとしてグーグルがどのワードを特定したのか、そして、ワード間の関係がどれぐらい強いのか推測してみよう。共起は当該のページのランキングに影響を与えているだろうか?

ただし、このプロセスは、ページ上のクエリの用語(または用語の類義語)を基にした、あるいはページに向かうリンクの本数を基にした、そして、ページランク等の重要なスコアを基にしたページの情報検索スコアを置き換えるものではない。そうではなく、フィルターや重みを加え、また、検索クエリの結果に多様性を持たせようと試みる。

グーグルは、この特許で描かれているように、ページ上の重要な用語の共起を用いて、ランキングに影響を与えているのだろうか?


この記事は、SEO by the Seaに掲載された「Ranking Webpages Based upon Relationships Between Words (Google’s Co-Occurrence Patent)」を翻訳した内容です。

やっぱりマニアックすぎて恐縮でしたが、Googleがテキストで書かれたコンテンツの意味を正確に解釈するためのアルゴリズムを日々進化させていることは感じられたかと。。。同時にキーワード詰込み型のSEOに効果がなくなっている論理的な理由もまたこういった技術に隠れているのでしょうね。だからといってキーワードを意識しないで文章を書けばよいということにはつながりませんが、最近のSEO全般にいえることですが、何事もほどほどに、がよさそうです。 — SEO Japan [G+]

投稿者:

SEO Japan

002年開設、アイオイクスによる日本初のSEOポータル。SEOに関する最新情報記事を多数配信。SEOサービスはもちろん、高機能LPOツール&コンサルティング、次世代SEOに欠かせないインフォグラフィックを活用したコンテンツマーケティング等も提供。 SEOブログながら、ウェブマーケ全般。アドテク、ソーシャル、スタートアップ、インフォグラフィック等。