グーグルは、ペンギンアップデートを介して、リンクスパムを、ページに向かうリンクとアンカーテキストを操作する試みと見なし、今までよりも遥かに警戒しているように思える。ペンギンアップデートが導入されたのは、2012年4月24日であった。その際、併せて、公式のグーグルウェブマスターセントラルのブログでは、「良質なサイトをより高く評価するために」が投稿されていた。
この記事は、グーグルのウェブマスターガイドラインを違反するサイトのウェブランキングを下げるために、グーグルが着手している取り組みを紹介している。この記事を作成したのは、グーグルのウェブスパムチームを統括するマット・カッツ氏であった。同氏は記事の中で次のように説明している:
変更の詳細を明かすことは、抜け道をくぐり抜けたサイトが検索結果にあふれ検索ユーザーの利便性を損なう可能性があるためできませんが、ウェブマスターのみなさんにお伝えしたいことは、ユーザーにとって利便性の高い 良質なサイトを作ること(英語)に専念し、ウェブスパムを駆使することなく “ホワイトハット” SEO を心がけてください、ということです。
この記事は、キーワードスタッフィング、「不自然なリンクのパターン」、そして、コンテンツのスピン等、ペンギンがターゲットにする類のウェブスパムを挙げている。先月、私はグーグル、意味不明のフレーズを採点し、ページのランキングを格下げする」の中で、グーグルがコンテンツのスピニング(同意語を用いた書き換え)を特定すると思われる方法を描写した特許を取り上げた。
2004年、グーグルは、検索エンジンが、リンクの前後のワード等、リンクのコンテキストに留意し、リンクのコンテキストを正確に理解することが出来る仕組みを記した特許を申請している。ウェブマスターセントラルのブログの記事で挙げられていた例では、リンクのコンテキストが意味を成さない手口で、リンクが作られる経緯が、例として挙げられた記事の中で明確に示されている:
リンクを介して人為的に文書のランクを水増しする
この特許は、「人為的に文書のランクを水増しして、検索結果の質を下げる」手法を幾つか挙げている:
リンクベースのスパム行為 – この取り組みは、ページのランクを上げるために、大量のリンクを獲得する行為を伴う。グーグルは、リンクファームの例を挙げ、「一部のスパマーは、上位に格付けされている文書の持ち主に料金を支払い、文書内でリンクを張ってもらうことで、自分の文書のランキングを高くしている」と説明している。
アンカーテキストのスパム – 多数のページから、同じアンカーテキストを使って、特定のページに向かうリンクを手に入れ、当該のテキストに対する検索結果のランキングを高くする行為を指す。
グーグル爆弾 – アンカーテキストのスパムにとてもよく似ている。このアプローチは、商業的な利益を得るためではなく、冗談目的、もしくは政治的なメッセージを伝えるために検索結果を破壊することを念頭に置いている。
オンサイトのフレーム化 – 多くのサイトが、「製品」リンク、「募集職種」リンク、「投資家向け」リンク等を使って、サイト上のページを「フレーム」で囲んで、リンクに関連するページのラキングを「人為的に水増し」する試みを行っている。
このような手法に対抗するため、ページ上のリンクの「コンテキスト」に注目し、ページのランキングを下げる、または、上げる手法がこの特許では描かれている。
それでは当該の特許の情報を提供する:
参照のコンテキストに応じたランク付け
発明: アンナ・パターソン、ポール・ハー
付与先: グーグル
米国特許番号: 8,577,893
付与日: 2013年11月5日
申請日: 2004年3月15日
概要
文書に関連するコンテキストに応じて、文書をランク付けするシステム。本システムは、1つ目の文書内の参照情報を特定する。この参照情報は、2つ目の文書に関連する。本システムは、参照情報に関連する1つ目の文書の一部を分析し、この部分からレアなワードを特定し、レアなワードを基にコンテキストの識別子を作成し、その後、このコンテキストの識別子に応じて、2つ目の文書のランク付けを実施する。
この特許の発明者欄には、アンナ・パターソン氏が名を連ねている。パターソン氏は、グーグルのフレーズベースのインデックスに関する特許にも参加している。
リンクのコンテキストに基づくランク付けの仕組み
検索エンジンがページをクロールする際、ページ上のリンクを特定し、例えば、リンクの前の5つのワード、リンクの後の5つのワード等、リンクを囲むウィンドウのテキストを抽出する可能性がある。上の画像では、アンカーテキスト「SATURN」が用いられたリンクが用いられている。このアンカーテキストの左側には「BEAUTIFUL OF ALL THE PLANETS」、そして、右側には「IS SURROUNDED BY AN ELEGANT」が記されている。
次に、グーグルは、逆文献頻度(IDF)による重みづけの手法や従来の言語学的なモデリングによる手法等のプロセスを使って、既にウェブでインデックスした全ての文書と比較して、 リンクに関連するテキストのそれぞれの部分から「最もレア」だと思われるワードを抽出する。
この場合、左側のウィンドウで最もレアなワードは「PLANET」、右側のウィンドウでは「ELEGANT」が該当する。この特許は、ウィンドウで用いられるワードの数は、5ワード前後であり、また、リンクが掲載されているページの他のコンテンツが用いられる可能性があると指摘している。
また、このプロセスでは、「実在」するワードのみが用いられるようだ。「実在」の判断は、当該のワードが記載されているウェブ上の文書の数で決められる — 例えば、異なる50点の文書に用いられていなければ、実在するとは見なされない。これは、記号や数字を含むテキストの塊が利用されるのを防ぐ効果がある。
同じページにリンクを張る文書が多いケースが考えられるため、このコンテキストのアプローチでは、大量のページからコンテキストの情報をすべて抽出することも考えられる。リンクの近くのワードを含む文書の数が多い場合、コンテキストの情報に文書の数が含まれる。SATURN「土星」は惑星「PLANET」であることを考えると、このページに向かうリンクのアンカーテキスト「SATURN」の傍に「PLANET」が掲載されたリンクが、大量に存在する可能性がある。また、SATURNは、「ELEGANT PLANET」(エレガントな惑星)と評されることが多く、アンカーテキスト「SATURN」を用いる「SATURN」に関するページに向かうリンクの近くに「ELEGANT」が用いられている可能性も高い。
リンクの近くのレアなワードに対する、この「コンテキスト」スコア(この特許では、「コンテキストの識別子」と呼ばれている)は、各リンクに対するスコアを生成するために用いられ、各文書のランキングスコアを判定する。このスコアをつける上で用いられると思われるその他の要素を挙げていく:
- 文書に向かうリンクの本数
- 文書にリンクを向けている文書の重要度
- 文書にリンクを向けている文書の新鮮さ
- その他の既知のランキングの要素
グーグルウェブマスターセントラルの記事(英語版)で、不自然なリンクのパターンとして挙げられている例を見ると、この例のリンクの周りのワードが、定期的にこのリンクの近くに現れるワードではないことが分かる。
同じコンテキストの識別子が少ないなら、あるいは、疑わしいほど多く存在するなら、リンクが向けられているページに送られるべきランキングの価値は、スルーされることもあり得る。この特許は、この要素をページランクのシグナルとも、ハイパーテキストの関連性のシグナルとも呼んでいないものの、どちらにも属する可能性がある。
このコンテキストの識別子のカウントは、時間の経過と共に計測され、リンクに対して急激にカウントが増えると、特定される仕組みが採用されると見られる。短期間で、同じコンテキストの識別子を含むリンクを複数獲得したページは、疑わしいページと考慮され、リンクを張るページのランキングにおいてカウントされないこともあり得る。反対に、各種の妥当なコンテキストの識別子を持つページは、検索結果において、押し上げられる可能性がある。
教訓
この特許が認められたのは最近だが、申請が行われたのは10年近く前である。グーグルが、この特許で描写されているプロセスを利用したことがあるかどうか、利用したものの、別のアプローチに変えたかどうか、あるいは、今でも利用しているかどうかは不明である。
リンクスパム、アンカーテキストのスパム、グーグル爆弾、フレーム化等、このアプローチが解決を試みる問題は、グーグルが今でも対応に苦戦している問題である。しかし、ペンギンアップデート、そして、ウェブマスターツールでの手動のペナルティの通知等の対策によって、グーグルは積極的に問題の解決に乗り出している。グーグルは、このコンテキストの識別子によるアプローチを、不自然なリンクを特定するために用いているのだろうか?上の例のペンギンのウェブスパムにおいては、有効に働きそうだ。
今後は、リンクの周りのワードにも注意を払うべきなのかもしれない。
この記事は、SEO by the Seaに掲載された「How Google Might Use the Context of Links to Identify Link Spam」を翻訳した内容です。