Googleに最近付与された、ナブネート・パンダ氏が考案者に名を連ねた特許は、本当にパンダアップデートに言及しているのだろうか?
検索の品質 vs ウェブスパム
私が取り上げたGoogleの特許の多くは、ウェブスパムの問題、そして、検索エンジンが行動を起こして、あるいは、アプローチに従って、検索結果の操作を防ぐ仕組みを説明している。Googleの対応の初期段階の例として、2003年に申請された「操作された記事を特定するメソッドとシステム」が挙げられる。
しかし、その一方で、取り上げた特許の大半は、検索エンジンのユーザーが目にする検索結果の品質を改善する技術に触れている。
例えば、Googleの初期の特許(ページランクはスタンフォード大学の特許であり、Googleが所有しているわけではない)は、クエリに対する検索結果の上位に注目し、同じクエリで上位に格付けされている結果からリンクが張られている場合、一部の結果を上位に押し上げる仕組みを説明している。この特許「ローカルの相互的なつながりを基に結果のランクを変更」は、上位のランキングの結果の品質を改善することを目標に掲げていた。
Googleのフレーズベースのインデックス(日本語)に関する特許は、特定のクエリに対して、共起、もしくは、現れる傾向のある意味を持つワードやフレーズに注目し、このフレーズが掲載されているページを押し上げる、もしくは、関連性のある共起する用語の一部を用いたアンカーテキストを介してもたらされる重要度を高める仕組みを描写していた。この2点の特許は、検索の品質をメインに取り上げている。
フレーズベースのインデックスを採用する特許は数多くあり、少なくともそのうちの1つは、1つのページで、統計的に異常な数のワードが共起しているかどうかをチェックして、ウェブスパムの問題に対処している。つまり、フレーズベースのインデックスのアプローチには、ウェブスパムを検知する技術も含まれることになる。
品質に焦点を絞る
ナブネート・パンダ氏とウラディミール・オフィトセロヴ氏に付与された特許「検索結果のランク付け」は、サイトにペナルティーを与える、もしくは、検索結果を操作する試みを特定するよりも、検索結果を改善することに重点を置いている。
この特許は、当該の手法に従う「利点」を1点のみ紹介している:
低い品質のリソースを特定する検索結果は、ユーザーのクエリに対応して返された検索結果の順位において、格下げされることがある。するとユーザー体験は改善される。なぜなら、上位にランク付けされた検索結果は、ユーザーが求める情報のニーズをより多く満たしているためだ。
パンダアップデートが導入される前、Google検索で表示される検索結果の品質を批判する声が多く上がっていた。
幾つか例を紹介する:
2009年12月13日 — 食器洗い機、Googleが自分の尻尾を食べる経緯: ポール・ケドロスキ
Googleは自らのキーワードのテールを喜んで飲み込む蛇になってしまった。利益になる検索 — 電化製品、中皮腫の訴訟、カヤックのレッスン — を特定し、安価に、そして、定期的にコンテンツを量産するだけで良い。ウェブでは、コンテンツを大量生産していても、誰にも気づかれない。
2009年12月13日 — コンテンツファーム: メディア、ブログ、Googleが注意するべき理由: リチャード・マクマナス
Demand Media等のサイトを分析したところ、この手のコンテンツは、どれも表面的であり、深みに欠けていた。wikiHowの創設者、ジャック・ヘリックのように、「魂が欠ける」とまでは言わないものの、確実に熱意、そして、時にトピックに関する知識さえも欠けていることがある。マイケル・アーリントンによるファーストフードの例えは秀逸だ — コンテンツが、手早く、オーダーが入ってから作られる。
2011年1月2日 — Googleがますます役に立たなくなっていく..: アラン・パトリック
今年は、検索結果の1ページ目に表示される結果は、何らかのSEOスパムに該当するようになり、Googleのシステムのスパムが深刻化している — (「関連する」と主張する)広告を提示しつつ、何を売り込むわけでもなく、別のサイト(同じことをしているサイトが多い)を紹介するだけのサイトが目立つ。また、関連するWikipediaのエントリの一部をコピーし、大量の広告を表示する詐欺サイトも多い。
2011年1月3日 — Google家の問題: ジェフ・アットウッド
皆さんと同じように、私もこの戦いではGoogleを応援しており、Googleがアルゴリズムを少しいじって、この記事の主張を杞憂に終わらせてくれることを願っている。それでも、2000年以降、検索の品質が初めて低下する現象が起きており、やや邪な考えが私の中で湧き起っている。アルゴリズムベースの検索が、戦略として失敗した兆候が初めて現れているのだろうか?次世代の検索は、アルゴリズムへの依存を軽減し、ソーシャル化に舵を取るのだろうか?
受け入れるにはあまりにも恐ろしい考えだが、アルゴリズムの心臓が壊れているのかもしれない。
2011年1月27日 — Googleの検索の品質が低下、それとも、エリート主義?: AJ コーン
Googleなら行動に移すことが可能だ。立ち上がって、Demand Mediaのファーストフードコンテンツは、SERPで上位に掲載しないと言うことも出来る。ファーストフードではなく、高級料理を選ぶことが出来る。
しかし、「ユーザー」がこの方針を求めているのだろうか?
品質の改善
引用した上のブログにも表れているように、Googleの結果が壊れ、品質の高い結果を返すよりも、クエリにマッチさせる点をGoogleが重要視していた感は否めない。
このような批判は、Google本社ですら行われ、そして、2011年2月、Googleは、公式ブログで「検索でより質の高いサイトを見つけるため」を投稿し、アップデートの告知を実施した。この変更の影響は、多数の検索に及び、高品質のサイトを浮上させることを明らかに目標に掲げていた:
最終日、または、その前後に、Googleはランキングに大きな変更を加えました — この変更は、クエリの11.8%に影響を与えると見られています — そこで、ユーザーの方々に現状をお伝えしたいと思います。このアップデートは、品質の低いサイト(ユーザーにとって価値が低く、その他のウェブサイトからコンテンツをコピーするサイト、あるいは、単純に有益ではないサイト)のランキングを格下げするために導入されました。同時に、調査、詳細なレポート、意義深い分析等、オリジナルのコンテンツや情報を持つ品質の高いサイトをより上位にランク付けするようになります。
パンダアップデートを確認し、フォーラム等でパンダの影響を受けたサイトに関するスレッドを読み漁り、そして、確実に影響を受けたサイトの調整に取り掛かった後、ナブネート・パンダが申請した特許が、このアップデート、そして、検索結果の品質を改善する試みを説明しているのかどうか、私は大いに気になった。
以下に、この特許に記載されたメソッドをまとめていく:
- 複数のリソースのグループに対して、グループ内のリソースに向けれた独立したリンクの本数を特定する。
- 複数のリソースのグループに対して、言及するクエリの数を特定する。
- 複数のリソースのグループに対して、個別のグループ特有の修正要因を特定する。ここで言うグループ特有の修正要因とは、それぞれのグループの独立したリンクの本数と言及するクエリの数に応じて決まる。
- 複数のリソースの各グループを、当該のグループに対するそれぞれのグループ特有の修正要因と関連付ける。ここでは、それぞれのグループ特有の修正要因は、受信した検索クエリに応じて、グループ内のリソースに対して生成された最初のスコアを修正する。
このように、この特許は、連動する複数のパーツで構成されていると言えるだろう。
1つ目のパーツは、サイトのページに向けられたリンクの本数を確認し、当該のサイトと提携している(共同で所有、または、共同で管理)と見られる被リンクを削除する。もしくは、サイトワイドのリンク等に対して、ページへの独立したリンクの本数を削減する。当該のサイトのページに向けて、どれぐらいの関係のないページやサイトがリンクを張っているのかを把握するために、このプロセスが設けられている可能性は高い。より多くのソースから、より多くの独立したリンクが向けられているページは、質が高いと見られるかもしれない。
2つ目は、ページが、特定の言及するクエリをターゲットにしているかどうかを分析するプロセスである。SEOを実施しているサイトは、サイトの全てのページをランディングページ化する試みを行うこともあるが、コンテンツファームと呼ばれるサイトの多くは、全てのページを使って、収益性の高いクエリ、および、このタイプのクエリの組み合わせをターゲットにする。つまり、コンテンツファームの類のサイトは、多くのクエリを言及する試みを行うページを多く持っていると考えられる。
当該のサイトが分類される異なるグループに対する、独立したリンクのカウントと言及するクエリのカウントは、比率として検討され、独立したリンクの本数と言及するクエリの数の比較が行われる。独立したリンクが多く、言及するクエリの数が少ないと、数値は1を超える。一方、独立したリンクが少なく、言及するクエリの数が多いと、1を下回る。
この数値は、リンクの本数とクエリの数に応じて、各ページが、クエリの用語やフレーズに対するナビゲーションタイプの結果と見られているかどうかで修正されるスコアで乗じる。ナビゲーションタイプの用語やフレーズに近ければ近いほど、この部分のスコアは高くなる。最終的なスコアは、一部の結果のランキングスコアを押し上げる場合もあれば、押し下げる場合もある。
ページよりもグループ
この特許は、多くのランキングアルゴリズムのように特定のページやサイトをターゲットにするのではなく、リソースの「グループ」に注目すると指摘している。グループは、複数の方法で決定されるようだ。グループ内のリソースは、単一のグループのみに盛り込まれる。
グループは、アドレスをベースに決められ、グループ内の全てのリソースが、– http://www.example.comのように、同じドメイン名を持つ可能性がある。あるいは、http://host1.example.comやhttp://host2.example.comのように、ドメインのホストの名前でグループが形成されることもある。
リソースのグループは、各グループに対する言及するクエリの数で分割されると見られる — そのため、各区画には、言及するクエリの数が同程度のリソースのグループが集められると推測される。
このアプローチでは、あるウェブサイトが、複数のグループに分割される、もしくは、複数のウェブサイトを含むグループの一部になると考えられる。グループ内でページをランク付けするため、独立したリンクの本数:言及するクエリの比率は、ナビゲーショナルのシグナルを伴うスコアで乗じ、最終的なランクの特定を行う。
独立したリンクの本数
この特許が、質の高いページを高くランク付けすることを目標に掲げているなら、ページ、または、ページのグループに向けられた独立したリンクの本数に注目する可能性がある。
本特許は、リソースの各グループに対して、– 全てのリンクではなく — グループに向かうリンクの本数をカウントすることもあり得ると指摘している。また、本数がカウントされるリンクは、エクスプレスリンク(クリックして、別のページに導かれる)とは限らず、インプライドリンク(サイテーションと呼ばれることが多い)の本数もカウントされる可能性がある。エクスレプレスリンクは、ある場所へ導くタイプのリンクであり、一方のインプライドリンクは、クリックしても、ユーザーはリンクのターゲットに向かうことが出来るわけではない。
ここで、この特許が、なぜページランクに触れていないのか、と言う疑問が湧いてくる。この計測基準もページランクも、本来ならば、質のシグナルになるはずだが、Googleの全てのシグナルにページランクを盛り込む必要はない。独立したリンクへの依存は、同じサイトから大量のリンクを得るメリット、もしくは、所有者や管理者が同じサイトからリンクを得るメリット、あるいは、他のサイトからサイトワイドリンクを得るメリットを打ち消す効果がある。
独立したリンクとは、リンクのソース、そして、ターゲットが、互いに独立しているケースを指す。また、リンクが掲載されているソースのグループ、そして、ターゲットのグループに対して、互いに独立しているかどうかを確認することが出来る。
あるグループから別のグループへのリンクが独立していないことを特定するには、同じ個人/団体によって所有されている、ホスティングされている、もしくは作られている等、リソースのグループが関連している確率が高いかどうかを判断する試みが含まれると考えられる。
リソースが、似ている、もしくは、同一のコンテンツ、画像、フォーマット、あるいは、CSS等を持っている場合、この類似性は、リソースが独立していない点を示すシグナルになることもあり得る。
あるリソースから、ターゲットのグループに複数のリンクが向けられている場合、このうち独立したリンクとしてカウントされるのは、1本のみである。特許の中では明記されていないものの、こうすることで、サイトワイドリンクが複数回カウントされるのを防ぐ効果が見込まれる。
言及するクエリ
別の言及するグループへ向けられたリンクの本数を分析する試みに加えて、このプロセスは、サイトのページ、そして、各ページがターゲットにしている可能性があるクエリを精査すると見られている。ページがクエリをどの程度満たしているのかを特定する取り組みが行われるのだ。
例えば、用語「example.com」を含む場合、そのページは、このサイトのホームページを言及していると推測することが出来る。検索エンジンのユーザーが、サイトのページを言及するためによく利用する用語が含まれる場合、当該のページを示唆する、言及するクエリを持つと言うことが出来る。この特許は、その他の言及するクエリの例を挙げている:
…example sfとesfが、ユーザーによって、URL「http://www.sf.example.com」を持つリソースを言及するために頻繁に用いられているなら、すなわち、クエリ「example sf news」やクエリ「esf restaurant reviews」は、URLが「http://www.sf.example.com」のリソースを含むグループに対する言及するクエリとしてカウントされる。
ナビゲーションクエリ
記事「ナビゲーションクエリとリソースをGoogleが特定する方法」の中で、Googleが文書を識別するアプローチを使って、クエリに織り込まれた製品やサービスの公式ホームページ等、特定のページを見つけることを望み、ユーザーが入力したクエリのためのページかどうかを特定する仕組みを私は紹介した。
このタイプの問い合わせは、アミット・シンガル氏が、Googleの公式ブログの記事「良質なサイトを作るためのアドバイス」で投げ掛けていた問いと、ある程度、共通していると言えるだろう。このような問いは、例えば、この特許が作成された時点で、分析に組み込まれていた可能性はあるが、特許では、特に触れられていない。
それでは、パンダアップデートを描写する可能性が高い特許を紹介する:
検索結果のランク付け
考案: ナブネート・パンダ、ウラディミール・オフィトセロヴ
付与先: Google
米国特許番号: 8,682,892
付与日: 2014年3月25日
申請日: 2012年9月28日
概要
検索結果をランク付けするための、コンピュータの保存メディアにエンコードされたコンピュータプログラムを含む、メソッド、システム、および、機器。
メソッドの一つは次のような特徴を持つ:
- 複数のリソースのグループに対して、グループ内のリソースに向けれた独立したリンクの本数を特定する。
- 複数のリソースのグループに対して、言及するクエリの数を特定する。
- 複数のリソースのグループに対して、個別のグループ特有の修正要因を特定する。ここで言うグループ特有の修正要因とは、それぞれのグループの独立したリンクの本数と言及するクエリの数に応じて決まる。
- 複数のリソースの各グループを、当該のグループに対するそれぞれのグループ特有の修正要因と関連付ける。ここでは、それぞれのグループ特有の修正要因は、受信した検索クエリに応じて、グループ内のリソースに対して生成された最初のスコアを修正する。
見解
Googleが、パンダアルゴリズムを導入した数週間後、もしくは、数ヶ月後にこのアルゴリズムを調整し、また、ベータ期間を通して、多数の変更を加えてきた可能性は強い。
先週、「Googleのパンダの生みの親に付与された特許」(日本語)を投稿して以来、パンダアップデートを描くこの特許に関して、否定的な意見に私は何度も遭遇している。このような意見は、実際に関係するプロセスを詳しく調べることなく、特許で記述されているリンク分析の存在を理由に、この特許は、パンダではなく、ペンギンのアプローチを描いていると主張するものばかりであった。
しかし、独立したリンク、そして、言及するクエリに関連するリンク分析は、サイトの被リンクプロフィールよりも、サイトの品質を計測するための試みに近い。 アミット・シンガル氏による23の問いのような課題を対象にしている可能性がある「ナビゲーションクエリ」の分析もまた、ページの品質を理解する試みの一環だと言えるだろう。
私はこの記事のタイトルで、この特許が本当にパンダアルゴリズムを取り上げているのか問い掛ける形式を採用した。しかし、個人的には、パンダアルゴリズムに言及していると確信している。ただし、実装され、テストされるにつれ、パンダアップデートが、若干異なる方向に進んだ可能性に関しては、否定するつもりはない。
この記事は、SEO by the Seaに掲載された「Is This Really the Panda Patent?」を翻訳した内容です。
当時流行っていたコンテンツファームに検索結果を占有させないためのパンダ導入の意味合いもあったわけですが、サイト全体でクエリーの内容まで見ているのは流石ですね。さらにリンクの評価方法も相当複雑化しており中途半端な人口リンクは一瞬にして見抜かれる気配です。Googleのアルゴリズムはパンダに続いてペンギン、ハミングバード、そしてペナルティ強化と、今となってはテクニカルなリンク構築を気にする必要性は余りない状況ではありますが、SEOマニアには気になる内容でした。 — SEO Japan [
G+]