Googleがウェブサイトを品質評価でランク付けする仕組み

今週は出張中につき記事少な目になっています。さて久々の記事は、Googleがウェブサイトを評価する際、どのような品質基準を元に行っているのか、というトリックに頼らないSEOを中長期的に実践していくには知っておきたい知識をSEO by the SeaがまとめてくれたSEO担当者なら見逃せない記事を。 — SEO Japan

今週、グーグルに新たに特許が付与された。この特許は、ウェブサイトの一連のサンプルに対する人間による評価、そして、当該のサイトからのウェブサイトのシグナルを基に、ウェブサイトに対して、品質の評価が与えられる仕組みを描写している。

当該の特許は、このアプローチには次のようなメリットが存在すると指摘している:

  • 検索エンジンに対する満足度を高める
  • 質の評価が一定の基準よりも高いサイトを返す
  • 品質を基に検索結果に表示されるサイトのランク付けを行う
  • ユーザーが先にサイトを閲覧することなく、質の高いサイトを特定することが出来る

この特許の申請は2008年に行われた。質のシグナルの利用に関しては、パンダアップデートにおいてグーグルが実施した取り組みに類似する。ウェブスパムのペナルティと言うよりも、検索の品質の“改善”を意識したアップデートであった。

この特許は、請求および記述のセクションで、適応されるサイトのタイプとしてブログを挙げている。ブログ検索のランキングシグナルについての討論が行われたSMX セッションを参考にすると、発明者の一人、クリストファー C. ペノック氏は、グーグルブログ検索のシニアソフトウェアエンジニアであったようだ。

このアプローチでは、サイトのページ(全てのページ)の質を人間のユーザーの評価者に評価させ、1-5のスコアを与え(5が最高)、そして、サイト全体のスコアを集める手法が採用されている。そして、この評価は、次のようなウェブサイトの要素によって加算される:

  • サイトの主張や情報のオリジナリティ
  • オリジナルのコンテンツとコピーしたコンテンツの量
  • ウェブページ上のグラマーおよびスペリングの精度
  • 不愉快なコンテンツや不適切なコンテンツが提示されているか
  • ウェブサイトに空白、または、不完全なページが存在するか
  • サイトの品質に影響を与えるその他の要素

上述したシグナルは、2011年5月に投稿されたグーグルのウェブマスターセントラルブログの記事、「良質なサイトを作るためのアドバイス」で挙げられていたシグナルによく似ている。この記事は、「グーグルが質の高いサイトを探し仕組み」を – グーグルのスタッフが“サイトの品質を評価するアルゴリズムを作成する”際に問いかけるであろう23の疑問を提示することで説明している。

この特許は、グーグルのパンダアップデートのからくりを解説しているわけではないが、コンセプト自体は似ている。グーグルはブログの記事で次のように指摘している:

もちろん、Google が実際にアルゴリズムで使用しているランキング シグナルは公開できません。検索結果が操作されるような事態を防ぐためです。代わりに以下の項目をご覧頂くことで、Google がこの件をどうとらえているのか、ご理解頂けるのではないかと思います。

この特許(そして、その他の数多くの特許)において、グーグルの視点で、質の高いサイトを検索結果に表示する問題を見てもらう上で、これが最高のアプローチだと言えるだろう。それでは当該の特許を紹介する:

ウェブサイトの品質シグナルの生成
発明: クリストファー C. ペノック、ジェレミー・ハイルトン、コリーナ・コルテス
付与先: グーグル
米国特許番号: 8,442,984
付与日: 2013年5月14日
申請日: 2008年3月31日

概要

ウェブサイトの品質の評価を明らかにするシステムとメソッド。ウェブサイトの評価が行われ、評価およびウェブサイトのシグナルの関係が特定され、モデルが作られ、モデルを未評価のウェブサイトのウェブサイトのシグナルに適応することで、モデル化された評価が未評価のウェブサイトに割り当てられる。

その他の人間の評価者によるアクション

人間の評価者は、ページを確認する際、1-5のスコアを与える以外のアクションも行う。

サイト上のURLが、スパムやポルノ等の好ましくないコンテンツを提示する、あるいは、ページが読み込まれない場合、サイトをスキップするアクションもその一つである。このようなサイトは「無効」と評価される。評価者により「無効」と分類されると、一部のサイトが評価プロセスから除外される可能性がある。個人的に好ましくないページをネガティブにランク付けする、評価者のバイアスが存在するためだ。

また、評価者はウェブサイトに対するビューイングアピールを選択する。

ブロードアピール – 国内または国際のニュースの出来事に関連するウェブサイト等、幅広い層のオーディエンスをターゲットにするサイト。

ニッチアピール – 電磁力をテーマとしたサイト等、限られた範囲のオーディエンスにアピールするサイト。

ビューイングアピールは、検索のリクエストに対して提示するサイトのランク付け、または、除外の要素として用いられる可能性がある(この特許は、“ビューイングアピール”がポジティブまたはネガティブなランキングシグナルかどうかは明言していない)。

品質スコアをブログに適用する

この特許の請求項には、対象となるサイトのタイプとしてブログを挙げているが、複数の項目を除けば、あらゆるタイプのウェブサイトに適用される。

品質のシグナルがブログ以外のサイトに提供される仕組みを説明する、よく似た特許がグーグルによって申請されている可能性はある。

グーグルは、クリック率、ブログの購読率、そして、ページランクのスコアをブログに関連づけられるウェブサイトのシグナルとして具体的に挙げている。

クリック率 - ここでは2つのクリック率が用いられる – サイトのURLが、一般的なSERPに表示された際にクリックされた頻度、もう一つは、サイトのURLがブログ検索でクリックされた回数である。この点について、特許は次のように説明している:

クリック率は、ブログの人気指数であり、品質指数となるポテンシャルを持つ。

クリック数そのものではなく、クリック率は、検索結果に表示された回数に対して、ページが獲得したクリックの回数の比率と規定されている可能性がある。 この比率は、ページの結果内のポジションに応じて変動すると見られる。結果ページの上位は、下位よりもクリックされる回数が多いためだ。

ブログの購読率 – 面白いことに、グーグルリーダーが、情報源の一つとして挙げられている。ただし、その他のソースからもこのような情報を得る可能性があると指摘している。この情報の重要性については、次のように説明している:

ブログの購読率は、読者数の基準であり、ブログの品質を示す。読者数が多ければ多いほど、ブログの質が高いと言える。

ページランクのスコア – ブログに対してページンランクのスコアが用いられる可能性があり、これはウェブ上のその他のタイプのページをランク付けする際の品質の評価とほぼ同じ役割を持つと思われる。

教訓

この特許は、人間の評価およびウェブサイトのシグナルが、検索結果でページをランク付けする際の判断材料となる、品質の評価に対するモデルを作るために利用される可能性があると指摘している。この際、機械学習アプローチを用いて、実際に評価されたページのサンプルを基にページに対する評価の作成が行われるようだ。

また、ページが再び評価される、または、再び分類される点を指摘していたセクションは、特に興味深いと私は感じた。

定期的にページの再評価が行われるようだ。パンダアップデートにおいて、実際にこの取り組みが行われているように思える。

さらに、ページやサイトの再評価が、ウェブサイトのシグナルの所定の変更によって行われると言う、別のアプローチにはさらに興味をそそられた:

例えば、ウェブサイトに与えられたページランクのスコアが、所定の率(10%等)と差がある場合、ウェブサイトのシグナルとウェブサイトの品質の評価の関係を示すモデルをアップデートすると推測される。

パンダアップデートでは、グーグルは、データが“更新”される際に、警告を送っていた。これは、影響を受けたサイトは、定期的なアップデートによって再び分類の対象になることを意味していた。また、3月には、グーグルは、パンダップデートが継続的に行われると明言していた。

パンダは、この特許で描かれている、ページに対する品質の評価を特定するためのプロセスと同じようなプロセスで動いているのだろうか?グーグルは、ページランクのような品質シグナルにおける特定の改善のレベルによってパンダを発動し、サイトに対してアップデートを行う可能性はあるのだろうか?

この推測が正しいと仮定すると、パンダ等のアップデートによりネガティブな影響を受けたサイトは、品質の評価の改善を目指して再び評価を行ってもらうには、ページランク等の品質のシグナルが、特定の基準を超えるようにサイトを改善しなければいけないことになる。 


この記事は、SEO by the Seaに掲載された「How Google May Rank Web Sites Based on Quality Ratings」を翻訳した内容です。

前半の品質という点については、特許申請自体は2008年ですし、今日のSEOにおいては(昔から?)ある種理解すべき当然のルールと認識されているような内容ですが、こうやって特許として書かれると改めて重要度を認識しますね。後半はその品質チェックのプロセスについて説明されていましたが、記事にもあるようにパンダアップデートのような定期的に更新が行われるアルゴリズムをサイト評価に的確に適用していこうというGoogleの意識が感じられる内容でした。しかし品質シグナルをある程度改善しなければ発動されないということは、何かしらのペナルティを受けた場合は「ある程度」改善しないと適応されないということでもあるのでしょうか。。。「ある程度」の基準がまた難しいわけですが。

グーグルリーダーと関連したような技術も出てきましたが、当初の目論みは結局フル活用しないまま、グーグルリーダーは終わりを迎えるようですね。。。とはいえ、グーグル+等で同種のデータは取っていけると思いますが。常に進化し続けるGoogle、サイトも負けずに進化していきたいものです。 — SEO Japan [G+]

投稿者:

SEO Japan

002年開設、アイオイクスによる日本初のSEOポータル。SEOに関する最新情報記事を多数配信。SEOサービスはもちろん、高機能LPOツール&コンサルティング、次世代SEOに欠かせないインフォグラフィックを活用したコンテンツマーケティング等も提供。 SEOブログながら、ウェブマーケ全般。アドテク、ソーシャル、スタートアップ、インフォグラフィック等。