オーディエンスを考慮しないSEOはSEOに非ず

究極のリンク構築ガイドからSEO関連記事を書かないまま年末を迎えそうな雰囲気なので、気合を入れてSEO関連記事を1つ。テクニカルな知識でお馴染みのSEO by the Seaがあえてオーディエンス、つまりユーザーを考えることの重要性について語ります。 — SEO Japan

HTML ウェブ、そして、セマンティックウェブに対する最適化を行う際、別々のタスクを実施する。この2つのタスクはお互いを補い、そして、この2つのタスクは多くのメリットをもたらす可能性を秘めている。しかし、このタスクを誰の為に行っているのかを忘れているなら、大きな効果は期待できない。

iron-statue-ouside-art-gallery

数週間前、あるオンラインセミナーに参加した。このセミナーは、ソフトウェアを使って、ページ上のメッセージ、そして、ランディングページと広告で利用しているワードを精査し、その後、意味において関連する用語を提案して、ランディングページや広告に盛り込むアプローチを取り上げていた。

このオンラインセミナーには、質疑応答を行うセクションがあった。私は「オーディエンス」と言うワードが一度も登場していないことが気になっていた。

そこで、オーディエンスに関する質問を投げかけてみた。

オーディエンスに全く対処しないのは、重大な過失だと私は感じたのだ。

製品やサービスを提供する相手のことを全く考えていないなら、ランディングページや広告を作成することはもちろん、何かをオファー(提案)することすら不可能だと思う。少なくとも、魅力的なオファーを策定することは出来ないはずだ。トピックにおいてコンテンツ内のワードに関連する用語を教えてくれるソフトウェアがあれば、確かに、検索エンジンにとっては、ページを見つけ、内容を理解しやすくなるかもしれない。

しかし、検索エンジンは、いいね!をするわけでもなく、恐らく、ソーシャルネットワークでシェアするわけでもない。

検索エンジンは、製品やサービスの「エバンジェリスト」となり、他の人達に伝えることも、チェックするよう推奨することもない。

検索エンジンは、ページにセマンティックソフトウェアが盛り込んだジョークを見つけても、腹を抱えて笑う可能性は低い(…さすがにジョークを挿入するとは思えないが)。

セマンティックソフトウェアは、特定の業界を取り上げたページにおいて理想的なワードやフレーズを巧みに描写すること、そして、ページやサイトにアクセスするビジターを増やすことが出来るかもしれない。なぜなら、当該のページにビジターを導く上で、適切なワードを選択することが出来るためだ。

しかし、適切な問いに答えていると言えるのだろうか?

自分のサイトが、取引をする相手として適している点をビジターに説得しているだろうか?

オーディエンス、そして、オーディエンスが解決する必要がある問題、もしくは、オーディエンスが持つ希望を考慮していないなら、正しい問いに答えず、そして、説得もしていない。

ウェブページに存在するデータに関する情報を集め、シェアした後、HTMLベースの検索、そして、セマンティックベースの検索に焦点を絞るアプローチは、確かに賢い手法だと言えるだろう。

ただし、ウェブページの対象のオーディエンスを把握せずに、コンテンツを作成する方法は誤りだ。


この記事は、SEO by the Seaに掲載された「When Optimizing for SEO and the Semantic Web, Don’t Forget Your Audience」を翻訳した内容です。

短い記事でしたが、常に忘れたくない視点でした。SEOでも検索ユーザーを考えることは多いと思いますが、時にはそのペルソナまで踏み込んでより深いユーザーの理解にチャレンジしてみることもまた新たな発見があるのではないでしょうか? — SEO Japan

パンダアップデート4.1と思われる特許を発見(要N-gramの知識)

私が軽めのお休みいただいている間に、パンダアップデートがついに登場したようです。内容自体は「激変」という程の変化があるようでもなかったので、記事にしませんでしたが、SEO by the Seaが目ざとく?関連特許を見つけて記事で取り上げていたので紹介したいと思います。かなり専門的な内容なのでマニアの方向けです。 — SEO Japan

Googleのピエール・ファーが、Google+のページで、Googleが新たなパンダアップデートをリリースしたと発表した。今回のアップデートには、「品質の低いコンテンツをより正確に特定する」上で効果的な新しいシグナルが含まれているようだ。

ピエール・ファーのGoogle+の投稿によると、今回のアップデートにより、「多様な小規模 – 中規模の品質の高いサイトが、上位にランク付けされるようになる」可能性があるようだ。これは前向きな変化だと言える。

新たに出願された特許には、フレーズに応じて、コンテンツのスコアをつける良質なアプローチが描かれている。この特許は、今回のアップデートと関係がある可能性があり、これから、検証していく。

Flow chart from the patent showing content scoring based upon phrases

サイトで発生しているn-gramを特定する 200
各サイトとn-gramに対して、n-gramを含むページの数をカウントする 202
各n-gramに対して、相対頻度の値を計算する 204
n-gramからサイトへのマッピング生成する 206
各リストのサイトをセグメントに分割する 208
過去にスコアを与えたサイトに対して、基準のサイト品質スコアを取得する 210
各セグメントに対して、セグメント内の品質スコアを持つサイトに平均の基準のサイトひんしつスコアを特定する 212
平均のスコアからフレーズモデルを生成する 214

パンダアップデートの最新版のリリースは、過去にパンダの攻撃を受けた一部のサイトにとっては、朗報だと言えるかもしれない。

そこで私は、バリー・シュワルツがSearch Engine Roundtableに投稿した記事「Google パンダ 4.1の展開が始まる – 小規模なウェブサイトの強い味方」にリンクが張られたフォーラムのスレッドを幾つかチェックしてみた。

あるスレッドで、投稿者は、9月19日にサイトのトラフィックが変化したと報告している。別のスレッドは、スパム & 質の低いコンテンツに狙いを絞っているのではないかと指摘していた。

そんな中、パンダアップデートの名前の由来となったナヴネート・パンダが、先日、新たに特許を出願していた。ナヴネート・パンダが発明者に名を連ねた最初の特許がリリースされた時、パンダに関連するのではないか(日本語)と私は考えた。パンダに対する数回のアップデート(そして、更新されるデータ)を考慮すると、少なくともアルゴリズムにもたらされた変化の1つは、この特許で描かれている可能性があった。また、コンテンツの品質のスコアリングにおける最新の更新は、現在、展開されているアップデートの要因となっていても、おかしくない。

それでは、当該の特許を紹介していく:

サイトの品質を推測する
発明: ユン・チョウ、ナヴネート・パンダ

米国特許番号: 20140280011

発表: 2014年9月18日

付与先: Google

申請: 2013年3月15日

概要

サイト、つまり、ウェブサイトの大体の品質を推測するためのメソッド、システム、コンピュータのストレージメディアにエンコードされたコンピュータプログラムを含む機器。

ある導入のケースでは、複数の過去にスコアを与えられたサイトに対して、基準となるサイトの品質スコアを取得する。

  • 過去にスコアを与えられたサイトを含む複数のサイトに対して、フレーズモデルを生成する。フレーズモデルは、フレーズ固有の相対頻度の値から、マッピングを生成し、フレーズ固有の基準のサイト品質スコアを計測する。
  • 過去にスコアを与えられたことがない新しいサイトに対しては、相対頻度の値をサイト内の複数のフレーズ一つ一つに取得する。
  • フレーズモデルを経由し、新しいサイトのフレーズにおける相対頻度の値を用いて、総合のサイト品質スコアを特定する。
  • 総合サイト品質スコアから、新しいサイトに対する予想品質スコアを特定する。

この特許は、フレーズアルゴリズムの利用を説明している。このプロセスでは、ページのコンテンツが、トークンに分類され(個別のワードと句読点等のアイテム)、ページ上のフレーズの頻度がカウントされ、各ページに対するスコアが計算されていく。

この特許は、フレーズベースのインデックスに関する特許(日本語)と比べると、「フレーズ」の定義を詳しく説明していない。また、実際に、Googleが、こういった特許を使っているかどうかは定かではないものの、その可能性は十分にある。

ページ上のトークンで現れたエラーは、正常化のプロセスで、無視されるのではなく、カウントされる。ただし、非常にレアなトークン(ウェブ上にほとんど存在しないワード)に関しては、この品質スコアの計算において、カウントされない可能性がある。

アンカーテキストは、向けられたページ上に実際に現れるフレーズとして処理される。これは、興味深い記述ではあるものの、特許の中では、その重要性は説明されていなかった。 結局、同じアンカーテキストを使ってページに向けられたリンクが多数存在する場合、特定のタイプのフレーズを数多く加えていることもあり得る。

トークンは、1, 2, 3, 4, 5トークン(ワードと句読点)のグループ、もしくは、n-gram(nには数字が入る)に分割されると見られる。Googleは、n-gram ビューワー等、別の方法にもn-gramを利用している。

Google Researchブログの記事「すべてのn-gramはあなたのもの」は、次のアイテムを含む、Googleで行われているn-gramを用いた複数の実験を説明している:

  • 統計的機械翻訳
  • 音声認識
  • スペル是正
  • エンティティの検知
  • 情報の抽出

特許を読み、別の導入のケースを知りたい方は、特許にリンクを張っているので、確認してもらいたい。この特許は、パンダに対するアップデートとは関係のない、異なるスコアリングアルゴリズムを取り上げているのかもしれないが、それにしてはタイミングが良く、また、考慮する価値があると言える。


この記事は、SEO by the Seaに掲載された「New Panda Update; New Panda Patent Application」を翻訳した内容です。

パンダアップデート関連特許ということで翻訳しましたが、そもそもN-gramを理解していないと内容が全くわからない記事でしたね。N-gram自体はさほど難しくはないのでチャレンジャーな方はウェブ検索で概要を理解した上でお読みください! — SEO Japan

YouTube SEO – 検索エンジンが動画の内容を格付けする仕組み

Googleのウェブ検索に続き世界第二位の検索エンジンともいわれるYouTube。米国では以前から活用されてきた動画マーケティングですが、日本でも最近動画を公開して注目を浴びようとする企業も少しずつ増えているようです。YouTube等の動画SEOについては色々なことがいわれてはいますが、ウェブサイトのSEOに比べるとまだまだ黎明期なこともあり、絶対的なルールはまだないようです。動画SEOを攻略するには、まずは最大動画サービスのYouTubeから、そしてYouTubeの動画評価の仕組みを理解することから、ということでSEO by the SeaによるGoogleの動画関連特許の記事を。 — SEO Japan

グーグルやユーチューブで動画を検索するとき、動画の内容ではなく、テキストを基に動画が結果にリストアップされている可能性が高い。当該の検索アルゴリズムは、動画のタイトル、そして、動画をアップロードした人物が入力した説明文およびタグに注目しているのだろう。しかし、動画の注釈もまた、動画が関連する用語やフレーズを特定する上で重要な役割を果たしていると考えられている。

例えば、以下の動画はグーグルの新しいレシピ検索のオプションを告知しており、新しい機能に関する詳細を提供している。しかし、動画に付随するテキストは、加えられた機能の詳細を説明する人物が、グーグルの料理長 スコット・ジアムバスティーニ氏だと言う事実にどれも言及していない。 [Google executive chef]を検索すると、ユーチューブの検索結果にはこの動画は表示されない。しかし、現実には表示してもらいたいところだ。

また、動画が検索結果でランキングされる上で、閲覧数、コメントの本数、そして、評価するの数、プレイリストに加えられる頻度等、その他の要素も鍵を握っているだろう。

動画に関連するテキストのコンテンツのみに依存すると問題が生じる。まず、説明文が、数多くのシーンや様々な内容を含む長い動画をうまく説明することが出来ていない問題が考えられる。また、多数の動画を持つサイトで、クエリに応じて返される結果の数が、多数に上る可能性があることも問題の一つである。

検索エンジンは、最初のフレームから得たスクリーンショットを表示するものの、中心となるフレームや動画の最後のフレームの方が、クエリに最適な動画を特定する上で役に立つ可能性があり、当該のサムネイルが動画のコンテンツを適切に描写しているとは言いきれない。

このような問題は、すべて動画の実際のコンテンツを無視していると言う共通点を持つ。それでは、検索エンジンが実際の音声およびビジュアルコンテンツを使って、関連する検索用語を判断することが出来たとしたらどうだろうか?

検索エンジンが、多数の動画のフレームとフレームに関連するキーワードのキーワードの関連スコアを記録するインデックスを動画から作成してくれたら、動画の内容を容易に理解することが出来るようになるのではないだろうか。

このようなフレームは、それぞれの動画の画像や音声に含まれているアイテムを基にキーワードに関連付けられると考えられる。また、グーグルは、動画の最初、中間、または最後のフレームを選ぶ代わりに、フレームのイメージをサムネイルとして使い、検索結果に表示することもあり得る。

過去にグーグルが公表した特許には、検索エンジンが、動画内の特定のキーワードに関連する画像と音声を特定し、そして、インデックスすることで、動画のインデックスを改善する仕組みが描かれている:

関連性を基にした画像の選択
考案: Gal Chechik、Samy Bengio
委託先: Google
米国特許申請番号 20110047163
付与日: 2011年2月24日
申請日: 2009年8月24日

概要

動画の検索結果をユーザーが入力したキーワードのクエリに応じて表示するシステム、コンピュータが読める記憶媒体、そして、コンピュータ実装メソッド。動画のホスティングシステムは、機械の学習プロセスを用いて、ラベル付きのトレーニングデータセットからメディアコンテンツの特徴をコンテンツのキーワードの記述を関連付ける主要なキーワードのモデルを学ぶ。

このシステムは、学習したモデルを使って、動画で見つかった特徴を基に、キーワードのクエリに関連する動画の検索結果を提供する。さらに、このシステムは、学習したモデルを用いて、動画を表す1つないし複数のサムネイルの画像を特定し、表示する。

グーグルの従業員が綴った複数のホワイトペーパーにも、動画インデックスの今後の展開が示唆されている:

特許で描かれているシステムは、動画の注釈インデックスに依存して、検索者が探している動画、もしくはクエリに関連する可能性がある動画の一部を見つける支援を行う。

例えば、海で泳ぐイルカのシーンまたは画像を含む動画は、「イルカ」、「泳ぐ」、「海」等のキーワードで当該の動画の一部にラベルを貼っている可能性がある。

動画の一部をクエリに対して格付けする際に役に立ちそうな方法が多数この特許には掲載されている。

クリックスルーのデータは、キーワードが特定の動画にとって適切かどうかを判断する際に役に立つと考えられている。クエリに対する同じサムネイルの画像が、多くの検索者によって選ばれると言うことは、クエリの用語と動画との関連性の高さを裏付けていると言っても過言ではないだろう。

動画の画像と音声、そして、関連するメタデータを持つストック画像および音声クリップを含む、ラベルが貼られたトレーニングデータセットの間の類似性の検索は、ラベルが貼られていない画像と音声を特定する上で役に立つかもしれない。グーグルによる類似性検索の例は、グーグルの類似イメージ検索で確認することが出来る。

この特許および先程紹介したホワイトペーパーは、動画の画像と音声をキーワードと一致させるために使われるラベルを用いて関連付けを行う類似性検索を支えるテクノロジーをもっと詳しく説明している。

タイトルやデスクリプション等の動画に関連するメタデータが、継続的に検索エンジンに用いられる一方で、動画の内容の付加的なデータが、動画の検索結果を大幅に改善する可能性はある。

また、ユーチューブの動画でグーグルの料理長が特集されている場合、料理長を容易に見つけることが出来るようになるだろう。


この記事は、SEO by the Seaに掲載された「How a Search Engine Might Rank Videos Based Upon Video Content」を翻訳した内容です。

限りなく基本的な話ではあったのですが、最終的には動画を解析してテーマやキーワードを動画に自動で付与するような仕組みが作られるのですかね。その処理を全ての動画に適用するには恐ろしい処理量が求められそうで、一瞬非現実的な気もしますが、Googleであればいつか普通にできるようになるのかもしれません。 — SEO Japan [G+]

Googleが検索キーワードよりも関連トピックを優先する可能性

Googleのハミングバードアップデートの機能として、検索キーワードをこれまでのように重視せず、それを意味するトピックを考慮するようになった点があります。とはいえ、実際にそれがどのように検索結果に反映されいるかということをピンポイントで指摘することは色々な要素が絡んでいる今日の検索結果において難しい部分もあるのですが、SEO by the Seaが具体例や最新の特許を元にトピックの重要性について考えた記事を。 — SEO Japan

本日、私が作成していた記事の例が、シンプソンズにハイジャックされてしまったようだ。シンプソンズは、Judas Priestをデスメタルバンドと呼んだことを謝罪している。以下の画像は謝罪に関するGuardianの記事に掲載されていたものだ。「Judas」で検索をかけると、この記事は上位に表示される。検索結果のスクリーンショットも掲載しておく:

Bart Simpson writing on a bulletin board that Judas Priest is not a death metal band.

私は、Googleがキーワードよりも記事のトピックのマッチングを土台にしていると思われる検索結果を探していた — 2013年の大晦日にGoogleに付与された特許によると、トピックのマッチングは、動画やメディアが豊富な検索結果の関連性を改善する可能性があるようだ。そして、この特許が、Judasの検索結果を例として用いていたのだ。

Search results on a search at Google for Judas.

トピックベースの検索結果

特許に掲載されていた例を紹介する。この例を参考にすると、SEO関係者の大半がマークしていない行動をGoogleが取っていることが分かる — その関係者の中には、Googleが具体的なキーワードよりも、コンセプトを重視するようになることを指摘する者もいれば、また、ハミングバードアップデートにおいて、クエリ内の全てのキーワードにマッチしていない検索結果が返されていることを把握している者もいる。

例えとして、ワード「Judas」を含む検索クエリについて検証していく。このワード「Judas」は、「Born This Way」や「Lady Gaga」等の特定の領域のトピックに関連付けられる可能性がある。「Born This Way」とは、楽曲「Judas」が盛り込まれた人気の高いアルバムのタイトルであり、「Lady Gaga」は、このアルバムを作り、「Judas」のパフォーマンスを行った人物である。

従来のキーワードベースの検索エンジンでは、ワード「Judas」を含む結果のみを返していたはずだが、今回公開されたトピックベースの結果には、ワード「Judas」を含まなくても、関連する結果が組み込まれる。

例えば「Lady Gaga」や「Born This Way」等のワードが、この関連する結果に含まれることもあり得る。

従って、トピックベースの検索結果は、この関連する楽曲のタイトルをユーザーが意識していなくても、同じアルバムや同じアーティストの結果を盛り込むと考えられる。

Googleがトピックベースの検索を実施したため、「Judas」の動画は検索結果に表示されているのだろうか?それとも、ページランクや関連性等に応じてもともと返していたのだろうか?

確実に特定することは出来ないものの、この特許は、詳しく検証し、考察する価値があると言えるだろう。

複数のソースでトピックを特定

ランキングのアップデートに関する特許を読み、特許で描かれているメソッドが実際に利用されているかどうかを特定するのは、とても難しい。

今朝、Freebase Google Plus ページに投稿された論文に記されているようなアルゴリズムに対して、Googleがトピックを完全に導入することを阻む技術的な制約が存在しても不思議ではない。

当該の論文「信頼しても、検証は欠かさず: ナレッジベースの創出と取集に対する作品の質を推測」(pdf)(是非目を通してもらいたい)のリンクを提供しようとした際、ある一節を読んでいると、トピックをウェブページのランク付けに利用する取り組みに対して、Googleがどの程度準備が出来ているのか気になった:

このような結果は論文では報告されていないものの、開発段階で、どのコンセプトスペースや専門の描写が最も有益なのか精査を行った。分析の結果は、タクソノミーと述語のコンセプトスペースは、大きなトピックのコンセプトスペースよりも有益だと示唆していた。

トピックのコンセプトスペースは、あまりにも多くのカテゴリーが存在するため、トリプル(主語、述語、目的語)を提供しないユーザーに対しては、専門性を広めると薄くなりすぎてしまうためだ。

この論文は、Googleがユーザーの寄与をFreebaseに統合する仕組みを分かりやすく説明しており、トピックベースの寄与は、その他の寄与ほどは有効ではないと見られている。Freebaseは、Googleのナレッジベースで用いられる情報を供給しているものの、Googleは、Open Information Extraction(公開情報抽出)等、その他のソースを参考にしている可能性もある。

それでは当該の特許を紹介していく:

トピックベースの検索クエリの結果
考案: Jianming He、Kevin D. Chang
付与先: Google Inc.
米国特許番号: 8,620,951
付与日: 2013年12月31日
申請日: 2012年6月1日

概要

開示されるトピックに応じて、クエリに対する結果を返すシステムとメソッド。動画、あるいは、関連するテキストの情報が、通常、その他のタイプのコンテンツと比べて薄い他のメディアのコンテンツを検索する際、特にこのシステムは有効である。

クエリに関連するテキストは、クエリ内の1つ、または、複数のワードを、クエリを前提として領域のトピックの条件付き確率を基に、1つ、または、複数の領域のトピックに振り分けることで、各種の領域のトピックに意味的に関連付けられる。一連の結果は、領域のトピックを前提として結果の条件付き確率を基に特定される。

当然だが、ナレッジベース経由のトピックベースの情報は、この時点でも必要とされているかどうか問う必要がある。

Googleはこの情報を別の場所で得ることが出来るのだろうか?

Open Information Extractionのアプローチは、この手の情報を見つけるメソッドの一つである。Googleは、自動化した情報を得る方法、そして、Freebase等の場所にユーザーが寄与するようなクラウドソース化した手法を利用していると思われる。双方のタイプのソースがお互いを足掛かりにしている確率は極めて高い。

クエリに対するトピックと確率ベースの結果に対するトピック

この特許は、トピックの特定を重視する方法は、トピックに関連する確率の計算に左右され、また、複数のステップやタスクに分類される可能性があると指摘している:

まず、領域のトピックは、クエリベースで特定されることがある。次に、この領域のトピックを代表する結果が、示される。このタスクは、過去のクエリに関連する適切なスタッツを分析する、そして、各種の条件付き確率を計算する等の作業によって、達成される。

本特許は、詳細を提供しており、追加の情報が用いられる仕組みにも触れている。

クエリと前提とした領域のトピックの条件付き確率 P(T|Q)は、領域のトピックをクエリに関連付けるために用いられると推測される。領域のトピックを前提とした結果の条件付き確率、P((R|T)は、トピックベースの結果を特定するために用いられると考えられる。この2つの確率、P(T|Q)とP(R|T)は、ここで詳しく説明する様々な手段によって決められる。一部の例では、P(T|Q)とP(R|T)の片方もしくは双方の特定の条件付き確率を決定するための特定の確率が、外部の要素によって決められ、可能な場合、この外部で生成された確率が用いられることもあり得る。

先日、私は、Googleが関連する投稿を特定するために用いているかもしれない方法を「ウェブサイトとのエンティティの関係と関連するエンティティ」の中で説明した。

この特許は、Googleが、同用の方法でトピックをより正しく理解する試みを行っている可能性がある点を指摘している — つまり、「astronomy」(天文学)に対するクエリが、「Hubble images」(ハッブル 画像)を含むトピック(画像を見せびらかす動画を含む)の範囲内として認識される — たとえワード「astromy」がHubbleの画像を掲載するページに表示されていなくても(これも特許で用いられていた例)。

ビューや(YouTube)のグッド等の人気

ランク付けに影響を与えるアイテムとして「いいね!/グッド」に触れるGoogleの特許を今まで一度たりとも見たことがない。しかし、トピックベースの特許はこの話題に触れている。ここで言及される「いいね!」が、Facebookのいいね!ではなく、YouTubeの「いいね!(グッド)」である確率が高いが、明確に記されているわけではない(この特許は両者を特に区別しているわけではない)。

「トピックベースの~」特許は、astronomyに直接触れることなく、Hubbleの動画が、検索結果に反映される可能性がある理由を挙げている:

(1) 「astronomy」と「Hubble images」が関連しているコンセンプトとして定着しているため。
(2) 特定の兆候を示すスタッツにより、人気の高さが証明されているため(ビュー数、いいね!の数等)。

「ビュー」は、動画の結果においては確かに有効かもしれないが、この特許の請求範囲のセクションでは、アプローチを動画に制限していない — しかし、特許の記述には、動画等のアイテムに関連するテキストは、限定されている傾向があるため、動画はこのアプローチの対象として適切だと考えられると明記している。

教訓

この特許で描かれているプロセスは、今のところまだ実施されていないものの、今後、採用される確率は高い — 実施するかどうかと言うよりも、いつ実施するかと言うレベルである。

今後、実際のクエリにはキーワードは含まれていないものの、トピックにおいて関連性が見られる結果を、私は注意して探していくつもりだ。


この記事は、SEO by the Seaに掲載された「Will Keywords be Replaced by Topics for Some Searches?」を翻訳した内容です。

後半の特許は中々レベルが高かったですね。いずれにしても単なる検索キーワードだけでなくそれが該当するトピックを考慮して検索結果を返す傾向は、今後検索のモバイル化やそもそも検索する以前に結果を返すレコメンデーションシステムの進化と共に増えていくと思われます。SEO的にはこれまでのようにテクニカルにキーワードを意識しすぎなくてよくなりラクといえばラクなのかもしれませんが、SEOで他サイトを密かに出し抜くことは難しくなるかもしれませんね。今の間にテクニカルなSEOも活用しつつサイトのオーソリティを築いていくことが重要そうです。 — SEO Japan [G+]

Googleのパンダアルゴリズムに言及する特許?

先日紹介した「Googleのパンダの生みの親に付与された特を改めて詳細に検証してみた記事をSEO by the Seaから。 — SEO Japan

Googleに最近付与された、ナブネート・パンダ氏が考案者に名を連ねた特許は、本当にパンダアップデートに言及しているのだろうか?

検索の品質 vs ウェブスパム

私が取り上げたGoogleの特許の多くは、ウェブスパムの問題、そして、検索エンジンが行動を起こして、あるいは、アプローチに従って、検索結果の操作を防ぐ仕組みを説明している。Googleの対応の初期段階の例として、2003年に申請された「操作された記事を特定するメソッドとシステム」が挙げられる。

Is this Google's Panda?

しかし、その一方で、取り上げた特許の大半は、検索エンジンのユーザーが目にする検索結果の品質を改善する技術に触れている。

例えば、Googleの初期の特許(ページランクはスタンフォード大学の特許であり、Googleが所有しているわけではない)は、クエリに対する検索結果の上位に注目し、同じクエリで上位に格付けされている結果からリンクが張られている場合、一部の結果を上位に押し上げる仕組みを説明している。この特許「ローカルの相互的なつながりを基に結果のランクを変更」は、上位のランキングの結果の品質を改善することを目標に掲げていた。

Googleのフレーズベースのインデックス(日本語)に関する特許は、特定のクエリに対して、共起、もしくは、現れる傾向のある意味を持つワードやフレーズに注目し、このフレーズが掲載されているページを押し上げる、もしくは、関連性のある共起する用語の一部を用いたアンカーテキストを介してもたらされる重要度を高める仕組みを描写していた。この2点の特許は、検索の品質をメインに取り上げている。

フレーズベースのインデックスを採用する特許は数多くあり、少なくともそのうちの1つは、1つのページで、統計的に異常な数のワードが共起しているかどうかをチェックして、ウェブスパムの問題に対処している。つまり、フレーズベースのインデックスのアプローチには、ウェブスパムを検知する技術も含まれることになる。

品質に焦点を絞る

ナブネート・パンダ氏とウラディミール・オフィトセロヴ氏に付与された特許「検索結果のランク付け」は、サイトにペナルティーを与える、もしくは、検索結果を操作する試みを特定するよりも、検索結果を改善することに重点を置いている。

この特許は、当該の手法に従う「利点」を1点のみ紹介している:

低い品質のリソースを特定する検索結果は、ユーザーのクエリに対応して返された検索結果の順位において、格下げされることがある。するとユーザー体験は改善される。なぜなら、上位にランク付けされた検索結果は、ユーザーが求める情報のニーズをより多く満たしているためだ。

パンダアップデートが導入される前、Google検索で表示される検索結果の品質を批判する声が多く上がっていた。

幾つか例を紹介する:

2009年12月13日 — 食器洗い機、Googleが自分の尻尾を食べる経緯: ポール・ケドロスキ

Googleは自らのキーワードのテールを喜んで飲み込む蛇になってしまった。利益になる検索 — 電化製品、中皮腫の訴訟、カヤックのレッスン — を特定し、安価に、そして、定期的にコンテンツを量産するだけで良い。ウェブでは、コンテンツを大量生産していても、誰にも気づかれない。

2009年12月13日 — コンテンツファーム: メディア、ブログ、Googleが注意するべき理由: リチャード・マクマナス

Demand Media等のサイトを分析したところ、この手のコンテンツは、どれも表面的であり、深みに欠けていた。wikiHowの創設者、ジャック・ヘリックのように、「魂が欠ける」とまでは言わないものの、確実に熱意、そして、時にトピックに関する知識さえも欠けていることがある。マイケル・アーリントンによるファーストフードの例えは秀逸だ — コンテンツが、手早く、オーダーが入ってから作られる。

2011年1月2日 — Googleがますます役に立たなくなっていく..: アラン・パトリック

今年は、検索結果の1ページ目に表示される結果は、何らかのSEOスパムに該当するようになり、Googleのシステムのスパムが深刻化している — (「関連する」と主張する)広告を提示しつつ、何を売り込むわけでもなく、別のサイト(同じことをしているサイトが多い)を紹介するだけのサイトが目立つ。また、関連するWikipediaのエントリの一部をコピーし、大量の広告を表示する詐欺サイトも多い。

2011年1月3日 — Google家の問題: ジェフ・アットウッド

皆さんと同じように、私もこの戦いではGoogleを応援しており、Googleがアルゴリズムを少しいじって、この記事の主張を杞憂に終わらせてくれることを願っている。それでも、2000年以降、検索の品質が初めて低下する現象が起きており、やや邪な考えが私の中で湧き起っている。アルゴリズムベースの検索が、戦略として失敗した兆候が初めて現れているのだろうか?次世代の検索は、アルゴリズムへの依存を軽減し、ソーシャル化に舵を取るのだろうか?

受け入れるにはあまりにも恐ろしい考えだが、アルゴリズムの心臓が壊れているのかもしれない。

2011年1月27日 — Googleの検索の品質が低下、それとも、エリート主義?: AJ コーン

Googleなら行動に移すことが可能だ。立ち上がって、Demand Mediaのファーストフードコンテンツは、SERPで上位に掲載しないと言うことも出来る。ファーストフードではなく、高級料理を選ぶことが出来る。

しかし、「ユーザー」がこの方針を求めているのだろうか?

品質の改善

引用した上のブログにも表れているように、Googleの結果が壊れ、品質の高い結果を返すよりも、クエリにマッチさせる点をGoogleが重要視していた感は否めない。

このような批判は、Google本社ですら行われ、そして、2011年2月、Googleは、公式ブログで「検索でより質の高いサイトを見つけるため」を投稿し、アップデートの告知を実施した。この変更の影響は、多数の検索に及び、高品質のサイトを浮上させることを明らかに目標に掲げていた:

最終日、または、その前後に、Googleはランキングに大きな変更を加えました — この変更は、クエリの11.8%に影響を与えると見られています — そこで、ユーザーの方々に現状をお伝えしたいと思います。このアップデートは、品質の低いサイト(ユーザーにとって価値が低く、その他のウェブサイトからコンテンツをコピーするサイト、あるいは、単純に有益ではないサイト)のランキングを格下げするために導入されました。同時に、調査、詳細なレポート、意義深い分析等、オリジナルのコンテンツや情報を持つ品質の高いサイトをより上位にランク付けするようになります。

パンダアップデートを確認し、フォーラム等でパンダの影響を受けたサイトに関するスレッドを読み漁り、そして、確実に影響を受けたサイトの調整に取り掛かった後、ナブネート・パンダが申請した特許が、このアップデート、そして、検索結果の品質を改善する試みを説明しているのかどうか、私は大いに気になった。

以下に、この特許に記載されたメソッドをまとめていく:

  • 複数のリソースのグループに対して、グループ内のリソースに向けれた独立したリンクの本数を特定する。
  • 複数のリソースのグループに対して、言及するクエリの数を特定する。
  • 複数のリソースのグループに対して、個別のグループ特有の修正要因を特定する。ここで言うグループ特有の修正要因とは、それぞれのグループの独立したリンクの本数と言及するクエリの数に応じて決まる。
  • 複数のリソースの各グループを、当該のグループに対するそれぞれのグループ特有の修正要因と関連付ける。ここでは、それぞれのグループ特有の修正要因は、受信した検索クエリに応じて、グループ内のリソースに対して生成された最初のスコアを修正する。

このように、この特許は、連動する複数のパーツで構成されていると言えるだろう。

1つ目のパーツは、サイトのページに向けられたリンクの本数を確認し、当該のサイトと提携している(共同で所有、または、共同で管理)と見られる被リンクを削除する。もしくは、サイトワイドのリンク等に対して、ページへの独立したリンクの本数を削減する。当該のサイトのページに向けて、どれぐらいの関係のないページやサイトがリンクを張っているのかを把握するために、このプロセスが設けられている可能性は高い。より多くのソースから、より多くの独立したリンクが向けられているページは、質が高いと見られるかもしれない。

2つ目は、ページが、特定の言及するクエリをターゲットにしているかどうかを分析するプロセスである。SEOを実施しているサイトは、サイトの全てのページをランディングページ化する試みを行うこともあるが、コンテンツファームと呼ばれるサイトの多くは、全てのページを使って、収益性の高いクエリ、および、このタイプのクエリの組み合わせをターゲットにする。つまり、コンテンツファームの類のサイトは、多くのクエリを言及する試みを行うページを多く持っていると考えられる。

当該のサイトが分類される異なるグループに対する、独立したリンクのカウントと言及するクエリのカウントは、比率として検討され、独立したリンクの本数と言及するクエリの数の比較が行われる。独立したリンクが多く、言及するクエリの数が少ないと、数値は1を超える。一方、独立したリンクが少なく、言及するクエリの数が多いと、1を下回る。

この数値は、リンクの本数とクエリの数に応じて、各ページが、クエリの用語やフレーズに対するナビゲーションタイプの結果と見られているかどうかで修正されるスコアで乗じる。ナビゲーションタイプの用語やフレーズに近ければ近いほど、この部分のスコアは高くなる。最終的なスコアは、一部の結果のランキングスコアを押し上げる場合もあれば、押し下げる場合もある。

ページよりもグループ

この特許は、多くのランキングアルゴリズムのように特定のページやサイトをターゲットにするのではなく、リソースの「グループ」に注目すると指摘している。グループは、複数の方法で決定されるようだ。グループ内のリソースは、単一のグループのみに盛り込まれる。

グループは、アドレスをベースに決められ、グループ内の全てのリソースが、– http://www.example.comのように、同じドメイン名を持つ可能性がある。あるいは、http://host1.example.comやhttp://host2.example.comのように、ドメインのホストの名前でグループが形成されることもある。

リソースのグループは、各グループに対する言及するクエリの数で分割されると見られる — そのため、各区画には、言及するクエリの数が同程度のリソースのグループが集められると推測される。

このアプローチでは、あるウェブサイトが、複数のグループに分割される、もしくは、複数のウェブサイトを含むグループの一部になると考えられる。グループ内でページをランク付けするため、独立したリンクの本数:言及するクエリの比率は、ナビゲーショナルのシグナルを伴うスコアで乗じ、最終的なランクの特定を行う。

独立したリンクの本数

この特許が、質の高いページを高くランク付けすることを目標に掲げているなら、ページ、または、ページのグループに向けられた独立したリンクの本数に注目する可能性がある。

本特許は、リソースの各グループに対して、– 全てのリンクではなく — グループに向かうリンクの本数をカウントすることもあり得ると指摘している。また、本数がカウントされるリンクは、エクスプレスリンク(クリックして、別のページに導かれる)とは限らず、インプライドリンク(サイテーションと呼ばれることが多い)の本数もカウントされる可能性がある。エクスレプレスリンクは、ある場所へ導くタイプのリンクであり、一方のインプライドリンクは、クリックしても、ユーザーはリンクのターゲットに向かうことが出来るわけではない。

ここで、この特許が、なぜページランクに触れていないのか、と言う疑問が湧いてくる。この計測基準もページランクも、本来ならば、質のシグナルになるはずだが、Googleの全てのシグナルにページランクを盛り込む必要はない。独立したリンクへの依存は、同じサイトから大量のリンクを得るメリット、もしくは、所有者や管理者が同じサイトからリンクを得るメリット、あるいは、他のサイトからサイトワイドリンクを得るメリットを打ち消す効果がある。

独立したリンクとは、リンクのソース、そして、ターゲットが、互いに独立しているケースを指す。また、リンクが掲載されているソースのグループ、そして、ターゲットのグループに対して、互いに独立しているかどうかを確認することが出来る。

あるグループから別のグループへのリンクが独立していないことを特定するには、同じ個人/団体によって所有されている、ホスティングされている、もしくは作られている等、リソースのグループが関連している確率が高いかどうかを判断する試みが含まれると考えられる。

リソースが、似ている、もしくは、同一のコンテンツ、画像、フォーマット、あるいは、CSS等を持っている場合、この類似性は、リソースが独立していない点を示すシグナルになることもあり得る。

あるリソースから、ターゲットのグループに複数のリンクが向けられている場合、このうち独立したリンクとしてカウントされるのは、1本のみである。特許の中では明記されていないものの、こうすることで、サイトワイドリンクが複数回カウントされるのを防ぐ効果が見込まれる。

言及するクエリ

別の言及するグループへ向けられたリンクの本数を分析する試みに加えて、このプロセスは、サイトのページ、そして、各ページがターゲットにしている可能性があるクエリを精査すると見られている。ページがクエリをどの程度満たしているのかを特定する取り組みが行われるのだ。

例えば、用語「example.com」を含む場合、そのページは、このサイトのホームページを言及していると推測することが出来る。検索エンジンのユーザーが、サイトのページを言及するためによく利用する用語が含まれる場合、当該のページを示唆する、言及するクエリを持つと言うことが出来る。この特許は、その他の言及するクエリの例を挙げている:

…example sfとesfが、ユーザーによって、URL「http://www.sf.example.com」を持つリソースを言及するために頻繁に用いられているなら、すなわち、クエリ「example sf news」やクエリ「esf restaurant reviews」は、URLが「http://www.sf.example.com」のリソースを含むグループに対する言及するクエリとしてカウントされる。

ナビゲーションクエリ

記事「ナビゲーションクエリとリソースをGoogleが特定する方法」の中で、Googleが文書を識別するアプローチを使って、クエリに織り込まれた製品やサービスの公式ホームページ等、特定のページを見つけることを望み、ユーザーが入力したクエリのためのページかどうかを特定する仕組みを私は紹介した。

このタイプの問い合わせは、アミット・シンガル氏が、Googleの公式ブログの記事「良質なサイトを作るためのアドバイス」で投げ掛けていた問いと、ある程度、共通していると言えるだろう。このような問いは、例えば、この特許が作成された時点で、分析に組み込まれていた可能性はあるが、特許では、特に触れられていない。

それでは、パンダアップデートを描写する可能性が高い特許を紹介する:

検索結果のランク付け

考案: ナブネート・パンダ、ウラディミール・オフィトセロヴ
付与先: Google
米国特許番号: 8,682,892
付与日: 2014年3月25日
申請日: 2012年9月28日

概要

検索結果をランク付けするための、コンピュータの保存メディアにエンコードされたコンピュータプログラムを含む、メソッド、システム、および、機器。

メソッドの一つは次のような特徴を持つ:

  • 複数のリソースのグループに対して、グループ内のリソースに向けれた独立したリンクの本数を特定する。
  • 複数のリソースのグループに対して、言及するクエリの数を特定する。
  • 複数のリソースのグループに対して、個別のグループ特有の修正要因を特定する。ここで言うグループ特有の修正要因とは、それぞれのグループの独立したリンクの本数と言及するクエリの数に応じて決まる。
  • 複数のリソースの各グループを、当該のグループに対するそれぞれのグループ特有の修正要因と関連付ける。ここでは、それぞれのグループ特有の修正要因は、受信した検索クエリに応じて、グループ内のリソースに対して生成された最初のスコアを修正する。

見解

Googleが、パンダアルゴリズムを導入した数週間後、もしくは、数ヶ月後にこのアルゴリズムを調整し、また、ベータ期間を通して、多数の変更を加えてきた可能性は強い。

先週、「Googleのパンダの生みの親に付与された特許」(日本語)を投稿して以来、パンダアップデートを描くこの特許に関して、否定的な意見に私は何度も遭遇している。このような意見は、実際に関係するプロセスを詳しく調べることなく、特許で記述されているリンク分析の存在を理由に、この特許は、パンダではなく、ペンギンのアプローチを描いていると主張するものばかりであった。

しかし、独立したリンク、そして、言及するクエリに関連するリンク分析は、サイトの被リンクプロフィールよりも、サイトの品質を計測するための試みに近い。 アミット・シンガル氏による23の問いのような課題を対象にしている可能性がある「ナビゲーションクエリ」の分析もまた、ページの品質を理解する試みの一環だと言えるだろう。

私はこの記事のタイトルで、この特許が本当にパンダアルゴリズムを取り上げているのか問い掛ける形式を採用した。しかし、個人的には、パンダアルゴリズムに言及していると確信している。ただし、実装され、テストされるにつれ、パンダアップデートが、若干異なる方向に進んだ可能性に関しては、否定するつもりはない。


この記事は、SEO by the Seaに掲載された「Is This Really the Panda Patent?」を翻訳した内容です。

当時流行っていたコンテンツファームに検索結果を占有させないためのパンダ導入の意味合いもあったわけですが、サイト全体でクエリーの内容まで見ているのは流石ですね。さらにリンクの評価方法も相当複雑化しており中途半端な人口リンクは一瞬にして見抜かれる気配です。Googleのアルゴリズムはパンダに続いてペンギン、ハミングバード、そしてペナルティ強化と、今となってはテクニカルなリンク構築を気にする必要性は余りない状況ではありますが、SEOマニアには気になる内容でした。 — SEO Japan [G+]

10年前に存在したGoogleのハミングバードアルゴリズム

ハミングバードアルゴリズムの特徴の1つが、検索されたキーワードの意味をGoogleが推測し、検索結果を返すこと。Googleのエンティティ検索の技術が活用されたアルゴリズムともいえますが、実は、同じような技術が既に10年前にGoogleによって取得されていたらしい?!そんな気になる話題をSEO by the Seaから。 — SEO Japan

9月(2003年)、Googleは、検索エンジンのユーザーが投稿したクエリを書き直すアルゴリズムを導入したと発表した — このアルゴリズムには、「ハミングバード」と言うコードネームが与えられていた。当時、私はハミングバードとの関連性がとても高いと見られる特許に関する記事を作成していた。この特許は、長く、複雑なクエリを書き直し、その一方で、クエリ内の全てのワードに注目する取り組みに焦点を絞っていた。そのため、私はこの記事に「Googleハミングバードと思われる特許を分析」(日本語)と言うタイトルをつけた。

Hummingbird Image from the Department of Forestry

野草に関する記事の画像 — US Forest Serviceのビル・メイ博士

Googleには、クエリの書き直し(クエリの拡大やクエリの拡張と呼ばれることもある)に関する複数の特許が与えられている。これは、ユーザーがニーズを満たすために必ずしも最適なキーワードを選択していなくても、検索エンジンが、ユーザーが求めている結果に近い結果を提供する確率を高めるための取り組みである。また、最近、私は、Googleが、クエリを書き直す仕組みに関する特許を取り上げたが、Googleは、ページのランク付けの可能性を正しく理解するために、検索の情報のやり取りに注視する枠組みを作っているように思えた。

検索のスペリシャリスト、ダニー・サリバン氏は、ハミングバードの変更点をよくある質問集形式(日本語)でまとめており、その中に、次の質問と回答が掲載されていた:

新しいエンジンは古いパーツを利用しているのか?

どちらとも言えない。一部のパーツは今でも問題なく動くため、捨てる理由はないが、頻繁に交換が行われるパーツもある。グーグル曰く、ハミングバードは、既存のパーツと新しいパーツで構成された新しいエンジンであり、10年前のテクノロジーを用いて10年前の需要に応えるためではなく、現在の検索の需要に応えることを念頭に置いて、整備されている。

以前から、クエリの書き直しに関する特許の作成にGoogleが取り組んでいたことを知っていた私は、この難題にチャレンジすることに決めた。ハミングバードの仕組みを描写した、約10年前に申請された特許を見つける決意をしたのだ。私は真剣に捜索を行い、その結果、Googleの検索の品質を統括し、先日のハミングバードの告知にも関わっていたアミット・シンガル氏が、考案者に名を連ねる特許を探し当てることに成功した。この特許で描かれているテクノロジーは、よく似ているものの、遥かにシンプルであり、モバイルデバイスのユーザーが、会話型の検索に対応する際に抱えるニーズに焦点を絞っているようには見えなかった。当該の特許は、次のようにこのテクノロジーを説明している:

ユーザーが入力する検索クエリは、通常、ユーザーが求める情報を表現する多くのクエリのうちの1点のみである。例えば、車の交換部品を探している場合、検索クエリ「car parts」を入力すると推測される。しかし、検索クエリ「car part」、「auto parts」、もしくは、「automobile spare parts」は、関連する結果を返す上で、「car parts」と同程度、もしくは、それ以上に有効だと見られる。通常、ユーザーのクエリには、ユーザーが適切と見なす文書を返す上で有効な複数の代わりのクエリが存在する。

従来、1つ目のユーザーのクエリに関連する追加のクエリは、検索用語の異なる形式に応じて(例えば、「part」や「parts」)、あるいは、検索用語の類義語に応じて(例えば「car」の代わりに「auto」)、検索エンジンによって自動的に作られる。こうすることで、検索エンジンは、ユーザーの検索クエリとは完全にマッチするわけではないものの、同じように関連する文書を見つけられるようになる。

面白いことに、この過去の特許は、2003年に申請されていたものの、付与されたのは2011年であった。

クエリの意味の情報に基に検索クエリを改善
考案: アミット・シンガル、メヘラン・サハミ、ジョン・ランピング、マーシン・カスケル、モニカ H. ヘンジンガー
付与先: Google
米国特許番号: 8,055,669
付与日: 2011年11月8日
申請日: 2003年3月3日

概要

検索エンジンに対する検索クエリが、検索クエリから得られる情報を考慮して、当該の検索クエリの用語に意味が近い代わりの用語を盛り込むことで、改善される可能性がある。ここでは、検索クエリ内のもともとの用語の意味が近い一連の代わりの用語の初期のセットが作られる。

初期の代わりの用語のセットは、もともとの検索クエリから得られる情報と比較される可能性がある。例えば、1つ目の検索クエリを使って行われた検索に対する文書の情報が挙げられる。もともとの検索クエリから得られる情報との関係を基に、もともとの検索クエリに1つ、または、複数の代わりの用語が、加えられることもあり得る。

この特許は、クエリの書き直しには、複数の方法が存在すると指摘している。また、2つのメソッドを紹介しており、クエリ内の一部の用語を使い、もともとのクエリ内のワードの一部を変形するために「語幹解釈」を用いるか、もしくは、類義語辞典でワードを調べるかのいずれかが採用されるようだ。語幹解釈は、同じ語幹を持つワードに注目し(例えば、congressとcongressional)、同じワードのバリエーションを用いてクエリを書き直す。類義語辞典の利用は、「car」を「automobile」等の類義語で置き換える仕組みを用いていると考えられる。

2013年に付与された特許は、この2つのアプローチの問題点を次のように説明しているs:

語幹ベース、および、類義語ベースの手法を使って、追加の検索クエリを探そうとすると、同じ状況では、同じような意味を持つものの、異なる状況では意味が異なる2つのワードを処理する際に、大きな問題が生じる。例えば、「automobile」は、クエリ「Ford car」においては、「car」に近い意味を持つものの、クエリが「railroad car」の場合は異なる。その結果、このアプローチを採用すると、無関係の結果を返す検索クエリを作り出してしまうことがある。また、クエリ「jaguars」が、語幹「jaguar」から生じる場合、クエリの意味が、動物から、人気の高い自動車メーカーに変えられてしまうこともある。

私が「ハミングバードの特許」と呼ぶ最近の特許は、語幹解釈や類義語、あるいは、Googleが研究してきた類義語を特定する手法には全く触れていない。しかし、どちらの特許も、クエリとして用いられる各用語に対して、検索結果内で、もしくは、クエリのログファイル内で、同時に起こるワードを、クエリを書き直すために用いる類義語の候補として、特定する仕組みを描いている。2003年に申請された特許もまた、もともとのクエリの「クエリのコンテキスト」を理解して、意味の通るクエリを書き直す試みを取り上げている。

もともとのクエリ全体のコンテキストを考慮している新しい特許は、クエリを書き直すために用いるプロセスを、より分かりやすく説明している。従って、新しい特許は、このタイプのクエリの前処理の仕組みについて精査を重ねた後で、作られた可能性がある。特許「共起する用語をベースとした類義語の特定」では、このプロセスにおいて、クエリのコンテキストは重要な鍵を握ると指摘していた:

基本的に、この特許で描写されているテーマにおいて斬新な点は、検索クエリに含まれている特定のクエリに対して、前後以外のコンテキストを使って、類義語の候補を評価するメソッドに表れている。特定のクエリの用語の前後以外の検索クエリに含まれる追加の用語に応じて、候補の類義語が、当該のクエリの用語にとって、類義語なのか、もしくは、代わりの用語なのかを特定するため、評価が行われる。例えば、検索クエリに複数の用語が含まれる場合、検索クエリの始めに位置するクエリの用語内の特定のコンテキストが、最後に位置するクエリの用語によって定義されることがある。クエリの用語に対するコンテキストを利用すると、「候補の類義語 = 当該の特定のクエリの用語に対する類義語」である点に関して、自信を持つことが可能になる。

現在のテクノロジーと10年前のテクノロジーでは、共起する用語を探して、クエリのコンテキストをより正確に理解するシステムを基に、セマンティックを分析する精度が改善されたように思える。

結論

ここ数週の間に、ハミングバードをより分かりやすく説明しようと試みるブログの記事が多数投稿されていた。

中には、ハミングバードを、Googleのナレッジグラフベースを活用して、クエリやページを説明する固有のエンティティを理解するためのアルゴリズムと説明するブログがあった。しかし、ハミングバードの告知では、検索の90%が影響を受けると指摘されており、特定の人物、場所、事象のクエリだけが影響を受けるとは考えにくい。また、今回紹介した特許で挙げられていた例には、固有のエンティティは含まれていなかった。

schema.orgのマークアップ等、セマンティックをベースとしたアプローチが、ハミングバードの仕組みにおいて重要な鍵を握っているのではないか、と問われたことがあるが、私は否定的な見方をしている。schema.orgのマークアップは、インデックスするページの内容を検索エンジンが理解する上では役に立ち、リッチスニペットにつながる可能性はあるものの、クエリを書き直し、コンテキストを正確に理解する取り組みとは関係がない。

ハミングバードを考慮して、キーワードリサーチの方法やコンテンツの作成を変えた方が良いのだろうか?キーワードを調べている際にコンセプトに焦点を絞っているなら、変える必要はないだろう。「キーワードリサーチの代わりにコンセプトリサーチを行うべきか?」の中で、私は次のように指摘した:

何らかのトピックに関して記事を作成している時、あるいは、キーワードリサーチを行う時は、利用することに決めたワードが、ワードをつなげただけではなく、様々な側面を持つ特定のコンセプトを表現するように心掛けるべきである。

ハミングバードを考慮して、リンク構築を変えるべきだろうか? Googleのランク付けにおいて、ページランクは今でも用いられており、また、リンクをページに集める取り組みは、引き続き実施する必要があると思われる。しかし、ハミングバードアルゴリズムでは、各種の検索エンティティの間の関係に関して、データが集められる方法を正しく理解することが、検索結果のランキングに影響を与えるようになると推測される。検索エンジンのユーザーが、特定のクエリに対して、特定のページをクリックして、長時間留まる傾向があるなら、クリックして、滞在するページは、ハミングバードの下で、上位に押し上げられる可能性がある。

追加: 2013年11月10日 – 2013年11月5日、同じ特許(クエリの意味の情報を基に検索クエリを改善)の続きがGoogleに付与されていた。新たに付与された特許では、請求項が、実に興味深い内容に、大幅に書き直されていた。新しい特許は、クエリ内のもともとの用語に代わりの用語を用いて、逆文献頻度をカウントし、修正されたクエリの結果のセット、および、もともとのクエリの結果のセットにおいて、代わりの用語が表示される回数を確認する手法を描いている。この特許の更新が行われたタイミングに、実に興味をそそられる。以下のリンクは、本特許の古いバージョンへと導くので、お望みなら、請求項を比較してもらいたい。


この記事は、SEO by the Seaに掲載された「Google’s Hummingbird Algorithm Ten Years Ago」を翻訳した内容です。

当時からハミングバードレベルの発想があったかはともかく、ユーザーの利便性を考えても意味ある技術とは思いますし、流石Googleという感じですよね。。2003年といえば、検索マーケティングに一切関わっていなかった読者の方も多いのではないでしょうか?そして記事で紹介されていた特許以上に最後の「特定のページをクリックして、長時間留まる傾向があるなら、クリックして、滞在するページは、ハミングバードの下で、上位に押し上げられる可能性がある」の一文もより気になる内容でした。最強のSEOはユーザー滞在時間が長いページ&サイトを作ること、まさにコンテンツの中身が問われる時代ですね。 — SEO Japan [G+]

Googleの広告を買うとランキングが上がる…なんて嫌だ

Googleアドワーズ広告の利用金額が多いとオーガニックの検索結果が上がるかもしれない、、、そんな検索マーケティング業界の都市伝説が実は隠された真実だったかもしれない?!Googleが最近取得した特許で判明した事実とは。 — SEO Japan

2011年の1月、Googleのスパム対策を統括するマット・カッツ氏は、Googleの公式ブログで、「Googleの検索と検索エンジンのスパムについて」を投稿し、次にように指摘していた:

ここ数週間、Googleの広告を掲載しているサイトのスパムコンテンツに対しては、Googleがインデックス内で大目に見ると言う誤った考えが浸透しているようだ。この際、ハッキリさせておこう:

  • Googleは、Googleの広告を掲載しているかどうかに関わらず、品質ガイドラインを違反するサイトに対しては、行動を起こす。
  • Googleの広告を表示しても、サイトのランキングにプラスに働くわけではない。
  • Googleの広告を購入しても、Googleの検索結果のランキングを押し上げる効果はない。

この原則は常に適用されているが、今でも適用されている点を改めて強調しておくことも重要である。

しかし…

Making Money at the US Treasury

米国債で金儲けに走る

かつて、Googleが、広告のデータを確認して、ページをランク付けする際に考慮していたとしたら、カッツ氏は何と言うつもりなのだろうか?カッツ氏の上のコメントのような発言を何度も耳にすると、なかなか尋ねる勇気は湧いてこない。

そんな中…

本日、米国特許商標局からGoogleに付与された特許には、この主張を覆す技術が記されていた。

当然ながら、マット・カッツ氏本人も以前指摘していたように、Googleが、何らかの技術に対する特許を取得したからと言って、現在、その技術を利用しているとは限らない。事実、本日Googleに付与された特許は、サイトのランキングおよびGoogleの広告に関する発言とは、矛盾しているように思える。

あるサイトが検索結果で広告している用語に関する情報を使って、Googleがサイトに関する詳細、そして、サイトにとって重要な用語を学んでいると仮定してみてみよう。

さらに、Googleがサイトで掲載されている広告に注目し、検索結果のランク付けを目的として、内容を特定していると考えてみてもらいたい。

この2つのトピックは、2003年に申請されたこの特許で取り上げられている:

広告のデータを使って検索のランキングを改善するメソッドおよびシステム
考案: Monika Henzinger、Alexander Mark Franz
米国特許番号: 8,676,790
付与日: 2014年3月18日
申請日: 2003年12月5日

概要

公開されている広告データを使って、検索ランキングを改善するシステムおよびメソッド。

ある実施例では、検索エンジンは、検索クエリを受け、検索クエリに関連する複数の記事を特定し、検索クエリに関連する広告を断定して、少なくとも一部において広告のデータを基に記事のランク付けを行うメソッドを実施する。

考案者のMonika Henzinger氏は、Googleのリサーチ部門の設立者であり、この部門を数年にわたり統括していた。同氏は、また、検索に関連する様々なテーマに取り組んできた。

もう一人の考案者、Alex Franzは、複数の論文、そして、特許の作成において、Henzinger氏に協力していた。両氏は、Googleの発展に大きな影響力を持つ。この特許の考案者に両氏の名前が掲載されていることで、その重要度がうかがえる。

たとえGoogleで広告を表示する行為、あるいは、Googleの広告を購入する行為が、サイトのランキングを改善につながらないとしても、この特許は、少なくとも、広告の情報を特定のクエリとページに利用するアイデアを、Googleが真剣に考えており、優秀なリサーチャーの時間を割いている事実を反映している。

この特許は、広告の情報がページのランク付けに用いられる様子を描いた画像を提供している。繰り返すが、これはGoogleが実際にこのメソッドを実装している証拠にはならないものの、このような取り組みが考慮されたことを示唆している。

事実、2003年の時点では、広告の情報が、Googleがページの内容をより良く理解する上で役に立った可能性はある。

それでも、このような目的で利用されないことを心から祈るばかりである。


この記事は、SEO by the Seaに掲載された「Has Advertising Information Been Used by Google in Ranking Pages in Search Results?」を翻訳した内容です。

正に記事通りの感想ではあるのですが、順位を上げるまでとはいわずとも何らかのランキング付要素に広告データが利用されている可能性は0ではないとは思いますし、少なくとも実装されたかはともかく検証はされていたでしょうね。ローカル検索やユニバーサル検索等、自然検索結果と広告の境目が限りなくグレーゾーンに近づいていますし、いずれにせよ確実に広告の方が露出があるのは事実なわけで、最近の広告への「広告」レーベルの付与も含め、今日のGoogleはこんな議論のはるか上を良くも悪くも進んでいる気もしますが。 — SEO Japan [G+]

Googleがサイトスピードをランキングシグナルに利用する特許と理由

数年前にGoogleが導入した「サイトスピード」というランキングシグナル、実際の順位にはさほど影響はないということで、SEO的には余り重要視されてきたわけではありませんが、今回サイトスピードと検索順位に関するGoogleの特許が認められた、ということで、その内容を改めてチェック。特許関連の記事となればもちろんSEO by the Seaから。 — SEO Japan

2009年4月9日、Googleのウェブマスター向けブログで「ウェブ検索ランキングにおけるサイトスピードの利用」を読んだ後、多くのサイトのオーナーが、ウェブサイトをスピードアップすることに関心を持つようになった。

Early race car driver Bob Berman, who raced in the first Indy 500 in 1911.

同日、Googleのマット・カッツ氏は、自身のブログで「Google、検索ランキングでサイトスピードを導入」を投稿していた。この2本の記事では、Googleが利用するランキングシグナルとして、サイトスピードが挙げられていた。

カッツ氏は、大地を揺るがすようなシグナルではないと指摘している。また、大半のランキングにおいては、影響を与えない可能性もあるようだ。しかし、同氏は、スピードは、ユーザー体験の改善を含む、ランキング以外のメリットがある点を強調していた。

どちらもの記事も、Googleがサイトスピードにおいて注目している点、そして、Googleがサイトスピードをページのランク付けに利用する方法を詳しく説明しているわけではなかった。しかし、2月4日にGoogleに付与された特許には、もっと詳しい情報が掲載されていた。

それでは、Googleは、ページが読み込まれるスピードをランキングシグナルとして、なぜ利用することに決めたのだろうか?

分かりやすく説明すると、この特許は次の点を指摘している:

ある検索クエリに対して、同様の関連度の2つのリソースがあったとすると、ユーザーは、読み込みにかかる時間が短いリソースへの訪問を望むと考えられる。

Googleは、PageSpeed Insightsツールを含む、サイトに関連する問題を調べる上で有効なツールをサイトのオーナーに提供している:

Google's PageSpeed Insights tool online interface.

PageSpeed Insightsツールは、ブラウザにページが読み込まれるスピードに関する複数のルール(経験則)をどの程度満たしているかに応じて、サイトにスコアを与える。特許では触れられていないものの、このツールは、サイトのスピードアップを試みる人達にとって、心強い味方となる。

ルールに関する情報、このルールが用いられる理由、実装される仕組みに関する情報も豊富に用意されている。専門的な情報が多く、開発者、もしくは、サイトのスピードの最適化を実施したことがある経験者に助けてもらう必要があるかもしれない。

読み込み時間の比較

それでは当該の特許を紹介する:

リソースの読み込み時間を検索結果のランク付けに利用
考案: Arvind Jain、Sreeram Ramachandran
付与先: Google
米国特許番号: 8,645,362
付与日: 2014年2月4日
申請日: 2010年11月12日

概要

リソースの読み込み時間を検索結果のランク付けに利用する、コンピュータ保存メディアにエンコードされたコンピュータプログラムを含む、メソッド、システム、そして、機器。

一形態において、検索クエリを特定のユーザーのデバイスから受けるメソッドを含む — 当該の検索クエリに対応するそれぞれの複数のリソースに対して、それぞれ第一スコアを受け、それぞれの複数のリソースに対して、リソースの読み込み時間の計測値を指定する読み込み時間のデータにアクセスし、読み込み時間の計測値を基に、複数のリソースのそれぞれの第一スコアを調整して、複数のリソースの一つ一つに第二スコアを生成する。

オンラインリソースの読み込み時間は、ページまたはリソースが閲覧される複数のデバイスに対するサンプルの読み込み時間の統計的な計測値に応じて決まる。

この特許は、ブラウザでの読み込み時間に影響を与える要因として、次のアイテムを挙げている:

  • リソースの大きさ
  • リソースに含まれる画像、または、参考文献の数
  • リソースに対応するウェブサーバー
  • リソースの読み込みに対するネットワーク接続のインパクト

Googleが、2つのページやリソースを比較するために読み込み時間を計測する際は、(1)同じ国に存在し、(2)同じユーザーエージェント(例: 同じブラウザ)を用いるデバイスに制限すると見られる。

読み込み時間のデータは、ウェブブラウザ、ウェブブラウザのアドオン、あるいは、特定のユーザーのデバイスに関連するモニタリングソフトウェアから集められる可能性がある。

教訓

この特許は、クエリに対して、2つの異なるページまたは結果が存在し、1つは比較的早く読み込まれ、もう1つは比較的遅い場合、早い結果は、表示される順番において優先され、一方の遅い結果は格下げされ、その結果、早いページの方が検索結果の上位に掲載されるようになる可能性があると指摘している。

一部のページの読み込み時間を「推測」する手法等、この特許には、その他にも詳しく描かれている技術がある。モバイルの読み込み時間のデータは、「この類のデバイスにおけるリソースに対するリクエストの待ち時間が長いため」含まれないと記載されている。

このタイプの読み込み時間の情報は、「一部のリソースは、特定の場所やデバイスから十分なトラフィックを得ておらず、特定の特徴を共通点として持つデバイスで得られた読み込み時間の計測値が、有益な値だとは限られないため、一部は用いられない可能性がある。特許は、次のような例を挙げている:

フランス国内のユーザーのデバイスからは、中国語のリソースに十分な量のアクセスが行われていないと見られるため、フランス国内のデバイスのみを利用した読み込み時間の計測値は、意味を持たない可能性がある。また、立ち上げられたばかりのウェブサイトもまた、リソースに関連する読み込み時間のデータが十分に得られていないと考えられる。

サイトのスピードを改善することが出来るなら、それに越したことはない。関連性や、ページランク等のシグナルほど強力ではないかもしれないが、2つの似ているページがあり、1つのページはもう1つのページよりも読み込みが遥かに早い時、大きな影響を与えるポテンシャルを持つ。

追加: 2014/02/14 Go Fish Digitalで協力したデビン・ホームズ氏(優れたデザインを提供してくれた)が、今日の午後、「Google、バックグランドでJavaScriptをコンパイルしてChromeをスピードアップ」を紹介してくれた。この記事を読めば、Googleがウェブのスピードアップにいかに真剣に取り組んでいるかが分かる。この特許は、異なるユーザーエージェント等を考慮して、サイトを比較する取り組みを取り上げており、これはGoogleがユーザーエージェントに注目する理由に1つに数えられる。 Googleが、2つの異なるリソースの読み込み時間を比較するなら、同じバージョンのChromeでウェブサイトが読み込まれる時間を検討する可能性がある — 例えば、Chromeに対するGoogleの最新の修正には、ページの読み込みをスピードアップする効果が見込まれている。


この記事は、SEO by the Seaに掲載された「Google’s Patent on Site Speed as a Ranking Signal」を翻訳した内容です。

特にモバイルデバイスの普及&ウェブのグローバル化で必ずしもネットワーク環境が日本程良くないGoogleのサービスエリアは格段に増えていくと思いますし、Googleにとってもより重要な要素になっていくのでしょうか。SEO関わらずUX的にサイトスピードは大事なのは当たり前の話ですし、この記事をきっかけに再度あなたのサイトのスピードチェックをしてみては? — SEO Japan [G+]

コンテキストで変化するGoogleの検索結果

先ほどのSEO by the Seaの記事が薄すぎたので今回は厚め&充実の記事を。常に進化を続けるGoogleの検索アルゴリズム、その最新の技術が垣間見える記事を。 — SEO Japan

検索エンジンを使って、情報を探す際、具体的なクエリから始め、得られた結果に応じて、利用するクエリを変えていくことが多い。どうやら、Googleは、この類の検索の行動に注目していたようだ。今月の上旬にGoogleに付与された特許によると、検索エンジンのユーザーがクエリのセッション中に利用するクエリを確認し、そのワードやフレーズに、より大きな重要度を認め、セッションの後半で加えられる用語の重要度を低く見積もる可能性がある。

この特許は、ハミングバードアップデートをもたらしたアルゴリズムの進化の一部を担っているのではないだろうか。

An old print from the 1880s showing a cat evolving into a catcher.

検索クエリのセッションの情報に注目し、その結果に応じて検索結果を変更するテクノロジーを取り上げた特許は、他にもある。 事実、私はこのサイトで2、3点の特許を取り上げたことがある。当該の特許を振り返ると、発明家が共通していることに私は気づいた — それはAshutosh GargとKedar Dhamdhereの二名だ。どちらも既にGoogleを退職しており、Ashutosh Gargは、現在、Bloomreachと呼ばれる会社に勤めており、また、一方のKedar DhamdhereのLinkedInにはFacebookで働いていると記載されている。

Googleが後続の関連する検索に対して検索結果を格下げする仕組み」の中で、私は「反復的な検索結果の降格」と題された特許を取り上げている。この特許は、「black coats」等のクエリで検索を行い、続いて「black jackets」等のクエリで検索を実施した場合、この2つのクエリの間で返された結果は、2つ目の用語に対するセッションでは、下位に引き下げられる可能性がある点を指摘している。なぜなら、当該の結果を確認したものの、初めて見た際にユーザーが注目しなかったと考えられるためだ。

一方、「Googleが検索結果のスニペットを変える理由」の中で、私は特許「セッションベースの動的な検索スニペット」を取り上げているが、この特許は、少し異なるアプローチを採用している。

同じ検索用語を使って、2件の同様の検索を実行し、同じ結果が表示されると、Googleは同じページを下位に引き下げる代わりに、新しい検索で用いられたワードに焦点を絞り、ページのスニペットを書き直すことがある。すると、ユーザーに選ばれるチャンスを当該のページに再び与えられることになる。ユーザーが実行したクエリ、そして、双方に関連するクエリを共に反映しているためだ。これは結果を単に降格するよりも、良い解決策のように私には思える。

1件目の特許は2007年に申請され、新たに付与された特許は2008年に申請されていた。最後に紹介した特許(セッション中に新たなクエリが浮かび上がると、Googleが同じ結果に対するスニペットを変更する手法)は、2007年に申請され、2011年に再び申請されていた。これは、Googleがこのような検索結果を処理する仕組みが、時間の経過と共に進化していることを物語っている。

それでは新たに付与された特許を紹介する:

コンテキストに応じた検索用語の評価
発明: Ashutosh Garg & Kedar Dhamdhere
付与先: Google
米国特許番号: 8,645,409
付与日: 2014年2月4日
申請日: 2008年4月2日

概要

コンテキストに応じた検索用語の評価が明らかにされる、機器、システム、そして、メソッド。進行中の検索クエリが、検索セッション中に受信される。すると、検索クエリの後続の部分の特定が行われ、クエリ内の後続の検索用語が特定される。続いて、後続の検索用語の検索用語の特質が調整される。

検索セッション

検索エンジンは、様々な方法で、検索セッションを追跡することが可能だが、通常は、特定のトピックを検索し、当該のトピックに関連する複数のクエリを実施した期間を参考にすることが多い。ユーザーは、複数のタスクを同時に行い、セッション中に関連しないクエリを検索する可能性もあるが、オリジナルのトピックに関連するクエリを再び検索する場合は、同じクエリのセッションと見なされることもあり得る。

クエリのセッション中に、ユーザーが何を検索しているのかに注目するこの概念は、類義語とセマンティック検索に関連する特許でも登場しており、Googleのハミングバードアップデートと大いに関係していると見られる。詳しくは「Googleがクエリセッション内の共起を基にクエリを変える仕組み」を参考にしてもらいたい。

断定クエリ

あるユーザーがGoogleで「Atlanta weather」を検索した際、検索結果自体は適切ではあるものの、ユーザーが求めていた結果を正確に提供しているわけではなかったとする。その結果、ユーザーは再びGoogleに戻り、今度は「Atlanta weather forecast」と入力して、求めている結果の範囲を狭めた。この特許は、一つ目のクエリを「断定クエリ」、そして、追加されたクエリを「後続クエリ」と呼んでいる。

また、この特許は、断定クエリの用語を、重要と見なし、一方の後続クエリの用語に対しては、重要度を低く見積もる — 場合によっては、後続クエリをオプション扱いすることもあると指摘している。

特許を何度か読んでいくうちに、このアプローチが、問題の解決に役立つとは私には思えなくなった。ユーザーが、「Atlanta weather forecast」で検索を始めた場合、「Atlanta weather」を検索し、その後、「Atlanta weather forecast」を検索した結果とは異なる結果を得るためだ。特許には、この仕組みを採用する理由が一つ挙げられている:

しかし、検索クエリに新たな検索用語を加えても、検索エンジンが、追加した検索用語に同等、もしくは、より大きな重みを加えている場合、ユーザー体験の強化にはつながらないと考えられる。

この特許は、検索エンジニアが、後続クエリに対して、低い価値を与える仕組みに関して、詳細な情報を提供しているものの、上述の根拠に対しては、補足されていない。

教訓

個人的には、同じワードを幾つか利用している可能性がある、2つの異なるクエリに対する検索エッションにおいて、同じページが検索セッション内に登場した際に、ページのスニペットを変更する仕組みを説明した特許のアプローチを気に入っている。

どちらのアプローチが、現在、Googleに採用されているのかを見極める術はない。LinkedInによると、Ashutosh Gargは、2008年にGoogleを去っている。Kedar DhamdhereがGoogleを退職したかどうかは分からないが、スニペットの変更に関する特許が米国特許商標局に正式に申請されたのは、2011年であり、アップデートされた特許に携わったのは、いずれか一名であった可能性がある — もしくは完全に別人によって作成されたと見ることも出来る。

いずれにせよ、検索セッションの情報は、Googleの複数の場所で利用されている確率が高いと言えるだろう。これは、長く、複雑で、ハミングバードアップデートで見られる音声のクエリを書き直すような技術であり、また、ナレッジパネルの結果が、記述されたエンティティに関する追加の情報を提供する際にも用いられていると考えられる — 例えば、エイブラハム・リンカーンの身長が、ナレッジパネルに含まれるものの、その他の大統領には身長がリストアップされていないケースを考えてみてもらいたい。

リンカーンを含むクエリと検索セッションの中で、リンカーン大統領の身長を尋ねるユーザーが大勢いる可能性が高い。

この新しい特許において、最も興味深いと感じたのは、特定の問題を解決するアルゴリズムが、時間の経過とともに進化し、変化していく経緯が示されている点である。Googleは、検索セッション中の同じようなクエリに対して、以前の当該のセッションのクエリに応じて、異なるアプローチを試していることは明白である。

指摘した2人の考案者が、この2点の特許に関わり、また、同じように思える問題に対して、異なるソリューションを試しているように見えるためだ。

Googleのハミングバードは、検索セッションで同一のユーザーの過去のクエリに頼るのではなく、代わりに、過去の検索クエリのセッション、そして、最初のクエリを書き直すために、ユーザーが見ていた対象の情報を利用する — つまり、もともとの検索で見たかった可能性のある検索結果を与える — 進化の一環である。


この記事は、SEO by the Seaに掲載された「Evolving Google Search Algorithms」を翻訳した内容です。

ユーザーの利用状況で検索結果の関連性や重要性が判断され、提供される情報が変わってくるのは、流石Googleという感じです。しかしこの調子でGoogleの進化が続けば、というか今でもですが、検索に置いて余りに圧倒的な存在になりどこも太刀打ちできない存在になりそうですね。単純にPCに座ってウェブ検索する時代はとっくの昔に過ぎ去っていますし、モバイルデバイスの普及で様々な場所、シーンで検索やレコメンデーションがされるようになってきた今日のGoogle。ただただスゴイと思うと同時にその圧倒的な存在感に若干の怖さも感じる私でした。 — SEO Japan [G+]

Googleのパンダの生みの親に付与された特許

SEO by the Seaの記事紹介が久々になってしまいました。Googleのパンダアップデートが動物のパンダではなく、実はGoogleで働くパンダ氏という名前のエンジニアが考えたアイデアがベースになっているという話は知られていますが、そのパンダ氏が最近取得したというパンダアップデートに関係してる感がある特許の説明を。 — SEO Japan

これまでGoogleが実施したアップデートの中で、特に影響力の強かったアップデートを考えると、パンダアップデートの名前がすぐに挙げられる。パンダアップデートは、2011年2月にリリースされ、検索結果の「12%」に影響を与えていた。Wiredのインタビュー(TED 2011: ファームを憎む「パンダ」: Googleの主席検索エンジニアにQ&A)の中で、Googleのアミット・シンガル氏とマット・カッツ氏は、このアップデートの名称が、アップデートの開発で重要な役割を担ったエンジニアに由来していると答えていた:

Wired.com: このアップデートのコードネームを教えてくれませんか?Search Engine Landのダニー・サリバン氏は、コンテンツファームを明らかにターゲットにしているため「ファーマー」アップデートと呼んでいました。

アミット・シンガル: 社内では、パンダと言う名のエンジニアにちなんで、このアップデートを名付けました。そのため、Googleではビッグパンダと呼んでいます。パンダは重要なスタッフの一人でした。このアップデートを可能にした画期的なアイデアを考案したのが、このエンジニアだったのです。

Googleには、パンダと言う名字を持つエンジニアが数人いる。そして、そのパンダと言う名のエンジニアが綴った作品を調べていくと、興味深い情報が導き出された。しかし、パンダアップデート自体との関連性は見出されなかった。以前、Googleのエンジニア、ナブネート・パンダ氏は、Google Plusのプロフィールページで、以下のメッセージを表示していた:

Navneet Panda includes the Panda Update in his "bragging rights."

Navneet Panda includes the Panda Update in his “bragging rights.”*

自慢する権利: 父親。質の低いコンテンツにペナルティを与えるGoogle パンダアップデートを作成した。

ご覧のようにナブネート・パンダは、パンダアップデートを「自慢する権利」の一つに認定している。

私はパンダ氏が関わるGoogleの特許をチェックしてきたが、その特許が本日Googleに付与された。

検索結果のランク付け
発明: ナブネート・パンダ、ウラディミール・オフィトセロヴ
付与先: Google
米国特許番号: 8,682,892
付与日: 2014年3月25日
申請日: 2012年9月28日

概要

検索結果のランク付けを行うためのメソッド、システム、そして、機器。コンピュータの記録媒体にエンコードされたコンピュータプログラムも含まれる。そのうちのメソッドを挙げていく:

  • 多数のリソースの各グループに対して、グループ内のリソースへの個別の着リンクの本数をそれぞれ特定する。
  • 多数のリソースの各グループに対して、言及するクエリの総数をそれぞれ特定する。
  • 多数のリソースの各グループに対して、それぞれのグループ固有の変更の要因を特定する。ここでは、グループ固有の変更の要因は、当該のグループへの個別のリンクの本数、そして、参照クエリの総数に応じて決まる。
  • 多数のリソースの各グループに対して、グループ固有の変更の要因を関連させる。当該のグループに対するグループ固有の変更の要因は、受け取った検索クエリに応じて、グループ内のリソースに生成された当初のスコアを変更する。

この特許で記述されているプロセスを掘り下げて説明し、その仕組みを理解するには、ある程度時間がかかるが、後ほど取り掛かるつもりだ。この特許の請求範囲と説明のセクションにざっと目を通すと、幾つか興味深い事実が浮かび上がってくる。これは、ナブネート・パンダ氏が初めて申請し、付与を受けた特許ではあるが、現在、特許庁によって審査を受けている他の特許が存在する可能性もある。

この特許は、ページに向けられたリンクの本数、ページを参照するクエリ、そして、クエリに対するナビゲーショナルなクエリとしてページにマッチする度合いを基にページを分類することで、ページのランク付けを行う手法を説明しているのだろう。

*ナブネート・パンダ氏は、この記事が投稿された後、Google Plusのプロフィールから、自分こそが「Google パンダアップデートの父であり、作者である」ことを主張するセクションを削除している。


この記事は、SEO by the Seaに掲載された「Google’s Panda Granted a Patent on Ranking Search Results」を翻訳した内容です。

詳細な説明はまた別の機会に、ということですが、最後のプロフィール削除の件が妙に怪しいですね。。。また続報します。 — SEO Japan [G+]

Googleがリンクのコンテキストを介してスパムを特定する方法

人口リンクを活用したSEO、Googleにとっては全て「スパム」の一環と見なされ、実際その多くがペナルティや順位下落を受けるようになってきた最近。その中でも様々なリンクスキームを考案して果敢にチャレンジを続ける人もまだまだ多くいるわけですが、、、今回はマニアック度に関してはトップレベルを誇るSEO by the SeaからGoogleがリンクスパムを特定する手法に関しての特許技術を紹介。人口リンクを見破られないためのヒントが隠されているかも、、、って悪用はあくまで自己責任でお願いします。 — SEO Japan

グーグルは、ペンギンアップデートを介して、リンクスパムを、ページに向かうリンクとアンカーテキストを操作する試みと見なし、今までよりも遥かに警戒しているように思える。ペンギンアップデートが導入されたのは、2012年4月24日であった。その際、併せて、公式のグーグルウェブマスターセントラルのブログでは、「良質なサイトをより高く評価するために」が投稿されていた。

この記事は、グーグルのウェブマスターガイドラインを違反するサイトのウェブランキングを下げるために、グーグルが着手している取り組みを紹介している。この記事を作成したのは、グーグルのウェブスパムチームを統括するマット・カッツ氏であった。同氏は記事の中で次のように説明している:

変更の詳細を明かすことは、抜け道をくぐり抜けたサイトが検索結果にあふれ検索ユーザーの利便性を損なう可能性があるためできませんが、ウェブマスターのみなさんにお伝えしたいことは、ユーザーにとって利便性の高い 良質なサイトを作ること(英語)に専念し、ウェブスパムを駆使することなく “ホワイトハット” SEO を心がけてください、ということです。

この記事は、キーワードスタッフィング、「不自然なリンクのパターン」、そして、コンテンツのスピン等、ペンギンがターゲットにする類のウェブスパムを挙げている。先月、私はグーグル、意味不明のフレーズを採点し、ページのランキングを格下げする」の中で、グーグルがコンテンツのスピニング(同意語を用いた書き換え)を特定すると思われる方法を描写した特許を取り上げた。

2004年、グーグルは、検索エンジンが、リンクの前後のワード等、リンクのコンテキストに留意し、リンクのコンテキストを正確に理解することが出来る仕組みを記した特許を申請している。ウェブマスターセントラルのブログの記事で挙げられていた例では、リンクのコンテキストが意味を成さない手口で、リンクが作られる経緯が、例として挙げられた記事の中で明確に示されている:

Examples of link spam from the Google Blog

リンクを介して人為的に文書のランクを水増しする

この特許は、「人為的に文書のランクを水増しして、検索結果の質を下げる」手法を幾つか挙げている:

リンクベースのスパム行為 – この取り組みは、ページのランクを上げるために、大量のリンクを獲得する行為を伴う。グーグルは、リンクファームの例を挙げ、「一部のスパマーは、上位に格付けされている文書の持ち主に料金を支払い、文書内でリンクを張ってもらうことで、自分の文書のランキングを高くしている」と説明している。

アンカーテキストのスパム – 多数のページから、同じアンカーテキストを使って、特定のページに向かうリンクを手に入れ、当該のテキストに対する検索結果のランキングを高くする行為を指す。

グーグル爆弾 – アンカーテキストのスパムにとてもよく似ている。このアプローチは、商業的な利益を得るためではなく、冗談目的、もしくは政治的なメッセージを伝えるために検索結果を破壊することを念頭に置いている。

オンサイトのフレーム化 – 多くのサイトが、「製品」リンク、「募集職種」リンク、「投資家向け」リンク等を使って、サイト上のページを「フレーム」で囲んで、リンクに関連するページのラキングを「人為的に水増し」する試みを行っている。

このような手法に対抗するため、ページ上のリンクの「コンテキスト」に注目し、ページのランキングを下げる、または、上げる手法がこの特許では描かれている。

それでは当該の特許の情報を提供する:

参照のコンテキストに応じたランク付け

発明: アンナ・パターソン、ポール・ハー

付与先: グーグル

米国特許番号: 8,577,893

付与日: 2013年11月5日

申請日: 2004年3月15日

概要

文書に関連するコンテキストに応じて、文書をランク付けするシステム。本システムは、1つ目の文書内の参照情報を特定する。この参照情報は、2つ目の文書に関連する。本システムは、参照情報に関連する1つ目の文書の一部を分析し、この部分からレアなワードを特定し、レアなワードを基にコンテキストの識別子を作成し、その後、このコンテキストの識別子に応じて、2つ目の文書のランク付けを実施する。

この特許の発明者欄には、アンナ・パターソン氏が名を連ねている。パターソン氏は、グーグルのフレーズベースのインデックスに関する特許にも参加している。

リンクのコンテキストに基づくランク付けの仕組み

An example from the patent of window around a link where Google might look to find context identifiers for a link.

検索エンジンがページをクロールする際、ページ上のリンクを特定し、例えば、リンクの前の5つのワード、リンクの後の5つのワード等、リンクを囲むウィンドウのテキストを抽出する可能性がある。上の画像では、アンカーテキスト「SATURN」が用いられたリンクが用いられている。このアンカーテキストの左側には「BEAUTIFUL OF ALL THE PLANETS」、そして、右側には「IS SURROUNDED BY AN ELEGANT」が記されている。

次に、グーグルは、逆文献頻度(IDF)による重みづけの手法や従来の言語学的なモデリングによる手法等のプロセスを使って、既にウェブでインデックスした全ての文書と比較して、 リンクに関連するテキストのそれぞれの部分から「最もレア」だと思われるワードを抽出する。

この場合、左側のウィンドウで最もレアなワードは「PLANET」、右側のウィンドウでは「ELEGANT」が該当する。この特許は、ウィンドウで用いられるワードの数は、5ワード前後であり、また、リンクが掲載されているページの他のコンテンツが用いられる可能性があると指摘している。

また、このプロセスでは、「実在」するワードのみが用いられるようだ。「実在」の判断は、当該のワードが記載されているウェブ上の文書の数で決められる — 例えば、異なる50点の文書に用いられていなければ、実在するとは見なされない。これは、記号や数字を含むテキストの塊が利用されるのを防ぐ効果がある。

同じページにリンクを張る文書が多いケースが考えられるため、このコンテキストのアプローチでは、大量のページからコンテキストの情報をすべて抽出することも考えられる。リンクの近くのワードを含む文書の数が多い場合、コンテキストの情報に文書の数が含まれる。SATURN「土星」は惑星「PLANET」であることを考えると、このページに向かうリンクのアンカーテキスト「SATURN」の傍に「PLANET」が掲載されたリンクが、大量に存在する可能性がある。また、SATURNは、「ELEGANT PLANET」(エレガントな惑星)と評されることが多く、アンカーテキスト「SATURN」を用いる「SATURN」に関するページに向かうリンクの近くに「ELEGANT」が用いられている可能性も高い。

リンクの近くのレアなワードに対する、この「コンテキスト」スコア(この特許では、「コンテキストの識別子」と呼ばれている)は、各リンクに対するスコアを生成するために用いられ、各文書のランキングスコアを判定する。このスコアをつける上で用いられると思われるその他の要素を挙げていく:

  • 文書に向かうリンクの本数
  • 文書にリンクを向けている文書の重要度
  • 文書にリンクを向けている文書の新鮮さ
  • その他の既知のランキングの要素

グーグルウェブマスターセントラルの記事(英語版)で、不自然なリンクのパターンとして挙げられている例を見ると、この例のリンクの周りのワードが、定期的にこのリンクの近くに現れるワードではないことが分かる。

同じコンテキストの識別子が少ないなら、あるいは、疑わしいほど多く存在するなら、リンクが向けられているページに送られるべきランキングの価値は、スルーされることもあり得る。この特許は、この要素をページランクのシグナルとも、ハイパーテキストの関連性のシグナルとも呼んでいないものの、どちらにも属する可能性がある。

このコンテキストの識別子のカウントは、時間の経過と共に計測され、リンクに対して急激にカウントが増えると、特定される仕組みが採用されると見られる。短期間で、同じコンテキストの識別子を含むリンクを複数獲得したページは、疑わしいページと考慮され、リンクを張るページのランキングにおいてカウントされないこともあり得る。反対に、各種の妥当なコンテキストの識別子を持つページは、検索結果において、押し上げられる可能性がある。

教訓

この特許が認められたのは最近だが、申請が行われたのは10年近く前である。グーグルが、この特許で描写されているプロセスを利用したことがあるかどうか、利用したものの、別のアプローチに変えたかどうか、あるいは、今でも利用しているかどうかは不明である。

リンクスパム、アンカーテキストのスパム、グーグル爆弾、フレーム化等、このアプローチが解決を試みる問題は、グーグルが今でも対応に苦戦している問題である。しかし、ペンギンアップデート、そして、ウェブマスターツールでの手動のペナルティの通知等の対策によって、グーグルは積極的に問題の解決に乗り出している。グーグルは、このコンテキストの識別子によるアプローチを、不自然なリンクを特定するために用いているのだろうか?上の例のペンギンのウェブスパムにおいては、有効に働きそうだ。

今後は、リンクの周りのワードにも注意を払うべきなのかもしれない。


この記事は、SEO by the Seaに掲載された「How Google Might Use the Context of Links to Identify Link Spam」を翻訳した内容です。

10年前に申請が行われていた特許だけに、スパム認識技術としてはかなり古めの部類に入るとは思いますし、今ではこの数段上の技術を数多く投入しているとは思いますが、多少の参考にはなったかもしれません。普通に真っ当なSEOのみを行っていれば、この内容を参考にする必要はないわけですが、、、Googleを理解するという意味でも気になる記事ではありました。 — SEO Japan [G+]

Googleハミングバードと思われる特許を分析

Googleのハミングバードアップデートに関する記事を多数紹介してきたSEO Japanですが、今回はGoogleがハミングバードに関連していると思われる特許を取得していた、ということで、その内容をSEO by the Seaよりご紹介。ハミングバードに関する理解がより深まる?かもしれない記事です。 — SEO Japan

グーグルが15回目の誕生日を祝う中、ハミングバートと呼ばれる新しいアルゴリズムが導入された。ただし、グーグルは、ページランクを含む、その他のランキングシグナルを全て置き換えたわけではないようだ。新しいアルゴリズムの告知では、グーグルが数週間前から既にハミングバードの利用を始め、検索の90%に影響が及ぶ可能性があることが伝えられた。

A screenshot from the patent showing different elements and databases in use to better understand queries.

ハミングバードは、検索ボックスに入力するような短いキーワードのマッチングの代わりに、音声入力で用いる、長い自然の言語のクエリの理解に秀でた、クエリの拡大または拡張のアプローチとして、描かれている。

例えば、[What is the best place to find and eat Chicago deep dish style pizza?](シカゴのディープディッシュスタイルピザを探して、食事する場所はどこが一番いい?)等のクエリは、ハミングバードに最も適していると言える。このタイプのクエリでは、グーグルは、類義語を使って、クエリ内のその他のスキップ不可なワードを分析する取り組みと組み合わせて、クエリのルールを置き換え、クエリの用語のコンテクスト、そして、当該のクエリに取って代わるクエリを理解し、検索された用語を再編成(または交換)することで、より質の高い結果を提供することが出来る。

グーグルは、[What is the best place to find and eat Chicago deep dish style pizza?]を確認し、このクエリの結果を求めているユーザーは、「place」(場所)の代わりに「restaurant」(レストラン)を利用すると、より満足する可能性が高いと理解する。 

「place」の代わりに「restaurant」を利用する判断は、検索結果に共起、つまり、共に現れる用語(当該の用語の検索が行われた場合)、あるいは、クエリのセッションで共起する用語に焦点を絞る、交換ルールに基づき、類義語または代わりのワードとして考慮されると見られる。

あるクエリと別のクエリの関係等、異なる検索のエンティティの分析により、一連の検索結果の中からあるページを選び、そのページに滞在した時間等の基準に応じて、検索結果に対するユーザーの満足度が改善されていると特定されるようだ。

Different elements and aspects of expanding queries are illustrated in the screenshot from the patent.

今週、グーグルは、最近seobythesea.comに投稿した記事(上にリンクを掲載)で取り上げた3点の特許をベースとした特許を公開した。私がこの記事の中で取り上げていた特許は、本日発表されたハミングバードアルゴリズムにとてもよく似ていた:

共起する用語を基に類義語を特定
発明: Abhijit A. Mahabal、Takahiro Nakajima、Zachary A. Garrett、Kenji Inoue
付与先: Google
米国特許番号: 8,538,984
付与日: 2013年9月17日
申請日: 2012年4月3日

概要

以下の目的のために、コンピュータの保存メディアにエンコードされたコンピュータプログラムを含む、メソッド、システム、そして、装置:

  • もともとの検索クエリの具体的なクエリ用語を特定する
  • もともの検索クエリの中では具体的なクエリとは接していない、他の非隣接クエリとの関係における、具体的なクエリの類義語の候補を特定する
  • 具体的なクエリと類義語の候補を含む用語のペアに対して、その他の非隣接クエリの用語のそれぞれの信頼値を識別する、保存されたデータにアクセスする
  • 保存されたデータにおいて、その他の非隣接クエリの用語が、基準を満たしているかどうかに応じて、信頼値を特定する
  • 他の非隣接クエリの用語が基準を満たした信頼値の特定を基に、もともとの検索クエリを変更して、具体的なクエリの類義語の候補を盛り込む判断を下す

この特許は、共起の計測は、候補の用語/類義語のペアを、当該の用語が共に現れる頻度、関連するユーザーのクエリ(クエリのセッション内の続きのクエリ等)に対して現れる頻度、または、関連するクエリの結果で共に現れる傾向の頻度を基に評価するために用いられると説明している。

グーグルは、類義語のデータベースから複数の類義語を検討し、クエリ全体のコンテクストにどれだけフィットするかを確認する。例えば、用語「car」と「auto」は、とりわけ、 [car mechanic]や[auto mechanic]等のクエリで用いられている場合、類義語と考えられることが多いものの、[railroad car]や[railroad auto]等のクエリのコンテクストでは、類義語扱いされない。

[railroad car]を検索した人物が、この用語の結果に加えて、あるいは代わりに[railroad auto]の結果を望んでいる確率は低い。先程リンクを張った「交換ルール」に関する記事の中でも指摘しているように、類義語にも同様のルールが策定され、ともに類義語または代わりのワードのデータベースを作るために用いられる可能性がある。このデータベースには、共起のデータ等を基にした、用語が類義語または代わりのワードに値するかどうかにおける自信のレベル、そして、同じクエリ内のその他の用語に関わるルールを基に、類義語または代わりのワードかどうかにおける自信のレベルに関するデータが含まれると考えられる。

This image from the patent shows how two different candidate synonyms might be compared to other terms within a query to choose the best synonym to expand the original query with.

2005年にグーグルが申請した特許には、同様の領域が多く取り上げられており、また、関連する特許として、特許の審査官によって言及されている — クエリのコンテクスト内でクエリの用語の類義語を特定。この特許に関しては、グーグルに付与された後、 「グーグルがクエリ内のワードの類義語を使って検索を拡大する仕組み」で説明している。このタイプのクエリの拡大における概念は、長年、グーグルで検討されてきた。

ハミングバードとの関係

キーワードを検索ボックスに入力する行為自体は、問題視されていないものの、音声でクエリを入力する際、ユーザーはキーワードのマッチングを諦めているように思える。検索ボックスには[chicago style pizza restaurant]のようなクエリが入力されるものの、携帯電話での音声検索においては[What is the best place to find and eat Chicago deep dish style pizza?]等のクエリが用いられる傾向が強い。

この特許では、前後関係を考慮してクエリが用いられ、当該のクエリ内の別のワードを類義語や代わりのワードで置き換えることが可能な他のワードを正確に理解する仕組みの例が豊富に紹介されている。

ハミングバードのアルゴリズムは、この特許の説明とは若干異なる仕組みで動く可能性はあるものの、共通点は多数見受けられる。これは、ハミングバードの特許なのだろうか?皆さんの意見を聞かせてもらいたい。


この記事は、SEO by the Seaに掲載された「The Google Hummingbird Patent?」を翻訳した内容です。

特許取得者に日本人らしき名前の人が記載されていたのが(日系人かもですが)気になる私でした。ハミングバードのアルゴリズムに直接使われている保証はありませんが、Googleが進化する過程で必要な考え方であり、技術なのでしょうね。記事の最後にも書かれていましたが、今後Googleがその舞台をPCからモバイル、そしてGoogleグラス等のハンドフリーデバイスに拡げ、音声入力がキーワード入力以上に当たり前になってくる時代がいつか来るのでしょうし、ハミングバード、そしてそれを支える様々なGoogleの技術や特許が新時代のGoogle検索の根幹を担っていくのでしょう。 — SEO Japan [G+]

GoogleはWavii買収でウェブ検索の未来を買ったのか?

Googleリーダーの終了も残り一か月、乗り換え先の検討&決定はできているでしょうか?とりあえずFeedlyが無難なようですが、その一方で次世代ニュースリーダー争いもまた活発になるということで、Google・Yahoo!共に新種のニュースエンジンを最近買収しています。今回は特にGoogleが買収したWaviiを元にGoogle検索の未来について考えてみた記事をSEO by the Seaから。 — SEO Japan

グーグルは、4月に3000万ドルと少しを投入し、Waviiと言う会社を買収した。当時、ウェブのニュースをまとめるSummlyを買収したヤフー!に対抗して、グーグルはWaviiを買収したと言う噂が出回っていた。

Part of the announcement on the wavii domain about the acquisition by Google.

Waviiもまた、ウェブ上でニュースを取得 & まとめるアプリである。事実、Waviiがデビューした際、キーワードよりもトピックに的を絞った、パーソナライズされたニュースアグリゲータとして注目を浴びていた。しかし、先程紹介したテッククランチの記事を読む限り、このアプリは、グーグルに買収されたことを受けてサービスを閉鎖しており、ニュースアグリゲーションサービスを提供するのではなく、グーグルニュース、ナレッジベース、そして、グーグルグラスの原動力として陰で支えているようだ。

それでは、Waviiは、どのようなテクノロジーを利用しているのだろうか?

オーレン・エチオーニ氏が2011年にNatureに寄稿した記事で、グーグル、ビング、ウルフハラムアルファ、そして、検索の未来の限界(pdf)を指摘した際、Waviiが単なるアグリゲータではないと示唆していた。検索の未来とは何を意味しているのだろうか?次の動画で概要の説明が行われている:

動画内のグーグルとグーグルのナレッジベースの比較、そして、次の発言には刺激を受けた:

次世代の検索エンジンを作ることが目標だ。

グーグルが買収した際にWaviiが保有していた特許を調べた結果、ウェブからの公開情報の抽出(pdf)がWaviiに付与されていたことが分かった。

この特許、そして、申請中の補足の特許を以下に挙げる:

ウェブからの公開情報の抽出(付与された特許)
ウェブからの公開情報の抽出(続きの特許。新たに項目が加えられている)

発明: マイケル J. カファレラ、マイケル・バンコ、オーレン・エチオーニ
付与先: ワシントン大学 センター・フォー・コマーシャリゼーション
米国特許番号: 7,877,343
付与日: 2011年1月25日

概要

公開情報抽出を実装するため、新たな抽出のパラダイムを策定した。このシステムでは、単一のデータドリブンのパスをコーパスの上に作り、人間によるインプットを必要とせずに、大量の関連する一連のタプルを抽出する。訓練データを使って、セルフスーパーバイズド・ラーナーは、パーサーと経験則を用いて、基準を判断する。この基準は、コーパスから抽出された候補のタプルの信頼性を評価するため、抽出識別子(あるいはその他のランキングモデル)によって用いられる。この時、経験則がコーパスに対して適用される。

識別子は、信頼できる可能性が十分に高いタプルを維持する。また、冗長ベースの評価システムが、維持するタプルに対して、当該のタプルが、タプルを構成する複数のオブジェクトの間の関係である可能性を示唆する確率を割り当てる。維持されたプルは、情報に対して問い合せを行うことが可能な抽出グラフを形成する。

ここでは、特許を詳しく分析するのではなく、この公開情報抽出システムの仕組みを深く理解することが可能なリソースを幾つか提供する。

一つ目のリソースは動画である:

ウェブスケールでの公開情報抽出
(長い動画だが、視聴する価値はある)

以下の文書およびページにも詳細な情報が掲載されている:

  • 公開情報抽出
  • 公開情報抽出: 第二世代(PDF)著: オーレン・エチオーニ、アンソニー・フェーサー、ジャラナ・クリステンセン、スティーブン・ソダーランド、マウサム・オリー
  • 公開情報抽出ソフトウェア
  • 情報抽出に対する公開情報学習(PDF)著: マウサム・オリー、マイケル・シュミッツ、ロバート・バート、スティーブン・ソダーランド、オーレン・エチオーニ

教訓

Waviiは、グーグルが買収する前に提供していたニュースアグリゲータアプリをグーグルにもたらすわけではない。グーグルの検索エンジンに導入される公開情報抽出のアプローチは、ウェブ上のテキストを読むことを目的としており、所定のテンプレートや管理を必要としない。

抽出のアプローチは、名詞、そして、名詞と名詞の関係を作り出す動詞を用いて、名詞の関係を特定し、関係の質を評価する。そして、「識別子」がそれぞれの関係の信頼性を識別し、信頼できる関係のみを維持する。

関係内の用語(“タプル”と考えられる)は、逆索引に保存され、クエリに対して用いられる。以下に、ウェブのクロール中に特定された、このインデックスの一部となる可能性がある関係の例を挙げていく:

( , acquired, ) ( , graduated from, ) ( , is author of, ) ( , is based in, ) ( , studied, ) (

, studied at, ) ( , was developed by, ) ( , was formed in, ) ( , was founded by, ) ( , worked with, )

この限られた量のデータを用いた公開情報抽出の一例が、Revminerであり、シアトルのレストランに関する情報を検索するために用いることが出来る。

A snapshot of the search on the revminer site, with a search for margaritas.

Waviiと共にグーグルが買収したシステムが、コンテキストに基づき推測されるクエリを用いて、グーグルのナレッジベースとグーグルナウを改善するポテンシャルは高い。公開情報抽出は、未完成だが、未来の検索において重要な役割を果たす可能性があるのではないだろうか。


この記事は、SEO by the Seaに掲載された「With Wavii, Did Google Acquire the Future of Web Search?」を翻訳した内容です。

内容は分かるような分からないような感じでしたが 汗、ともかくアプリではなく特許まで持っていた独自の検索技術を買った、ということは理解できました。それに30億円の価値があるかどうかは正直よく分かりませんが。。。こうした買収の積み重ねでGoogle検索が進化していくのであればユーザーにとってはまた喜ばしいことなのでしょう。 — SEO Japan [G+]

Googleがウェブサイトを品質評価でランク付けする仕組み

今週は出張中につき記事少な目になっています。さて久々の記事は、Googleがウェブサイトを評価する際、どのような品質基準を元に行っているのか、というトリックに頼らないSEOを中長期的に実践していくには知っておきたい知識をSEO by the SeaがまとめてくれたSEO担当者なら見逃せない記事を。 — SEO Japan

今週、グーグルに新たに特許が付与された。この特許は、ウェブサイトの一連のサンプルに対する人間による評価、そして、当該のサイトからのウェブサイトのシグナルを基に、ウェブサイトに対して、品質の評価が与えられる仕組みを描写している。

当該の特許は、このアプローチには次のようなメリットが存在すると指摘している:

  • 検索エンジンに対する満足度を高める
  • 質の評価が一定の基準よりも高いサイトを返す
  • 品質を基に検索結果に表示されるサイトのランク付けを行う
  • ユーザーが先にサイトを閲覧することなく、質の高いサイトを特定することが出来る

この特許の申請は2008年に行われた。質のシグナルの利用に関しては、パンダアップデートにおいてグーグルが実施した取り組みに類似する。ウェブスパムのペナルティと言うよりも、検索の品質の“改善”を意識したアップデートであった。

この特許は、請求および記述のセクションで、適応されるサイトのタイプとしてブログを挙げている。ブログ検索のランキングシグナルについての討論が行われたSMX セッションを参考にすると、発明者の一人、クリストファー C. ペノック氏は、グーグルブログ検索のシニアソフトウェアエンジニアであったようだ。

このアプローチでは、サイトのページ(全てのページ)の質を人間のユーザーの評価者に評価させ、1-5のスコアを与え(5が最高)、そして、サイト全体のスコアを集める手法が採用されている。そして、この評価は、次のようなウェブサイトの要素によって加算される:

  • サイトの主張や情報のオリジナリティ
  • オリジナルのコンテンツとコピーしたコンテンツの量
  • ウェブページ上のグラマーおよびスペリングの精度
  • 不愉快なコンテンツや不適切なコンテンツが提示されているか
  • ウェブサイトに空白、または、不完全なページが存在するか
  • サイトの品質に影響を与えるその他の要素

上述したシグナルは、2011年5月に投稿されたグーグルのウェブマスターセントラルブログの記事、「良質なサイトを作るためのアドバイス」で挙げられていたシグナルによく似ている。この記事は、「グーグルが質の高いサイトを探し仕組み」を – グーグルのスタッフが“サイトの品質を評価するアルゴリズムを作成する”際に問いかけるであろう23の疑問を提示することで説明している。

この特許は、グーグルのパンダアップデートのからくりを解説しているわけではないが、コンセプト自体は似ている。グーグルはブログの記事で次のように指摘している:

もちろん、Google が実際にアルゴリズムで使用しているランキング シグナルは公開できません。検索結果が操作されるような事態を防ぐためです。代わりに以下の項目をご覧頂くことで、Google がこの件をどうとらえているのか、ご理解頂けるのではないかと思います。

この特許(そして、その他の数多くの特許)において、グーグルの視点で、質の高いサイトを検索結果に表示する問題を見てもらう上で、これが最高のアプローチだと言えるだろう。それでは当該の特許を紹介する:

ウェブサイトの品質シグナルの生成
発明: クリストファー C. ペノック、ジェレミー・ハイルトン、コリーナ・コルテス
付与先: グーグル
米国特許番号: 8,442,984
付与日: 2013年5月14日
申請日: 2008年3月31日

概要

ウェブサイトの品質の評価を明らかにするシステムとメソッド。ウェブサイトの評価が行われ、評価およびウェブサイトのシグナルの関係が特定され、モデルが作られ、モデルを未評価のウェブサイトのウェブサイトのシグナルに適応することで、モデル化された評価が未評価のウェブサイトに割り当てられる。

その他の人間の評価者によるアクション

人間の評価者は、ページを確認する際、1-5のスコアを与える以外のアクションも行う。

サイト上のURLが、スパムやポルノ等の好ましくないコンテンツを提示する、あるいは、ページが読み込まれない場合、サイトをスキップするアクションもその一つである。このようなサイトは「無効」と評価される。評価者により「無効」と分類されると、一部のサイトが評価プロセスから除外される可能性がある。個人的に好ましくないページをネガティブにランク付けする、評価者のバイアスが存在するためだ。

また、評価者はウェブサイトに対するビューイングアピールを選択する。

ブロードアピール – 国内または国際のニュースの出来事に関連するウェブサイト等、幅広い層のオーディエンスをターゲットにするサイト。

ニッチアピール – 電磁力をテーマとしたサイト等、限られた範囲のオーディエンスにアピールするサイト。

ビューイングアピールは、検索のリクエストに対して提示するサイトのランク付け、または、除外の要素として用いられる可能性がある(この特許は、“ビューイングアピール”がポジティブまたはネガティブなランキングシグナルかどうかは明言していない)。

品質スコアをブログに適用する

この特許の請求項には、対象となるサイトのタイプとしてブログを挙げているが、複数の項目を除けば、あらゆるタイプのウェブサイトに適用される。

品質のシグナルがブログ以外のサイトに提供される仕組みを説明する、よく似た特許がグーグルによって申請されている可能性はある。

グーグルは、クリック率、ブログの購読率、そして、ページランクのスコアをブログに関連づけられるウェブサイトのシグナルとして具体的に挙げている。

クリック率 - ここでは2つのクリック率が用いられる – サイトのURLが、一般的なSERPに表示された際にクリックされた頻度、もう一つは、サイトのURLがブログ検索でクリックされた回数である。この点について、特許は次のように説明している:

クリック率は、ブログの人気指数であり、品質指数となるポテンシャルを持つ。

クリック数そのものではなく、クリック率は、検索結果に表示された回数に対して、ページが獲得したクリックの回数の比率と規定されている可能性がある。 この比率は、ページの結果内のポジションに応じて変動すると見られる。結果ページの上位は、下位よりもクリックされる回数が多いためだ。

ブログの購読率 – 面白いことに、グーグルリーダーが、情報源の一つとして挙げられている。ただし、その他のソースからもこのような情報を得る可能性があると指摘している。この情報の重要性については、次のように説明している:

ブログの購読率は、読者数の基準であり、ブログの品質を示す。読者数が多ければ多いほど、ブログの質が高いと言える。

ページランクのスコア – ブログに対してページンランクのスコアが用いられる可能性があり、これはウェブ上のその他のタイプのページをランク付けする際の品質の評価とほぼ同じ役割を持つと思われる。

教訓

この特許は、人間の評価およびウェブサイトのシグナルが、検索結果でページをランク付けする際の判断材料となる、品質の評価に対するモデルを作るために利用される可能性があると指摘している。この際、機械学習アプローチを用いて、実際に評価されたページのサンプルを基にページに対する評価の作成が行われるようだ。

また、ページが再び評価される、または、再び分類される点を指摘していたセクションは、特に興味深いと私は感じた。

定期的にページの再評価が行われるようだ。パンダアップデートにおいて、実際にこの取り組みが行われているように思える。

さらに、ページやサイトの再評価が、ウェブサイトのシグナルの所定の変更によって行われると言う、別のアプローチにはさらに興味をそそられた:

例えば、ウェブサイトに与えられたページランクのスコアが、所定の率(10%等)と差がある場合、ウェブサイトのシグナルとウェブサイトの品質の評価の関係を示すモデルをアップデートすると推測される。

パンダアップデートでは、グーグルは、データが“更新”される際に、警告を送っていた。これは、影響を受けたサイトは、定期的なアップデートによって再び分類の対象になることを意味していた。また、3月には、グーグルは、パンダップデートが継続的に行われると明言していた。

パンダは、この特許で描かれている、ページに対する品質の評価を特定するためのプロセスと同じようなプロセスで動いているのだろうか?グーグルは、ページランクのような品質シグナルにおける特定の改善のレベルによってパンダを発動し、サイトに対してアップデートを行う可能性はあるのだろうか?

この推測が正しいと仮定すると、パンダ等のアップデートによりネガティブな影響を受けたサイトは、品質の評価の改善を目指して再び評価を行ってもらうには、ページランク等の品質のシグナルが、特定の基準を超えるようにサイトを改善しなければいけないことになる。 


この記事は、SEO by the Seaに掲載された「How Google May Rank Web Sites Based on Quality Ratings」を翻訳した内容です。

前半の品質という点については、特許申請自体は2008年ですし、今日のSEOにおいては(昔から?)ある種理解すべき当然のルールと認識されているような内容ですが、こうやって特許として書かれると改めて重要度を認識しますね。後半はその品質チェックのプロセスについて説明されていましたが、記事にもあるようにパンダアップデートのような定期的に更新が行われるアルゴリズムをサイト評価に的確に適用していこうというGoogleの意識が感じられる内容でした。しかし品質シグナルをある程度改善しなければ発動されないということは、何かしらのペナルティを受けた場合は「ある程度」改善しないと適応されないということでもあるのでしょうか。。。「ある程度」の基準がまた難しいわけですが。

グーグルリーダーと関連したような技術も出てきましたが、当初の目論みは結局フル活用しないまま、グーグルリーダーは終わりを迎えるようですね。。。とはいえ、グーグル+等で同種のデータは取っていけると思いますが。常に進化し続けるGoogle、サイトも負けずに進化していきたいものです。 — SEO Japan [G+]

Googleがワード間の関係を基にページのランクを決定する仕組み

最近、SEOのマニアックな記事が少ない!とお叱りの声を受けることも多いので、今回は久々にSEO by the SeaのディープなSEO記事を。 — SEO Japan

前回の投稿「アンカーテキストがSEOに与える影響【2012年度末版】」(日本語)は、数週間前にSEOmozに投稿された動画「予想: 瀕死のアンカーテキスト – 共同引用は後継者になれるのか?」への私のリアクションである。当時、次の投稿(今回の記事)で、この記事、そして、特定のワードがページで同時に発生する現象が、ランキングシグナルになり得ると言う見解を再び取り上げることになるとは思っていなかった。

ランド・フィッシュキン氏は、クエリに対して最適化をあまり行っているようには見えない3つの異なるページがSERPの1ページ目に掲載されている現象を取り上げ、クエリに関連するワードがページ上で同時に発生する共通点があると指摘していた。一方、私はこのようなランキングの原因になったと思われるグーグルによるランキング変更のアプローチを調べ、フレーズベースのインデックス、リーズナブルサーファーモデル、固有表現、クエリに割り当てられたカテゴリ、ウェブページに割り当てられたカテゴリを含むカテゴリをベースとしたメソッド、そして、クエリ内での類義語を利用するアプローチをリストアップした。

グーグルのフレーズベースのインデックスは、クエリに対する上位(10/100/1000)の検索結果で一緒に現れる(共起)ワード(フレーズ)に注目し、共起に応じてページのランキングを押し上げるアプローチであり、フィッシュキン氏が取り上げたページが1ページ目の結果に表示させた原因のように思える。私が紹介したその他の再ランク付けのアプローチもまたこのランキングの原因になっている可能性がある。その後、今週グーグルに付与された特許が、この現象の背後にあるのではないかと感じたのだ。

ワードの関係とドキュメントのランキング

下のイメージは、街の郊外にある古いホテルの前に立てられている看板である。以前、シェナンドア国立公園内で30分の距離にあるスカイラインドライブに向かう途中、このホテルに泊まる人達が大勢いた。看板に描かれた「Vacancy」と「Enter」の2つのワードは、最小限のワードで伝えたいこと表現している。

この点を踏まえ、文書内で特に重要なワードを幾つか選び、互いの距離に応じて、同時に現れる文書に対する関連性および重要性を特定することが出来るとしたらどうだろうか?

An old sign stating that there is a vacancy at the hotel it appears in front of.

例えば「mockingbird」等のクエリをグーグルで検索にかけ、検索結果に表示されたトップ1000の文書を引き出したとする。文書から大半の用語に対して、表示されている場所をマークした後に抽出し、文書内で現れる回数や文書の始めへの距離等を基にそれぞれのワードのスコアを計算する。

大文字表記の分析および一部の言語分析を実施し、用語が名詞なのか、固有名詞なのか、固有表現なのか、あるいは、文のような情報の塊なのかを特定する。このような用語には、文書内の動詞やその他のタイプの用語よりも高いスコアが与えられる可能性がある。また、その他の分析が用いられ、用語が固有表現かどうかを特定する試みが行われることもあり得る。

tf-idfスコア等のツールを使って、ウェブで頻繁に登場する傾向のある用語をカットして、一般的な用語を確認する。tfidf分析を基にした閾値を上回った上位20前後の用語を維持し、残りの用語は捨てる。残した用語は、文書内で特に重要な用語だと言える。

次にそれぞれの文書で残った関係のスコアを計算する。互いの距離が近いことを前提として、相関関係を持つワードは、関係があると見なされる。同じ文または段落、あるいは、特定の本数の文の中で登場する場合は距離が近いと思われる。これはローカルタームの関係と呼ばれる。残った用語がその他の用語とローカルタームの関係を持っていない場合、対象から外される。

文書の用語のスコアは、文書内の1位の用語、そして、当該の用語と他の用語の間に存在する文の本数を基にした最短距離に応じて算定される。同じ文に掲載されている場合は、距離はゼロとなる。

An image from the patent showing a flow of local term relationship scores into document scores that could influence rankings of those documents.

すべての文書の用語が抽出され、スコアが与えられ、関係スコアが判明した後、ローカルタームの関係および文書のもともとの順序を基に関係が特定される。それぞれの文書のスコアは、どの文書が共通する用語を持つのかを確認し、共通する用語を持つ文書同士を比較し、そして、もともとのランキングスコアとそれぞれの文書内の用語の関係スコアに基づくスコアを組み合わせて、生成されると推測される。

この特許はこのメソッドを利用する利点として次のメリットを挙げている:

  • 曖昧なクエリに対してより広範な検索結果が提示される
  • 検索結果が表示される順序が並べ替えられ、上位の検索結果でより広範な情報を提供するようになる
  • 異なる文書をつなぐハイパーリンクを持たない文書間の関係が特例される。コーパス内のある用語に関連する用語が特定され、コーパス内の文書に対するナビゲーショナルなリファレンスとして利用される用語として提示される可能性がある

それではこの特許を詳しく説明していく:

ワードの関係を利用した文書のランク付け

発明: Sharad Jain

付与先: Google

米国特許番号: 8,321,409

付与日: 2012年11月27日

申請日: 2012年6月30日

概要

文書に得点を与えるメソッド、システム、そして、コンピュータプログラム製品を含む機器。順位が付けられた複数の文書を受信する。複数の文書の用語の間に存在するローカルタームの関係が特定される。それぞれの文書の用語と用語の間の関係が、それぞれのローカルタームの関係に値する。

複数の文書における関係は、ローカルタームの関係および文書のもともとの順序に応じて特定される。各文書に対するスコアは、文書の関係に基づいて決められる。

教訓

この特許で描かれているプロセスは、クエリに対して返された上位のページで特に重要で影響力のある用語を特定する試みを行う。このような用語と同じページ上のその他の用語の関係の強さに注目する。文書内の用語の場所、そして、重要な用語の間の相対距離(用語が複数回登場する場合、最も近い距離が採用される)に応じて、スコアが生成される。

文書のスコア、そして、重要な用語の違いによって、ランキングが2通りの方法で影響を受けると思われる。文書のスコアは、ページのもともとのスコアと組み合わされ、一連の検索結果で押し上げられることもある。

文書内のワードにおける重要な用語の違いは、様々なタイプの結果が提示されること、そして、クエリが曖昧な用語であることを示唆し、検索エンジンが結果を並び替え、もともとの検索結果よりも広範な意味を網羅する可能性がある。例えば、クエリ[java]では、プログラミング言語に関する結果、島に関する結果、そして、飲み物に関する結果が提示される。各ページの重要なワードまたは用語は、検索結果の1ページ目に提示されるべき3つの異なる意味を指摘する。

文書のスコアに応じたランキングの押し上げ、そして、様々な結果を表示する上での並べ替えのおかげで、クエリの用語に対して関連性が低いページが、検索結果において大幅にランクを上げる可能性がある。

前回作成したウェブページや投稿したブログのエントリをチェックして、ページ上で最も重要なワードとしてグーグルがどのワードを特定したのか、そして、ワード間の関係がどれぐらい強いのか推測してみよう。共起は当該のページのランキングに影響を与えているだろうか?

ただし、このプロセスは、ページ上のクエリの用語(または用語の類義語)を基にした、あるいはページに向かうリンクの本数を基にした、そして、ページランク等の重要なスコアを基にしたページの情報検索スコアを置き換えるものではない。そうではなく、フィルターや重みを加え、また、検索クエリの結果に多様性を持たせようと試みる。

グーグルは、この特許で描かれているように、ページ上の重要な用語の共起を用いて、ランキングに影響を与えているのだろうか?


この記事は、SEO by the Seaに掲載された「Ranking Webpages Based upon Relationships Between Words (Google’s Co-Occurrence Patent)」を翻訳した内容です。

やっぱりマニアックすぎて恐縮でしたが、Googleがテキストで書かれたコンテンツの意味を正確に解釈するためのアルゴリズムを日々進化させていることは感じられたかと。。。同時にキーワード詰込み型のSEOに効果がなくなっている論理的な理由もまたこういった技術に隠れているのでしょうね。だからといってキーワードを意識しないで文章を書けばよいということにはつながりませんが、最近のSEO全般にいえることですが、何事もほどほどに、がよさそうです。 — SEO Japan [G+]