Danny Sullivan(Founding Editor, Search Engine Land, @dannysullivan)
Gary Illyes(Webmaster Trends Analyst, Google, @methode)
Paul Haahr(Software Engineer, Google, @haahr)
Googleのランキングエンジニアリングがしていること
- サーバーのためのコードを書く
- 新しいシグナルの研究や、新しい方法での古い複数のシグナルを組み合わせ
- Googleが使用する測定基準の最適化
- 品質評価に基づいた検索結果の修正
- 品質評価ガイドラインの修正や新しい評価基準の開発
今日のGoogle検索
モバイルファーストだ。今までにないくらい、モバイルからのトラフィックが多い。それは、Googleの考え方に影響を与えるほどだ。モバイルではタイプ(入力)ではなく、ボイスサーチやタップが使われる。そして、ユーザーのロケーションもかなり影響する。
様々な機能
サジェスト、オートコンプリート、計算機、ナレッジグラフ、マップ、画像、天気・・・。生活のあらゆる場面で利用されている。
10個のブルーリンク
検索結果画面の1ページにつき、青色で10本のリンクを表示する。これが、一番おなじみのスタイルだ。この表示方法の課題は2つある。1つは、”どんなドキュメントを表示するべきか?”であり、もう1つは、”それらをどんな順番で表示するべきか?”というものだ。ちなみに、私の仕事は収益とは関係がない。ただただ、ユーザーを見ている。
検索エンジンの2つのパーツ
検索エンジンには2つのパーツがある。
- クエリの前段階
- クエリの処理
クエリの前段階
まずはWeb(サイト)をクローリングする必要がある。その後、クロールしたページを分析する。リンクの展開、コンテンツの読み込み(JavaScriptやCSSも合わせたフルレンダリング)、意味づけした注釈、などだ。その後、インデックスを構築する。
Webインデックス
本のインデックスと似たようなものだ。一つ一つの言葉が記載されるページの、全てのリストを作成する。それらを、何百万というグループに落とし込む。Googleでは、これらを”シャード(shards:破片、かけら)”と呼んでいる。Webインデックスには何千ものシャードがある。さらに、ドキュメントごとのメタデータもこれに加わる。
クエリの処理
クエリの理解と拡大が行われる。スコア付けも行われ、クエリの調整も加えられる。
クエリの理解
まず、該当のクエリが、よく知られたエンティティであるかを確認する。例えば、”san jose convention center(サンノゼコンバーションセンター)”、”matt cutts(マット カッツ)”などがそれにあたる。また、類義語の存在も確認する。例えば、”gm trucks”という場合、”gm”は”general motors(ゼネナルモーターズ)”だろう。しかし、”gm corn”の場合、”gm”は”genetically modified(遺伝子組み換え)”となる。そして、前後関係や背景などのコンテクストも確認する。
スコア付け
ここでは、全てのシャードにクエリが送られる。そして、合致したページの検索、クエリとページのスコアの計算、スコアごとに上位○○ページを送り返す、といった作業が全てのシャードで行われる。その後、全てのページが組み合わされ、スコア順に並べ替えを行う。
検索後の調整
クラスタリング、サイトリンク、重複、スニペットの確認などを行う。また、スパムが原因の順位下落や手動による調整の確認も行う。
スコア付けのシグナル
シグナルとは、スコア付けに使用される情報の一部であり、クエリに影響される項目と影響されない項目がある。クエリに影響されない項目は、ページの特徴となる項目だ。ページランク、言語、モバイルフレンドリーなどが挙げられる。クエリに影響される項目は、キーワード合致、類語、近接性などが挙げられる。
検索結果の品質の測定基準
「測定できなければ、改善できない」とあるように、測定基準は非常に重要だ。いくつか例を挙げてみよう。まずは、関連性だ。ユーザーからのクエリに対し、該当のページは有益な答えを提供しているか?これが、ランキングにおける一番の基準だ。次に品質が挙げられる。我々が提供している検索結果はどの程度良質なのか?、を見ている。また、結果を表示するまでの時間も重要となっている。もちろん、早ければ早いほうが良い。
Google自身の評価とその方法
我々は、我々自身の評価も行っている。具体的な手法は下記の2点だ。
- ライブ実験(実際の検索結果を使用した実験・調査)
- 人による評価実験
ライブ実験
他のWebサイトと同じように、実際のトラフィックでA/Bテストを行っている。また、クリックのパターンの変化も見ている。これは、おそらく、あなた方が考えているよりも難しい作業だ。こうした実験には多くのトラフィックが1つ、または、複数の実験で使われている。完璧な10個のブルーリンクとはなにか?そのために、沢山の実験を行っている。
人による評価実験
実際の人間に実験的な検索結果画面を見せ、どの程度良いかを尋ねている。評価者へのガイドラインを発行しており、自動化を図るべく、ツールの協力も得ている。実際の体験が、品質を伝えることになるからだ。昨年、Googleはガイドラインを公開した。我々が考える品質とは何か?を記載したものだ。
人による評価実験における2つの指標
ニーズメットとページクオリティという2つの指標がある。ニーズメットは、”該当のページがユーザーのニーズに合っているか”、を見る指標だ。完全に満たされている(Fully meets)から、満たされていない(Fails to Meet)まで、6個の段階がある。
ページクオリティは、”該当のページがどの程度良いページか”、を見る指標だ。E-A-Tという軸があり、それぞれ、”Expertise(エキスパート性)”、”Authoritativeness(権威性)”、 ”Trustworthiness(信頼性)”、を表している。
モバイルファーストの評価
ニーズメットの評価者に対し、モバイルユーザーのニーズに注力してもらうよう、依頼している。つまり、該当の検索結果がモバイルユーザーにとって、どの程度有益で、どの程度満たされたものになっているかを考えてもらう、ということだ。
モバイルを中心とするために
ユーザーの位置情報に非常に気を配る。また、モバイルのユーザー体験を表示するツールなども使用している。評価者にはスマートフォンでWebサイトを確認してもらっている。
ランキングエンジニアについて
数百人のコンピューターサイエンティストから成るチーム。我々の測定基準とランク付けのシグナルに注力している。多くの実験をしており、多くの変更を加えている。
開発プロセス
まずは、アイデアを出す。解決したい問題があり、そのためにはこのデータが使えそうだ、といった具合に。そして、コードを書き、データを作成し、実験を行い、分析する。これを、ローンチの準備ができるまで繰り返す。その後、定量データの分析チームからのレポートを受け、ローンチする。非常に長い時間がかかることもあり、最悪のケースは2年かかった。
2つの問題
もちろん、上手くいかない場合もあるが、その原因は2つ考えられる。1つは、評価の質が良くない場合であり、もう1つは、測定基準に問題がある場合だ。
評価の質が良くない場合
“texas farm fertilizer(テキサス 農場 肥料)”という検索をした際、ユーザーは肥料のブランドを知りたいと思っている。この製造企業の本社に行きたいと思う人はいないだろう。しかし、実際の検索結果は非常に遠く離れた本社のマップを表示していた。我々は、ライブ実験の結果からこの検索結果を変更することにしたのだが、実は、この検索結果に高評価を与えていた評価者がいた。このように、評価者による評価の質が悪い時がある。
測定基準に問題がある場合
2009年から2011年の間、低品質コンテンツへの不満が多くあった。しかし、我々の関連性における測定基準は、この期間、どんどん上昇していた。そのため、我々は自分たちはうまくやっていると考えていたが、実際は、我々が望むものを測定していなかったのだ。つまり、品質における測定基準は、関連性における測定基準と同じではなかったのだ。
Q&A
*Q&Aからダニー・サリバン氏とゲイリー・イリーズ氏が登壇しました。また、それぞれを下記のように記載します。
- ダニー・サリバン氏=”ダニー”
- ポール・ハー氏=”ポール”
- ゲイリー・イリーズ氏=”ゲイリー”
ダニー:RankBrainとインデックスの関係は?
ポール:RankBrainはシグナルのサブセットだ。RankBrainの仕組みについて、あまり詳しいことは話せない。
ダニー:RankBrainはオーソリティをどのようにして判断しているか?
ポール:トレーニングの成果によって可能だ。クエリとシグナルを見ている。しかし、皆様にとって有益なことはお話しできないと思う。
ダニー:エンティティは5年前に話していたような内容と変わりないか?
ポール:ナレッジグラフのことだろうか?もちろん、継続している。
ダニー:GoogleNowとクロームなどでデータは区別しているか?
ポール:ログインしているかどうか、ということだろう。我々は一貫した経験を提供しており、ブラウザの履歴などもそれに含まれている。
ダニー:一日のうちで、同じクエリで検索結果が変わっている
ゲイリー:マップやナレッジグラフの場合は、営業時間などで変わるかもしれない。しかし、確証は持てない。
ダニー:上手くいっていないという状況をどう判断しているのか?
ポール:実験を常に行っている。大量のメトリックスをそれぞれの実験で使っている。個別のクエリに当てはめている。
ダニー:パンダとペンギンについて
ゲイリー:ペンギンのローンチはもうすぐだと思うが、具体的な日付けはわからない。また、今後ローンチの予定日を伝えるのはやめようと思う。すでに数回失敗してしまっているし、ビジネスとしてよくないことだ。
ダニー:オーソリティについて、どのように計測しているのか?
ポール:詳細についてはお答えすることができない。しかし、我々は、評価者がオーソリティと思うことと同様に考えることができているか?を測定している。
ダニー:オーソリティは直接ランキングに影響するのか?
ポール:公定も否定もできない。直接的な回答があるほど、簡単なものではない仕組みになっている。
ダニー:rel=authorについては?
ゲイリー:rel=authorの将来的な活用を探っているチームが、少なくとも、1つある。私がSEO担当者であれば、タグを残したままにするね。しかし、新しいページを作成する場合は、わざわざ加える必要はない。
ダニー:CTRについて
ポール:CTRの実験はしている。パーソナライゼーションも考慮しながら。しかし、非常に課題が多い。ミスリーディングを起こすこともある。ちなみに、10位のCTRは8位や9位よりも高い。7位よりは低いが、おそらく、2ページ目に行きたがらないユーザーが多いのだろう。
Googleという巨大なプロダクトを構成するため、運用を含め、実に様々なチームが関わっているようです。今回のポール氏がお話してくれた内容は、その中でも核となる、ランキングに関わるチームのお話でした。おそらく、かなり簡略化した説明であると思いますが、それでも多くの項目を紹介してくれました。ゲイリー氏は、やはり、ペンギンについての質問を受けていましたが、大きな情報というものはありませんでした。ペンギンもプロダクトを構成する一要素であるため、すべての要素を細かく把握することは、非常に厳しいことなのかもしれないですね。今回の記事で、SMX West 2016のセッションレポートは全て終了となります。前回訪れてから2年も経っていることに驚きを隠せないのですが、今回も非常に刺激を受け、有意義なカンファレンスでした。今後もSEO Japanとして参加したカンファレンスのレポートを掲載したいと思いますので、引き続き、よろしくお願いいたします。m(__)m– SEO Japan