人工知能はSEOを一変させる―Googel RankBranを知らない対策が危険な理由

2016-06-06-google-rankbrain

編集部:この記事はJohn Ramptonの投稿。 Ramptonはオンライン請求サービス、DueのファウンダーでCRUNCH NETWORKのメンバー。

この筆者にようる過去記事:The broken world of mobile payments and how to fix it, What Zuckerberg And Gates Teaming Up Really Means For Clean Energy In 2016

SEOは完全に違うものになった

将来を見通すという困難な仕事にかかる前に、まずGoogleのサイト評価アルゴリズム、RankBrainがSEOをどう変えたかを考える必要がある。私はカーネギーメロン大学の同窓生で友達のScott Stoufferとこの問題について話し合った。彼は Market Brewの共同ファウンダー、CTOだ。この会社はFortune 500掲載の大企業のSEOチームにランキングのモデルを提供している。検索エンジンの専門家としてStouffer過去10年間に検索エンジンがどう進歩してきた知る絶好の位置にいる。

以下に述べるのは、SEOビジネスにとってGoogleの人工知能がどんな意味を持つかについてのStoufferの意見をベースにしている。

6

現在の回帰分析には深刻な欠陥がある

SEOビジネスでこれは現在最大の誤謬だろう。Googleのランキング・アルゴリズムが大きく変更されるたびに「それはこういう影響をもたらす」と解説する予言者が大勢現れてきた。誰でも知っているような有名企業のデータサイエンティストやCTOが最新のGoogleアルゴリズムについて「詳しく知る立場にある」と主張する。これはアルゴリズムのアップデート以前のランキング・データを調べ、次にアップデートの内容が適用されたならこれこれの変化があるとあらゆる種類のサイトについて予測するという手法だ。

現在の回帰分析のアプローチでは、データサイエンティストは(良きにつけ悪しきにつけ)ランキング・アルゴリズムに影響を受けるタイプの特定のサイトのグループに着目する。そしてこうしたサイトのランキングの変動はしかじかのアルゴリズムの変更(コンテンツ関連、バックリンク関連、その他)によって引き起こされた可能性が高いと結論する。

ところがGoogleはアルゴリズムのアップデートに当たってもはやこうした考え方を採用していない。 GoogleのRankBrainは極めて強力な機械学習、あるいはディープ・ラーニングのシステムであり、そのアプローチはまったく異なる。

Googleのランキング・アルゴリズムにはコアとなる考え方が存在する。RankBrainはまずこのコア・アルゴリズムを理解し、現実のサイトに適用された場合、どのようなアルゴリズム組み合わせによってベストの検索結果を得られるかを決定する。たとえばRankBrainは、あるタイプのサイトではもっとも重要性の高いシグナルはMETAタグのtitleの内容だと判断する。

META titleの重要性が高いのであれば、ここに検索エンジン向けの記述をすることで検索結果に好影響を与えることができる。しかし常にそうであるとは限らない。別の種類のサイトではtitleタグは検索結果に破壊的な結果をもたらすことがある。

7

重要なポイントは、それぞれの検索結果はまったく異なるアルゴリズムの組み合わせだということだ。この点に注目すれば、サイトのタイプや検索のコンテキストを無視した単なる回帰分析がいかに深刻な問題をもたらすかがわかるだろう。

つまり回帰分析は個別の検索ごとに行われなければ意味がない。 最近、Stoufferは検索モデル分析というアプローチについて書き、Googleのアルゴリズムの変更は、正しい分析を行えば定量的に確認できると論じた。第一に、過去に特定のキーワードに対する検索結果のスナップショットにもとづき、Googleが検索アルゴリズムルをどのように調整しているはずであるか、モデルを作成して推定する。ランキング決定に変化があった場合、新旧のデータの差異からモデルを再調整し、Googleが検索アルゴリズムにどような変化を加えらたかを明らかにする。 このようなアプローチを採用した場合、ランキング結果の変化がどのアルゴリズムのウェイトの増大あるいは低下によるものであるかを推定できる。

人間が未来を予測するときの誤りは、その意義を過小評価することだ

こうした知識をベースにすれば、われわれは特定の検索に対する体験を改善するためのSEOを始めることができる。ただし同じようなSEOアプローチが他のタイプの検索に対しても適用できると期待してはならない。前にも述べたようにRankBrainは検索結果(つまりキーワードのレベル)に対して最適化されているからだ。RankBrainは文字通りアルゴリズムをカスタマイズしてそれぞれの検索結果を表示している。

分類エラーを防ぐためにはニッチを出るな

Googleはディープ・ラーニング能力を利用してRankBrainに「良いサイト」と「悪いサイト」がどのようなものであるかを教えることができるのを発見した。個々の検索ごとにアルゴリズムをカスタマイズするのと同様、Googleはそれぞれのジャンルのサイトで典型的な「良し悪し」のサインがあることに気づいた。それぞれのジャンルには異なる顧客管理モデル、異なるテンプレート、異なるデータ構造があるのだから適用すべき基準も異なるのは必然的だ。

RankBrainは実行される特定の環境ごとに自らの「正しい設定」を学習する。繰り返しになるが、「正しい設定」はサイトのジャンルごとに異なる。たとえば健康ビジネスではGoogleはWebMD.comは信頼すべき優秀なサイトであることを知っており、検索結果のトップ付近にこのサイトが来るよう検索インデックスが調整されている。そしてWebMDに類似、あるいは関連したサイトは「良い」と判断される。同様に健康ビジネスでスパムを乱発しているサイトに類似するサイトは「悪い」と判断される。

RankBrainがディープ・ラーニング機能を利用してジャンルごとに大まかな「良いサイト」と「悪いサイト」という区分を作っているなら、数多くのジャンルの内容を含むサイトを運営している場合、どういうことになるだろう?

8

まずディープ・ラーニングの仕組みをもう少し詳しく知る必要がある。「良い」と「悪い」という2つの大きなバケツにサイトを分類する前にRankBrainはそれぞれのサイトが「どんなジャンルに分類されるか」を知らねばならない。Nike.comWebMD.comの場合は簡単だ。これらは大きなサイトなので数多くのサブセクションがある。しかし全体としてNikeはスポーツ用品メーカーであり、 WebMDがヘルス・ビジネスに属することに変わりはない。こうしたサイトは容易に分類可能だ。

しかしサブセクションがそれぞれ異なるジャンルに属するようなサイトの場合はどうだろう? たとえば、ハウツー・サイトなどがよい例だ。こうしたサイトはきわめて広いジャンルのサブセクションを持つことになる。するとディープ・ラーニング・システムは十分に機能できなくなる。こうしたサイトを分類するためにGoogleはどんなトレーニング・データを用いたらよいだろう? あまりにジャンルが広い場合は有効なトレーニング・データを作成することはできない、というのがその答えだ。トレーニング・データは特定のジャンルを前提とする。Wikipediaにように極めて有名なサイトの場合、Googleはディープ・ラーニングによる分類を諦め、サイト自体を対象から除外している。こうした著名なサイトを含めることによってディープ・ラーニング・システムを混乱させることを防止するためだ。Wikipediaについていえば、「大きすぎて〔RankBrainを〕失敗させるわけにいかない」という例だろう。

SEOはきわめて高度なテクノロジー分野となりつつある

しかしWikipediaほど有名でないサイトの場合は話が違ってくる。残念ながらこちらの答えは「そんなことは誰にも分からない」だ。ディープ・ラーニング・プロセスはサイトを同ジャンルの他のサイトを比較する前に、どのジャンルに属するかを決めなければならなないはずだ。そのとき、ハウツー・サイトがたまたまWebMDサイトに酷似していたら、たいへん幸運だ。

しかし、Googleの分類プロセスがそのサイトを「スポーツシューズに関連している」と判断するなら、WebMDではなくNikeのサイトと構造を比較するだろう。もしハウツーサイトが、尊敬すべきWebMDではなく、スパム・サイトとして知られる靴サイトに似ている場合、Googleはこのサイトに「スパム」の烙印を押しかねない。もしハウツー・サイトがジャンルごとに別のドメインに分割されていれば、RankBrainがそれぞれのドメインをそれぞれのジャンルの他のサイトと比較するのは容易になる。つまりこれが「ニッチにとどまれ」という理由だ。

バックリンクにご用心

上に述べたようなジャンルへの分類が行われた後の段階となるが、次にバックリンク(被リンク)の影響について考えてみよう。サイトが「関連あるコミュニティーに留まる」ことの重要性はますます高まっている。RankBrainはジャンルごとの通常のバックリンクのプロフィールを知っており、これと異なるような状態を検知できる。

ある会社が靴のサイトを運営していたとしよう。上で説明したとおり、RankBrainはこのサイトを靴サイトにおける「良いサイト」、「悪いサイト」と比較する。当然ながらバックリンクの内容も「良いサイト」、「悪いサイト」と比較されることになる。

「良い靴サイト」はおそらく次のようなジャンルからのバックリンクを持っているはずだ。

  • スポーツ
  • ヘルス
  • ファッション

仮に靴会社のSEOチームがこれと違った新しい分野のバックリンク獲得に力を入れ始めたとしよう。 CEOチームの1人が優秀なエンジニアであり、また前職の関連で自動車産業に強かったとする。するとこのチームは「自動車の新規リースで靴を1足、無料進呈」というようなクロス・マーケティング・プロジェクトを始めるかもしれない。このプロモーションが自動車サイトに掲載されれば、靴サイトは大量のバックリンクを獲得できる。うまい話だろうか?

RankBrainは突然バックリンクが増大したことに気づき、他の評判の良い靴サイトのバックリンク・プロフィールとまったく性質が異なると判断する。それどころか、最悪の場合、RankBrainは靴のスパムサイトが自動車サイトから大量のバックリンクを得ていることを発見するかもしれない。これは非常にまずい事態だ。

そういう次第で、RankBrainは、それが正しい手段で得られたバックリンクかどうかに関わりなく、検索結果にとって「良い」リンクであるか「悪い」リンクであるか区別しようとする。その結果、この靴サイトには警告フラグが立ち、サイトの努力もむなしくオーガニックなトラフィックも急降下するということになりかねない。

SEOの未来と人口知能

以上見てきたように、RankBrainなどの人工知能は、ある時点でその能力が人力を超えてしまう。その後人口知能がどこへ向かうのか人間には正確に判断できなくなる。

しかし確実なこともある。

  • それぞれのキーワードは独自に検索の文脈を検討される
  • 誤った分類を防ぐために、多くのサイトはニッチな分野に留まることが必要
  • 自サイトが属する分野でもっとも信頼されるトップサイトの構成を模倣することが安全

ある意味でディープ・ラーニングはSEOの仕事をやりやすくしてくれる。RankBrainなどのテクノロジーは人間のやることに非常に近い。どういう意味かといえば、もはや「手っ取り早い抜け穴」などはないということだ。

もちろん困難になった面もある。その一つはSEOが極めて高度なテクノロジー分野になっていくという傾向だ。アナリティクスとビッグデータは単に今日のバズワードであるだけでなく、あらゆるSEOエンジニアが学んでおかねばならない基礎でもある。学ぶためにはたいへんな苦労をするかもしれないが、こうしたテクノロジーを使いこなせるエンジニアは高給を期待してよい。

画像::Maya2008/Shutterstock

〔日本版〕この投稿は長文のためGoogle RankBrain等に直接関連ある後半を訳出した。人工知能全般を論じている前半は原文を参照。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Googleがランキング要素のTOP3を公式に発表。

昨年、GoogleがRankBrainを発表した際は大きな話題となりましたが、”3番目に重要なランキングシグナルである”、という発言もその理由の1つであったと思います。当時は上位2つの要素を明らかにはしていませんでしたが、Googleのアンドレ・リパッセ氏(発音が間違っているかもしれません)がハングアウト内で言及しました。1つはコンテンツ、もう1つはリンクだということです。ダニー・サリバン氏はリンクと言葉と予想していましたね。ダニー・サリバン氏ではなくとも、”まあ、そうだよね”、といった感想が大半だとは思いますが、Googleの方の発言は、確かに初めてのことだと思います。– SEO Japan

Googleのアンドレ・リパッセ氏が明らかにした。Google検索のランキング要素のTOP3は、リンク、コンテンツ、RankBrainだ。

google-g-word-blue3-1920-800x450

*リンク先は全て英語となっています。

Googleの検索結果で上位を獲得するための要素とは何だろうか?最も重要な3つの要素が初めて明らかになった。リンク、コンテンツ、そしてRankBrainだ。

RankBrainが3番目に重要なランキング要素であると、昨年Googleが発言していた。しかし、上位2つの要素が何であるかは明らかにしていなかった。昨日、GoogleとのQ&Aにて、Googleのサーチクオリティ・シニアストラテジストのアンドレ・リパッセ氏が、上位2つの要素はリンクとコンテンツであると発言した。

(上位2つの要素が)何であるかをお伝えしよう。先ずはコンテンツ。そして、サイトに向けられているリンクだ。

彼はその内のどちらがより重要であるかは述べていない。つまり、ランキング用をのTOP3のリストは下記のようになる。

1&2 リンクとコンテンツ
3  RankBrain

もちろん、Googleはその他の多くの要素も見ている。ちょうど、我々が作成したランキング要素のテーブル表のように。兎にも角にも、上位3つの要素が、Googleによって公式に認められたのだ。

下記に動画を掲載しておく。

この記事は、Search Engine Landに掲載された「Now we know: Here are Google’s top 3 search ranking factors」を翻訳した内容です。

RankBrainの内容についてはGoogleはあまり詳細を語っていないこともあり、ランキング要素としての解釈も難しいものであると感じています。(その分、先日のSMXでのRankBrainのセッションは非常に盛り上がっていましたが。)RankBrainの対象となっているクエリは全体の内の1部です。また、クエリの解釈の部分という働きからも、ランキング要素として考えることは、なかなか複雑なことだと思います。色々と明言できる部分は少なくなるのも仕方ないと感じつつも、定期的に行われるこうした議論を聞くことは非常に興味深いですね。– SEO Japan

続きを読む Googleがランキング要素のTOP3を公式に発表。

SMX West 2016-RankBrain。我々は、Googleの新しいマシンラーニング・システムをどのように理解するべきか?

Googleが昨年公にした、RankBrainについてのセッションです。RankBrainについては、”機械学習の技術を用いていること”、”複雑なクエリの精製に使われていること”、”3番目に重要なシグナルであること”、は明らかにされていましたが、詳細な説明はGoogleからはされていません。そんな状況の中、Searchmetrics社のマーカス氏と、Stone Temple社のエリック氏が独自の調査を行い、RankBrainに対する解釈を披露しています。前者は、関連性の理解について、後者は検索結果の改良について、をメインに話していますが、非常に興味深い内容でした。Googleの方を招いたセッションではありませんでしたが、今回のSMX Westの中で最も内容の濃いセッションと感じています。– SEO Japan

OLYMPUS DIGITAL CAMERA

RankBrainとは何か、どう動いているのか、そして、それが意味するものは何か?

Moderator:Danny Sullivan(Founding Editor, Search Engine Land, @dannysullivan)
Speakers:Marcus Tober(Founder/CTO, Searchmetrics Inc., @marcustober)

OLYMPUS DIGITAL CAMERA

RankBrainについて、Googleはそこまで詳細な情報を与えてくれていない。しかし、我々が知っておくべきことであることは間違いない。(ダニー氏)

イントロダクション
このセッションでは、GoogleのRankBrainとは何なのか、どのような仕組みなのか、何を意味するのか、についてお話しする。

マシンラーニング(機械学習)? AI(Artificial Intelligence:人工知能)?
マシンラーニングはAIとイコールではない。マシンラーニングは、時間をかけて改良していくアルゴリズムである。AIは、人間と同様の知能である。また、ディープラーニングは、マシンラーニングとAIのギャップを埋める目的で、より複雑な問題を処理することができる。

マシンラーニングの技術を用いた例
スパムメールのフィルタリング、Facebookの写真認識、iTunesなどの音楽や動画のレコメンデーション機能、チェスなどのボードゲーム(対戦ロボット)、などが身近な例だろう。

囲碁:マシンラーニングの限界
囲碁は2,500年の歴史があり、世界中に4,000万人のプレーヤーがいる。マシンラーニングでは打ち破れないと考えられていた(AlphaGoまでは)。囲碁は非常に難しいゲームだ。駒の移動パターンは、チェスの場合10の50乗だが、囲碁の場合は10の171乗にもなる。

OLYMPUS DIGITAL CAMERA

ちなみに、Googleという名前の由来は”Googol”であり、10の100乗を意味する単語だ。

ディープラーニングとAlphaGo
今までの伝統的なAIの手法は、移動可能な全てのポジションを分析しようとしていたが、囲碁の場合は数が膨大なため、うまくいかなかった。AlphaGoは12の異なるネットワークの層をまたぐ、深いニューラルネットワークを使用している。1つのニューラルネットワークは次に動くべき手を選び、別のニューラルネットワークはゲームの勝者を予測している。このように、Googleは常に、問題を解決しようとしている。これはRankBrainにも当てはまる。

RankBrainを理解しよう
ジェフリー・ヒントン氏(トロント大学の教授であり、Googleでも活躍)の功績の賜物でもあるプロジェクトがある。これを簡単に説明してみよう。まずは、”thought vectors”の話だ。何もない空間を想像してほしい。そして、この世の全ての言葉がその空間に配置される。それぞれの言葉にはポジションがあり、別の言葉との近接(距離感、近さ)を持つ、というイメージだ(それぞれの言葉と言葉の距離=関係性を把握する)。Googleは検索クエリをマッピングし、それぞれのクエリの距離を測ることができる。

OLYMPUS DIGITAL CAMERA

ある言葉とある言葉の距離が近いことをGoogleは理解しており、それぞれの関連性を見出す。そして、良い検索結果は距離感に基づいている。RankBrainは、”カリフォルニアの天気はどんな感じになるかな?”という話し言葉のようなクエリを、”天気予報 カリフォルニア”と解釈することができ、それに近しい検索結果を出している。クエリ内の言葉を、その言葉と近しい距離の別の言葉に置き換え、それを元に検索結果を提供することで、良質な検索結果を得られるのだ。

Searchmetricsによる仮説
伝統的なランキング要素は全く意味が無くなっている、という仮説を立てた。現在、RankBrainはすべてのクエリに使われてはいないが、今後全てのクエリに使用されればどうなるだろうか?あるクエリに対してRankBrainが使われた場合、3番目に重要なシグナルとなる。下記に、我々の仮説をまとめる。

  • RankBrainは関連性のあるコンテンツに集中している。
  • RankBrainはクエリに対して関連のある結果を出すために、”thought vectors”を使用している。
  • 関連性スコアはランキングの順番を決定するのに役立つ。

調査内容
下記に、今回調査する上での基準をまとめる。

  • Google(米国)の上位30位の検索結果
  • およそ、400,000のデータポイント
  • 3つのキーワードセット(”ローン”、”Eコマース”、”健康”、の関連ワード)
  • どのランキング要素が最も重要かを知ることが目的
  • コンテンツの関連性を理解するためのスコアをつけることにより、RankBrainをエミュレートする

いわゆる、伝統的なランキング要素では説明がつかない例がある。例えば、”cash advance fresno ca”というクエリでは、5位に表示されているサイトは12位に表示されているサイトよりも、バックリンク数や内部リンク数で圧倒的に低い数字が出ている。

OLYMPUS DIGITAL CAMERA

既存の要素1:バックリンク数
”Eコマース”の相関関係はポジティブ。つまり、リンクが多ければ順位が良いという状況。”ローン”の場合はネガティブ。少ないバックリンク数でも上位表示されている。

OLYMPUS DIGITAL CAMERA

既存の要素2:内部リンク数
全体的に”Eコマース”で内部リンクが多いのは、多数の商品ページがあるなど、納得できる理由はある。

OLYMPUS DIGITAL CAMERA

既存の要素3:タイトル内のキーワード
”ローン”では、タイトルタグ内にキーワードが入っているページは10%ほどだ。

OLYMPUS DIGITAL CAMERA

既存の要素4:単語数
”Eコマース”と”健康”では単語数が多いほうが上位表示されている。つまり、コンテンツが多いほど有利ということだ。

OLYMPUS DIGITAL CAMERA

上記4つの例の中で、今までの理論が通用しない検索結果があった。例えば、バックリンク数が少ないページや、単語数が少ないページが上位表示されていることがあった。なぜ、伝統的な要素がランキング要素になっていない例があるのだろうか?

関連性の要素
我々は、RankBrainをエミュレートし、関連性のスコアをつけた。このスコアは、クエリに対する検索結果との関連性に基づいている。我々は、この関連性を測定するため、(関連性についての)25種類のランキング要素を使用した。この要素はキーワードによって異なるため、具体的に何かを説明することは、ここではできない。

Eコマースの例1
“security camera system(セキュリティ カメラ システム)”というクエリの例。1ページ表示のうち、9つのサイトにカート機能がついていた。9位に表示されていたサイトのみがついていなかったのだが、なぜ、このサイトは1ページ目に表示されているのか?このサイトの関連性のスコアは、上位30位の内、最も高いスコアであった。

OLYMPUS DIGITAL CAMERA

Eコマースの例2
“best bluetooth headphones(ベスト ブルートゥース ヘッドフォン)”というクエリの例を見てみよう。2位に表示されているサイトの内部リンク数は、26位のサイトよりもかなり少ない。しかし、2位に表示されているサイトの関連性のスコアは、上位30位の中で最も高かった。

OLYMPUS DIGITAL CAMERA

健康の例
“natural detox(ナチュラル デドックス)”というクエリの例。5位表示のサイトを見ると、単語数、内部リンク数、インタラクティブの要素、などが全て26位に表示されているサイトよりも低い。

OLYMPUS DIGITAL CAMERA

関連性スコアのまとめ
関連性スコアの高いサイトには、以下の特徴がある。

  • ユーザーの意図と合致している
  • 論理的に構成されており、包括的
  • 良いユーザー体験を提供している
  • 全体的(トピックに関連する別のトピックも扱っている)

調査結果のまとめ
この調査によって得られた結果を以下にまとめる。

  • キーワードによって上位に表示されるための要素は異なる
  • 関連性の要素は全てのキーワードで効果的である
  • 今回紹介した例の全ては、関連性スコアが高い、ということで説明がつく
  • 関連性スコアは他の要素を強化し、結果、高順位を獲得する

SEOへの影響
SEOが重要であることに変わりはないが、変化している。新しく導入されたRankBrainは、全てのクエリで使用されているわけではない。短い、人気のあるクエリの、すでに定番となっているような検索結果に対しては、RankBrainによるフィルタリングはないだろう。

RankBrainは関連性を見ており、関連性は高順位を獲得するうえで必須の要素だ。つまり、ユーザーのインテントとあなたのコンテンツを合致させることが、SEOにおいて重要なことであると言えるだろう。

検索の未来
強力なデータ分析から得られた改良の積み重ねが必要であり、マシンラーニングとディープラーニングは、複雑なデータから意味を見出す。データドリブンなアプローチこそが求められており、これは、コンテンツにもあてはまる。

この考えは、RankBrainとSearchmetricsで共通した考え方である。

RankBrainとは何か?そして、その仕組みは?

Eric Enge(CEO, Stone Temple Consulting, @stonetemple)

OLYMPUS DIGITAL CAMERA

2013年に脳の外科手術を受けた。しかし、これが今回私がRankBrainについてお話しする理由と関係があるわけではない。

RankBrainとは何か?
2015年10月に、ブルームバーグの記事によって明らかになった。その記事では、”RankBrainは言語やクエリを、人の直感や推測する方法と似た手法で、解釈する”と記載されている。つまり、”Googleは言語理解を深めている”、ということだ。

言語分析のコンセプト
RankBrainだけに限った話ではない、基本的なコンセプトをお話しする。まずは、ストップワード(Stop Words)だ。これは、”a”や”the”や”such”など、言語処理をする前にフィルタリングされる(不要な)単語だ。しかし、ストップワードを除外してはいけない場合もある。

ストップワードが必要な例
例えば”The Office” の”The” は重要。テレビドラマの名前の場合もあるし、会社という意味もある。また、”coach”という単語も、ブランドを意味する場合もあるだろう。同一のセンテンス内に、”バッグ”が含まれていたり、”Coach”と大文字で表記されていた場合、監督という意味の”coach”と違うことを人間は理解できる。

RankBrainの働き
上記の例の人間が理解できる部分を、アルゴリズムで可能にしたものがRankBrainだ。RankBrainは言語内の関連性を理解し、該当の単語の意味を解釈する。実際、ゲイリー氏はRankBrainを以下のように説明している。

“RankBrainは非常に高次元の空間においてテキストの文字列を表現することを可能とし、それらが互いにどのように関連しているのかを見ている。”

RankBrainと関連性の理解
RankBrainはある言葉のパターンを分析する。その言葉が使われているフレーズ、同一センテンス・パラグラフ・ページで使われている言葉、コンテキストやコンセプトなどだ。こうした分析の結果、”The”を典型的なストップワードではあるが、意味を決定する場合がある、という理解をし、”The Office”というクエリの意味を解釈する。

具体例1(単語の置き換え)
Googleが引用した例を用いて説明しよう。ブルームバーグの記事には、以下の文章が例に出されていた。この文章内の、それぞれの単語の意味を置き換えている。

OLYMPUS DIGITAL CAMERA

【SEO Japanによる補足】
上記を直訳すれば、”食物連鎖の最も高いレベルにいる消費者のラベルは何?”になります。そして、文章内のそれぞれの単語を以下のように置き換えています。
・label(ラベル)→ Name(名前)
・consumer(消費者)→ “消費者”のままですが、購入する(顧客)ではなく、捕食する存在としての“消費者”と理解します。
・highest level(最も高いレベル) → TOP(頂点)
・a → the (”the” にすることで、”食品チェーン店”ではなく、”食物連鎖”という意味を強めます。)
こうした置き換えを行った結果、”食物連鎖の頂点にいる消費者の名前は何?”というクエリと解釈し、それに関連した検索結果を出すことになります。

具体例2(withoutの扱い)
“Without”は“The”と同じように、Googleによってしばしば無視されてきた単語である。否定の意味を持つが、ページの意味を決定するうえで重要な場合もある。次の文章を例にしてみよう。

OLYMPUS DIGITAL CAMERA

“攻略本無しでスーパーマリオの100%のスコアを叩き出せるか?”というクエリになる。”without”の部分(”攻略本無しで”)を無視していれば、このクエリに対する正確な検索結果を出すことはできなかっただろう。実際、ゲイリー氏は”without”の扱いについて、以下のように説明している。

“かつて、クエリ内のwithoutの部分は無視されていた。RankBrainはwithoutの意味を把握するために素晴らしい仕事をしており、正確な検索結果を提供できている。”

我々が行った調査
GoogleとBingのサジェストから、50万のクエリを抽出し、データベースを構築した。そして、2015年の6月・7月と2016年1月の検索結果を比較し、正確に理解できていなかったクエリ(正しい検索結果を返していないクエリ)を探した。数を以下にまとめる。

  • 発見したクエリの総数 → 163
  • 改善された検索結果数 → 89
  • 改善された検索結果の割合 → 54.6%

また、改善の内容を下記にまとめる。

  • 改善された検索結果数 → 89
  • アンサーボックスの改良 → 39(43.8%)
  • マップの追加 → 2(2.2%)
  • 検索結果の改善 → 48(53.9%)

改善例1
“why are pdf so weak(なぜpdfは脆弱なのか?)”というクエリの例。2015年7月の検索結果はPDFファイルが検索結果の上位を占めていたが、2016年1月の検索結果ではPDFのセキュリティを解説したページが1位になっている。

OLYMPUS DIGITAL CAMERA

OLYMPUS DIGITAL CAMERA

改善例2
“Where is Celtics Bench?(セルティックのベンチの場所は?)”というクエリの例。”Where is”の解釈が改良されており、”セルティックファンにとってベストな席”というタイトルのページが1位になっている。

OLYMPUS DIGITAL CAMERA

OLYMPUS DIGITAL CAMERA

改善例3
“who is asking teachers to take a 20 pay cut(教師に20の減給を求めたのは誰?)”というクエリの例。ここで、”20”が”20%”を意味していることを理解するようになっている。

OLYMPUS DIGITAL CAMERA

OLYMPUS DIGITAL CAMERA

改善のまとめ
フレーズや単語の解釈の改善が見られた。また、”What is”、”Where is”、”Not”などといった特定の単語やフレーズの理解が進んでいた。また、珍しい名前、スペルミス、誤解がある(別の意味に解釈できる)単語、などの理解も進んでいるようだ。

SEOにおける影響とまとめ
今のところ直接的な影響はないと考えている。しかし、覚えておくべきことをまとめてみよう。

  • あいまいなフレーズのクエリでも、上位に表示される可能性がある
  • キーワード調査は、まだ、必要
  • 自然な言語で、強調を加えることができる

Q&A

OLYMPUS DIGITAL CAMERA

Googleによると、RankBrainは複雑なクエリの理解で使われている。

長いクエリを短いクエリに置き換え、同等の検索結果を提供する。しかし、このセッションでも話されたように、他の要素ともなっている。

ところで、我々は何をすれば良いのだっけ?
パンダやペンギンの時は、対応策が明らかだった。しかし、ハミングバードは完全にアルゴリズムを変えた。RankBrainもそのようなイメージ。(マーカス氏)

構造化データとRankBrain
構造化データは検索結果での表示を変える、という意味合いが強い。レビューとか、栄養素とか。ナレッジグラフでも、Googleは使用している。個人的には使うことをおすすめする。(マーカス氏)

構造化データは適切に設置されれば、強力なシグナルになる。(エリック氏)

RankBrainをスパムやブラックハットに使う方法は?(笑)
あとでこっそり僕のとこに来てくれ(笑)(エリック氏)

SEOは新しいことが出る度に、それを利用しようとする。コンテンツが話題になった時は、高品質なコンテンツのテンプレートをくれ、などとよく言われた。こういうのが問題だと思う。(マーカス氏)

他の言語ではどうだろうか?
アムステルダムで同じ調査をしたけど、Google.comよりも3年位遅れている印象。スパム的な感じが多かった。言語が複雑だからだろう。(マーカス氏)

RankBrainは、クエリの精製とシグナルの2つの話しが平行している。それが状況を難しくしている。AIがどうやってクオリティを決めるのか?複数の写真から猫を認識することはできる。だが、ベストな猫をどう決めるのか?(ダニー氏)

囲碁の場合、パターンを全て予測し、ベストな手を決定している。(マーカス氏)

それはルールがあるからでは?(ダニー氏)

オイルフィルターの例。オイルフィルターで検索した後、多くの場合で次のクエリが決まっている。そういったユーザー行動の影響もあるのでは?(エリック氏)

*色々と議論は尽きないという感じでした。

RankBrainを理解する上でカギとなるのが”関連性”であると考えています。ランキング要素や検索結果の改良にも重要でありますが、Googleが関連性を強調したのは今回が初めてではありません。良質な検索結果において、クエリとの関連性は必須の項目であり、Googleがかねてから発言していたことでもあります。そのため、「RankBrainが関連性を強調しているようだから、SEOにとっても大事なのだろう」と考えるのは適切ではないでしょう。個人的には、「Googleが提唱するベストプラクティスに実際のベストプラクティスがさらに近づくために使用されている技術」と解釈しています。Q&Aの内容からも、まだまだ議論が尽きないトピックだと感じたため、少々私的な意見を書かせていただきました。今回の記事を読まれた方の意見も聞ければ嬉しいです。また、このセッションにも登壇したSearchmetrics社ですが、ブログの掲載許可をいただいたので、近々SEO Japanで紹介させていただきます!– SEO Japan