検索は変わり続けている — そして、変化のペースは早まる一方である。徐々に、検索結果の自然な要素は姿を消し、その代わりに、ナレッジグラフの情報が登場している。
しかし、文書(ウェブページ)の検索から、データ(ナレッジグラフ)の検索への移行は、まだ始まったばかりである。
ここで、Googleの使命を思い出してもらいたい:
Google の使命は、世界中の情報を整理し、世界中の人々がアクセスできて使えるようにすることです。
この使命を果たすため、ナレッジグラフが構築された。ナレッジグラフには、エンティティ、そして、別のエンティティとの関係に関する情報が含まれており、Googleは、キーワードの文字列としてではなく、明確なエンティティとして、検索クエリを認識することが出来る力を持つ。キーワードベースの検索から、エンティティベースの検索にさらに移行するようになると、サイト内のデータの質が生命線となる。
つまり、未来の検索結果で、サイトを見つけてもらえるようにするためには、ウェブページ上に存在するエンティティを検索エンジンに理解してもらう必要があるのだ。
検索エンジンのテクノロジーは、2つの形式で、コンテンツからエンティティの情報を抽出することが出来る — 1つは、(構造化データマークアップを使って)明示的な形式で、そして、もう1つは、(自然言語を用いて)黙示的な形式である。
明示的 vs 黙示的
検索エンジンが、ウェブページ上の構造化データマークアップを吸収することによって、セマンティックウェブテクノロジーが用いられ、明示的なエンティティの取得が行われる。
黙示的なエンティティとは、エンティティの情報が、ウェブページのテキストから引き出され、もしくは、推測されるケースを指す。このエンティティを取得するために、通常、NLP(自然言語処理)等の確率アルゴリズムや同様の情報検索の手法が用いられる。
(ウェブページ上の明示的なエンティティと黙示的なエンティティの双方を特定する際に役に立つツールをリストアップしているので、興味がある方は、前回の投稿を確認してもらいたい)。
重要: 黙示的なエンティティと明示的なエンティティの双方が、同じシグナルを送る必要がある — つまり同じトピックであり、検索エンジンに送るトピックに関するポジティブなシグナルを強化する。
ナレッジグラフを拡大するschema.org
「ナレッジグラフに取り上げてもらう」ことに懸念を抱いているなら、schema.orgの構造化データマークアップをウェブページに配置することが不可欠である。
schema.orgは、HTMLの文書内に含まれる、様々な構造化データマークアップschemaを提供する。この構造化データマークアップがあると、検索エンジンは、エンティティを特定し、エンティティ間の関係を決めることが可能になり、その結果、質が高く、豊かで、より有益な検索結果が導き出されるようになる。
つまり、あるトピックにおいて、情報源として信頼され、適切な構造化データマークアップでページをマークアップすると、「ナレッジグラフ入り」の確率は高まる。続いて、schema.orgとJSON-LDを用いて、イベントをGoogleのナレッジグラフに登録する方法の例を紹介する。
イベントをナレッジグラフに送り込むには
注記: これから紹介する手順/例は、Google I/OのチュートリアルGoogle I/O(視聴したい方はここをクリック)、そして、Google I/O 2014の「Cayley」講座のスクリーンショットを参考にしている。
先程申し上げた通り、エンティティを理解すると、Googleが世界の「物事」、そして、ユーザーが検索する対象を理解する上で役に立つ。ナレッジグラフは、Wikipedia、Freebase、Google Map、FDA等、信頼の置ける情報源を活用している。
イベントに関しては、最高で、最も信頼の置ける情報源は、イベントの主催者である。従って、イベントの主催者の公式サイトから信頼の置ける答えを結果ページに表示させる動機を検索エンジンは持っていることになる。
下のイラストでも紹介されているように、「Keith Urban」のナレッジグラフの結果には、今後行われるショーのリストが掲載されている。検索エンジンは、公式サイトの構造化データを吸収し、この情報は、直接、ナレッジグラフに保存されている。
イベントの主催者には、イベントを自分のものにして、ウェブサイトをマークアップすることが求められている。ウェブをクロールする際、Googleは、マークアップを読み、ユーザーが当該の情報を検索している場合、結果を表示する。
ご覧のように、ナレッジグラフは、イベントに関する多くの情報、そして、結果を用いる。このケースでは、とりわけ、ナレッジグラフは、次のアイテムを活用する:
- SERP内のナレッジグラフのエントリ
- Google Mapのイベントのリスティング
- Google Nowの通知
schema.orgは、Googleはもちろんのこと、Yandex、Yahoo!、Microsoftの主要な検索エンジンにサポートされており、このタイプの情報を記述するための語彙/オントロジーとして最適である。
イベントのリスティングをマークアップするために用いるシンタックスに関しては、マイクロデータ、あるいは、JSON-LDのいずれかを好みに応じて選ぶと良い。利用するシンタックスを選び、継続して使う必要がある(個人的な意見ではあるが、JSON-LDの方が簡単だと思う)。シンタックスを選んだら、ウェブページ全体で(そして、マークアップする情報の種類によっては、ウェブサイト全体で)同じものを活用しよう。
イベントのタイプにおいては、出来るだけ具体的なサブタイプ、例えば「SportsEvent」を忘れずに利用してもらいたい。具体的なイベントのサブタイプに対して、home teamやaway team等の有益な属性を加えることが出来る。下の例では、Keith Urbanのウェブサイトは、「MusicEvent」をイベントのタイプとして利用している。
「offer」の情報に対して、チケットを販売する業者のウェブページのURLを加えている。すると、Googleは、チケット販売サイトを訪れ、当該の情報をチェックする。 それでは、ウェブページをマークアップする方法の例を掲載する。
このように、「offer」は、価格の情報、有効な日付、チケットの有無(InStock)、そして、チケットを販売するウェブサイトと共にマークアップされている。
マークアップを記述したら、次に有効かどうかを確認する。GoogleのEvents Markup Testerページで確認することが可能だ(その他のタイプの構造化データについては、Google 構造化データテストツールをチェックしよう)。
これで、Googleは、公式サイトをクロールし、イベントの公式チケット販売サイトをチェックし、この情報をナレッジグラフに保存するようになる。すると、ユーザーがこのデータを求めている時、検索結果で当該の情報を提供することが可能になる。
マークアップするべきイベントを主催するなら、楽しみながらマークアップを加えていってもらいたい。イベントとは関係のない業界でサイトを運営していても、このプロセスを理解しておくと、その他の構造化データマークアップの利用と似ているため、後々、役に立つことがあるはずだ。
モジレツ X、モノゴト O
エンティティをそのままの状態で、 — つまり、Googleも言っているように、文字列ではなく、物事として、考えることを薦める。未来の検索は、「キーワード」ベースのアイデアから距離を取り、「キーワードの密度」の居場所はない。先日、Google Research ブログに投稿された記事から、重要な箇所をピックアップしたので、読んでもらいたい:
ナレッジグラフでは、キーワードではなく、エンティティ、そして、関係を重視します。「バスケットボール」は、単なる文字列ではなく、私達が既に良く知っているアイテムに言及しています。エンティティに関する背景の情報は、重要なエンティティを判断する上で役に立つのです。バスケットボールの記事の作者は、読者が一般的な常識を持ち、また、スポーツに関する知識も多少持っていると推測します。背景の知識を用いることで、Googleは、WNBAが、一度しか現れていなくても、ベッキー・ハモンの記事の中で、重要なエンティティである予想することが可能になるのです。
要するに、セマンティックテクノロジーは、さらに改善されており、コンセプトを1度だけ言及すれば、検索エンジンが残りを推測してくれるのだ。従って、検索エンジンの、黙示的なエンティティを特定する力がアップするにつれ、自然言語は、ますます欠かせない存在になっていく。キーワードスタッフィングは、既に過去の遺物になったと言える。
重要なポイント
ナレッジグラフのために、ウェブページを最適化する上で出来ることは沢山ある。今回の投稿で説明した私の戦略をまとめておく:
- 狙いを絞るエンティティを特定する。
- オーディエンスが関心を持つトピックを決定する。
- 当該のトピックを取り上げいることを、構造化データマークアップを使って、検索エンジンに力強いシグナルを送る(明示的なエンティティ)。
- 情報を裏付け、サイトに配置するコンテンツを使って、シグナルを強化する(黙示的なエンティティ)。
- エンティティはキーワードではないので、キーワード扱いするべきではない。適切なコンテキストなら、例えほとんど言及していなくても、強力なシグナルになり得る。
この記事の中で述べられている意見はゲストライターの意見であり、必ずしもサーチ・エンジン・ランドを代表しているわけではない。
この記事は、Search Engine Landに掲載された「Demystifying The Google Knowledge Graph」を翻訳した内容です。