「セマンティック検索」はホットな話題ではないが、検索および検索エンジンに対して、新たな一面、そして、影響をもたらしてきた。さらに、的を絞ったセマンティック広告に大きなインパクトを与えてきた。
セマンティック検索に関する今回の一連の特集記事では、セマンティック技術の発展の経緯、そして、商業ベースで存続可能となり、話題を集めるようになった理由を探っていく予定だ。また、このテクノロジーが単純な検索エンジンを超えた「答えを提供するエンジン」に進化し、ユーザーエクスペリエンスを改善した経緯にも触れていく。
例えば、グーグルでクエリ[Barack obama birthday]を検索した際の直接的な回答を以下に挙げる。
グーグルのインサイドサーチブログで行われた告知によると、これは「人工知能」エンジン、別名「スタートレック」エンジンの構築の序章に過ぎないようだ。
ナレッジグラフの告知を行うブログの最後に記されたアミット・シンガル氏のコメントは注目に値するものであった:
「グーグルは、はじめの一歩 – ナレッジグラフ – を踏み出し、検索をより知的にレベルアップし、私が思い描いてきた「スタートレック」のコンピュータへ近づくことに成功した。」
セマンティック検索
多くの人工知能、自然言語処理(NLP)、または、機械学習技術は「セマンティックテクノロジー」と言い変えることが出来る。セマンティックとは、「意味」を意味する。そのため、通常、セマンティック技術は、セマンティック検索だけを指すものではない。
しかし、例えば、セマンティックにターゲットを絞った広告、自動的なトピックの認識等、その多くは、検索の改善に活用することが可能である。多くのセマンティック技術は、語彙集や用語集と考えられる基本的なオントロジーを解読する。
「セマンティックSEO」をテーマとして挙げているため、今回は、セマンティックウェブに関連するコンセプト、そして、グーグルやその他のメジャーな検索およびソーシャルエンジンによる、セマンティック技術の採用をおさらいし、利用されているオントロジー – セマンティックやコンセプトを網羅する – そして、オンページの構造化マークアップを介してメタデータで定義される構文を紹介する。
セマンティック検索は、メタデータを使って(活かして)文書の検索を改善する考え方を指す。検索エンジンにおいては、メタデータをHTML 5で埋め込む行為を具体的に示している(セマンティックマークアップ、検索エンジンが現在対応しているフォーマットまたはHTML 5の構文: RDFa ライトとマイクロデータを使って)。
検索エンジンがメタデータを活用する仕組みとは
SERPのエンハンストディスプレイもその一つである(グーグルのリッチスニペット、ビングのタイル、ヤグー!のサーチモンキー)。また、エンハンストディスプレイは、ビジュアルの面でより魅力的なディスプレイおよびインターフェースを提供し、CTRを高くする傾向が見られる。
さらに、Sindice.com、グーグルのナレッジグラフおよびナレッジカルーセル等 – 消化されたメタデータを使って直接検索を実施する行為も、この情報を活用する一つの形である。
これは、一連の確率的な結果(青いリンク)を提供するエンジンから、“答えを提供するエンジン”への進化に大きく貢献している。ユーザーは、複数のクエリを実行して、一つのクエリに対する答えを得る(または得られない)行為を面倒に感じている。クエリに対する答えの関連性は最も重要であり、この目標を達成するために、セマンティック技術を活用することが出来る方法が幾つか存在する。
また、機械学習技術は、トピックの妥当性確認を裏付ける/改善する上でも活用することが可能である。それでは、過去のセマンティックウェブの採用を振り返っていこう:
- ヤフー!がサーチモンキーを立ち上げる: 2008年2月
- ビングがパワーセットを買収する: 2008年7月
- グーグルがリッチスニペットを用いたレビューおよびレビューのアグリゲートを導入する: 2009年5月
- グーグルがRDFaを使ってイメージのライセンスを特定する技術を導入する: 2009年8月
- グーグルが動画のRDFaのサポートを開始する: 2009年9月
- グーグルがリッチスニペットを利用して「ウェブを改善する試み」への支援を呼び掛ける: 2009年10月
- グーグルが組織を描写するための構造化データの導入を発表する: 2010年3月
- グーグルがレシピのリッチスニペットの発表を行う: 2010年4月
- グーグルがリッチスニペットの世界展開を発表する: 2010年4月
- フェイスブックが RDFaベースのオープングラフプロトコルの発表を行う: 2010年4月
- グーグルがメタウェブを買収する: 2010年7月
- グーグルがグーグルリファインの告知を行う: 2010年11月
- グーグルが買い物サイト向けのリッチスニペットの導入を発表する: 2010年11月
- グーグル、ヤフー!、ビングがSchema.orgの発表を行う: 2011年6月
セマンティック技術は関連する答えの提供に貢献する
このように、2011年6月、3つの主要な検索エンジンは歩調を合わせ、schema.orgのサポートを発表した。つまり、過去のマークアップ(RDFa)の標準を飛び出し、マイクロデータのみをサポートし(セマンティックウェブコミュニティの怒りを変え、後に態度を軟化させる)、そして、データを消化する検索エンジンの役割を論理的に受け入れ、その結果、高い標準、データの品質、そして、標準化団体の定義がもたらされたのであった。
一連のリンクだけでなく、実際のの関連する答えを提供することは、すべての検索エンジンが目指していた目標であった。このような答えは、上述したメカニズムを活用して、引き出せれるようになった。
ユーザーの意図の特定もまたセマンティック技術を活用することが出来る領域の一つである。 この取り組みは次の仕組みで実施される:
- クエリの一部、または、全体におけるクエリを正確に解釈する
- 信頼の高いソースで過去に認証された情報を使って、直接推測を行い、「有力な予測」を答えとして提供する
- 消化された情報を加える、または当該の情報を推測することで、このナレッジベース、ウェブ・オブ・データ、または、グラフデータベースを集約および増加させる。
例えば、グーグルのブログ等が説明しているように、HTML 5のように、エンベッドしたメタデータの形式でこの情報を作成または配信する取り組みによって、マイクロデータやRDFa ライトを追加することで出来る。しかし、これは検索エンジンが消化または理解することが可能な構文に過ぎない。因みに、HTML5は互換性がある。
語彙集(オントロジーまたはタクソノミ)も課題の一つに挙げられている。標準化は様々な分野でプラスに働くため、3つの検索エンジン – グーグル、ビング、そして、ヤフー!は、標準のschma.orgの語彙やオントロジーの利用を義務付けると2011年6月2日に発表した。この3社の検索エンジンが抱えるユーザーベースは巨大であるため、利用するオントロジーや語彙を強制する力を持っている。
一方で、セマンティックウェブコミュニティは、その他の多くの定義されたオントロジー/語彙を用意しており、オープンソースとして提供している(eコマース向けのGoodRelations、 FOAF、SIOC、Wordnet、DBpedia ? ウィキペディアから抜粋等)。
Schema.rdfs.orgには、自動的に構造化マークアップを生成するためのチュートリアル、ソフトウェア、そして、ツール等、すぐに始めたい人のためのリソースが豊富に提供されている。
それでは、引き続き、schema.orgの発表後のセマンティックウェブの採用を見ていこう。
楽曲のフォーマットが増える: 2011年8月
NFLのマイクロデータおよびスポーツのスタッツが登場する: 2011年8月22日
今後のコンサートのスケジュール: 2012年2月
アンサーエンジンになりつつある検索エンジン
この年表は、この記事を作成している時点では、2012年5月のナレッジグラフの導入およびカルーセル化によってクライマックスに達する。
ナレッジグラフは、フリーベースを直接拡大したアイテムであり、また、schme.orgで定義された、もしくはグーグルによって必要があると見なされた「構造化マークアップ」を介して消化されたその他の情報によって強化されている。
ナレッジグラフ自体は、クエリの右側に描かれる。これは、事実を基にした、または事実を集めた情報を介して、「答えを提供するエンジン」を目指すグーグルの取り組みの一つである。
2012年6月、ツイッターは「Twitter Cards」の告知を行った。これは、“コンテンツにリンクを張るツイートにメディアエクスペリエンスを加える”手段である。Twitter Cardsの詳細は、semanticweb.comの投稿で確認してもらいたい。
2012年7月、グーグルウェブマスターセントラルは、ウェブマスター向けの構造化データダッショボードを導入し、消化された構造化データを確認することが出来るようにした。グーグルがこの方針を強化する点を示唆するコメントがこのブログに掲載されている。
「構造化データはウェブのエコシステムにとって欠かせない役割を担う存在になりつつある。グーグルは特定のタイプのコンテンツを検索結果内で目立たせることが可能なリッチスニペットを含め、構造化データを様々な方法で活用している。業界基準のフォーマットおよびschemaを用いて、コンテンツをマークアップすることで、ウェブサイトは構造化データを活用することが可能である。
以下にschema.orgのbookに対する約200万のアノテーションに関するサイトレベルのデータを掲載する:
バンド「Coldplay」の結果の表示に注目してもらいたい。schema.orgのリッチスニペットのマークアップ(music等)がこの画面には明確に統合されている。
以下にナレッジカルーセルの機能(上部のスクロールバー)が組み合わされたナレッジグラフの画面を掲載する。ナレッジグラフは、単純にフリーベースやセマンティックウェブ関連の技術のような構造化マークアップを含む、その他の認証済みのページや信頼されているソースから延長されている。
以下の結果ページをもたらしたクエリは「Tom Cruise Movies」である。ナレッジカルーセルは、2012年9月より世界の英語ページに導入されている。
上の例を見れば一目瞭然だが、エンハンストディスプレイはSERPのスペースを吸収する。
セマンティックなマークを介してCTRが増加
セマンティックSEO(schema)においては、マークアップしたアイテムに対するCTRが高まる点、そして、ナレッジグラフ/カルーセルおよびリッチスニペットやその他のグーグルが集めた情報に、スクリーンのスペースが割かれる点(ナレッジグラフの結果が表示されることが多い、グーグルのRHS上の場所やイベント)もまた見逃せないポイントである。
以下に例を掲載する:
今後の展開においては、検索に対する情報を得る上でもグーグルに注目し、結果のグラフを確認する価値はある。そのため、私は[Semantic Search]で検索を行った。その結果を以下に掲載する。
拡大するセマンティック技術の利用
どの用語が最も多く検索されているのだろうか?下のグラフのピークは、ウォルマートのセマンティック検索エンジンのインパクトを示している(10-15%売り上げを押し上げる)。
また、グーグル、ビング、そして、その他の検索エンジンのバーティカルに対して、schema.orgの高い順位の用語が反映される点も注目に値する。下のイメージで、ユーザーが特定のバーティカルを選択する場合、クエリ内の意図を理解しやすくなる。/p>
ご自由に公式のschema.orgのサイトと比較してもらいたい。私は実験目的で、schema(owlバージョン)をロードした。
Protegeと言うツールを使って、結果の階層の画像を確認すると、素晴らしい図が出来あがる。私は[place]の拡大に焦点を絞ったが、好きな選択肢を選ぶことが可能である:
セマンティック SEOのメリット
結論を言うと、セマンティック SEOおよびセマンティック技術は、検索エンジンに多くの強力なメリットをもたらす。
- SERPでのディスプレイのビジュアル面の強化(リッチスニペット)
- 関連する答えに対して、検索エンジンが当該のデータを直接検索し、より関連する結果を取得する
- 検索エンジンが分類子やその他の機械学習メカニズムを使って、ページ上のトピックの情報を確認する
- ユーザーの意図を特定する上で支援する(コンテキストが再現率/関連性を改善する)
このシリーズでは、今後、具体的にバーティカルを取り上げる予定だ。バーティカル検索が関連性を改善し、ユーザーの意図を特定する仕組みの詳細を明らかにして、さらに、推奨エンジン、セマンティック技術広告等に用いられているセマンティック技術に注目していく。
この記事の中で述べられている意見はゲストライターの意見であり、必ずしもサーチ・エンジン・ランドを代表しているわけではない。
この記事は、Search Engine Landに掲載された「How Search & Social Engines Are Using Semantic Search」を翻訳した内容です。