Googleは記事の著者をどのように特定しているのか?オーサーベクトルと特許について

何らかの情報を得るために記事を読む際、「記事を書いている人は誰か」ということは、マーケティングとしても情報の信頼性の担保としても非常に重要だと思います。かつて、Googleはオーサーシップ・マークアップを用い、それを特定することを試みていました。

しかし、すでにオーサーシップ・マークアップは廃止となっています。それでは、Googleはどのようにして、コンテンツの著者を特定しているのでしょうか?

あくまで、Googleが申請した特許の内容の紹介であり、実装しているかどうかは不明ではありますが、非常に興味深い記事を紹介させていただきます。

GoogleはWeb上の特定のコンテンツを誰が作成したか、気にかけているのだろうか?

また、そのような情報を検索結果の順位付けに使用しているのだろうか?

我々にそれを知る術はない。

しかし、Googleはコンテンツの著者についての特許を出願しており、そこには、コンテンツの作成者が何かをどこかで公開したことを指し示す方法について書かれている。

私自身の”著者”への興味

私はSEOに関わる以前からずっと、著者に対しての興味があった。検索関連の特許も多く目にしている。

最も有名であり、私が最も好きな英語の物書きは、ウィリアム・シェイクスピアである。彼は有名な舞台劇を多く書き、今日においてもそれらは上演されている。ハムレット、マクベス、テンペストなどが有名だろう。

シェイクスピアは英語という言語の一部となるようなフレーズを多く生み出した。例えば、「光るものすべて金ならず」のように。

しかし、彼を有名たらしめたそうした舞台劇や詩の作者が本当にウィリアム・シェイクスピアであったかどうか、それを示す確固とした資料は存在しない。

そのため、脚本家のクリストファー・マーロウなど、「シェイクスピアが書いたとされる作品の本当の作者が別にいるのではないか」という疑惑は何度も発生している。

私が大学で英語学を専攻していた頃、我々は多くの著者と、彼らが物を書くうえでのスタイルを研究してきた。

学生としての我々の役割は、各作者の癖を知ることだった。その癖をよく知るようになれば、とある作者が書いた作品を読むだけで、その著者の情報がなくとも、誰が書いたかを特定できるのだ。

その著者の作品を十分に読み込むことで、だんだんと特定できるようになる。

英語学の授業で我々が学んだ作者とその作品例をいくつか挙げてみよう。

トーマス・カーライル

イギリスのルネッサンス時代の著者だ。哲学や歴史について書き、「衣装哲学」という本が有名だ。

この国の文化の現状、そして、科学の灯火が2千5百年以上も、誇示されながら一定の効果がでていること、特に最近は、その灯火が、変わることなく、猛々しく燃えさかっているだけでなく、そこから火を与えられた無数の灯心草ろうそくや硫黄のマッチも、あらゆる方向で閃めき、自然界や芸術の世界のどれほど小さなすき間や小穴も、光の届かない場所がないことを考える際、衣装の題目について、哲学でも歴史の観点からでも、基本となる書物が今でさえほとんど書かれていないことは、分別のある人にとっては、多少不思議に感じるのは当然のことだ

アーネスト・ヘミングウェイ

アメリカの小説家であり、読みやすいコンテンツで知られている。「老人と海」という本が有名だ。

彼は年老いた男で、メキシコ湾流にて、小型船で釣りをしていた。一匹も魚が釣れないまま、84日が経っていた。最初の40日間は、小さな少年が彼と一緒にいた。

しかし、魚が釣れないまま40日が経過した後、その少年の両親は、その年老いた男は確実に”サラオ”であると、少年に伝えた。

”サラオ”は最大級の不幸であり、そして少年は他の船に乗り込んだ。そこでは、最初の1週間で3匹の素晴らしい魚を釣り上げた。

ウィリアム・フォークナー

アメリカの小説家であり、意識の流れのスタイルで書かれた、長いセンテンスで知られている。「響きと怒り」という本が有名だ。

7時から8時に間に、サッシの影がカーテンにあらわれると、私はやがて、時計の音を再び耳にする。それは祖父のものであり、父がそれを私に与えた際、彼は私に「あらゆる希望と願いの霊標を与える」と私に伝えた。これを使うことで、自身が求めるものと同じである全ての人間の経験を、彼や彼の父親のものと同じくらいに素晴らしいものにするのは非常に耐え難い。

私がこれを与えるのは、時間を忘れないようにするのではなく、時間を征服することに時間を使わないために、たまには時間を忘れるようにするためである。

なぜなら、そこには、勝利に値する戦いはないのだから。と彼は言った。彼らは戦ってすらいない。そのフィールドは彼自身の愚かさと絶望を人々の目にさらすだけであり、そして勝利とは、哲学者と愚者の幻想に過ぎないのだ。

Googleの”著者”への興味

私は2007年に、エージェント・ランクの特許についての記事を書いた。

エージェント・ランクは、そのページの著者、編集者、コメンテーター、批評家の身元に基づき、ランキングを上昇させる可能性があるレピュテーション・スコアについて述べている。

その後、ソーシャルネットワークのGoogle+が登場した際、コンテンツとGoogle+のプロフィールを結びつけることができる、オーサーマークアップをGoogleは導入した。

私がSEOに初めて出会った頃、Googleが私ほどの著者への興味があるとは思ってもなかった。しかし、Googleが申請した特許を見ることで、彼らも著者への興味があることを知った。

Googleがコンテンツの著者を見る際に用いるプロセスやアルゴリズムの簡単な変遷を振り返ってみよう。

ページに関連付けられたエージェントに基づき、ランキングに寄与するエージェント・ランクとレピュテーション・スコア

2007年、私はエージェント・ランクの特許についての記事をSearch Engine Landで公開した。

エージェント・ランクの原案では、ページ内のコンテンツの作成に関わった全ての人々(著者、パブリッシャー、編集者、批評家)は、そのページのコンテンツにデジタルの署名を残すことができた。

それらエージェントのレピュテーション・スコアは、そのコンテンツのランキングに寄与する。

エージェント・ランクの特許は何回か更新されたが、実際にリリースや実装された形跡はない。

その特許の考案者は、今でもGoogleにいる。

エージェント・ランクがオーサーシップ・マークアップの実装に影響を与えた可能性はあるだろう。

もちろん、それを知る術を我々は持っていないが。

Google+のオーサーシップ・マークアップ

オーサーシップ・マークアップは、Google+のプロフィールを用いる形で実装された。Google+であなたとつながっている誰かによって作成されたコンテンツのランキングに影響を与える可能性があった。

Googleはオーサーシップ・マークアップに関連したいくつかの特許を申請している。

それらについては、「申請されたオーサーシップ・マークアップの特許」、という記事を私は書いている。

オーサーシップ・マークアップの詳細、その使われ方、そして、その終焉については「Googleのオーサーシップ・マークアップの終焉」という記事をSearch Engine Landで公開している。

オーサーシップ・マークアップの代わりは何か?という疑問

Googleがオーサーシップ・マークアップの使用をやめるとアナウンスした数年後、とある発表がGoogleのスポークスパーソン達から告げられた。

彼らは、オーサーシップ・マークアップを削除することは問題ないと告げ、その理由を下記とした。

我々はもうこれ以上、オーサーシップ・マークアップを使用しない。それを上回るアルゴリズムを持っている

これ以上の情報を、我々は伝えられていない。

このことについては、「オーサーシップ・マークアップの削除は問題ない。Googleはもうこれ以上使用しないのだから」という記事を読んでいただきたい。

オーサーシップ・マークアップの正当な後継者は何なのだろうか?

Googleの品質評価ガイドラインにはコンテンツの作成者の評判に言及している

Googleは品質評価ガイドラインを公開しており、度々更新されている。

Googleは人間の評価者へ、Googleが評価するコンテンツについての情報を提供しており、我々は品質評価ガイドラインを通して、その考えに触れることができる。

品質評価ガイドラインには作成者の評価について書かれたセクションがある。それは、前述のエージェント・ランクの特許で言及されているレピュテーション・スコアを私に思い起こさせる。

こちらについての詳細は、「Googleの品質評価ガイドライン:新しいGoogleによる作成者への評価:サイトオーナーと作成者のためのガイド」、という記事を参照いただきたい。

この記事と品質評価ガイドラインを読む限り、「コンテンツの作成者」とは、どうやらGoogleが理解しようという興味の対象であるようだ。

Googleでのオーサー・レピュテーション

この記事内で紹介したいくつかの記事やGoogleが申請した特許の中で、Googleは著者情報について言及している。

この記事は、新しいトピックを追加することを目的としているため、その歴史についての情報を扱っている記事をいくつか紹介したい。

著者情報の歴史についての情報、また、それはGoogleがランキングに使用しているものではないと伝えるいくつかの記事を追記しよう。

こうした記事を紹介することで、明らかにしたいことがある。

Googleによる著者情報はSEO業界で頻繁に議論されているトピックであり、多くの見解が存在するということだ。いくつか見てみよう。

なぜ、オーサー・レピュテーションは検索にとってかつてないほど重要なのか(英語)
SEOの3本柱:権威性、関連性、信頼(英語)
Google:我々はオーサー・レピュテーションをベースにWebサイトを順位づけしない(英語)

誰が何を書いたのかを理解するためのオーサー・ベクトルについての新しいGoogleの特許

Googleはこの3月、ニューラルネットワークのアプローチを用いた、テキスト分類のトピックについての特許を与えられた。

これは、「専門性と権威性を分類するためにWebサイトの表現ベクトルをGoogleは用いる」という記事で言及した特許を私に思い起こさせる。

表現ベクトルの特許は、ニューラルネットワークを用い、該当のサイトで発見された特徴をもとに、複数の業界や専門性のレベルに分類するというものだ。

オーサー・ベクトルの特許は、どのようにWebサイトを分類するかについて書かれている。

テキスト分類システムは、電子テキスト(例:電子ドキュメント)の一部を分類することが可能だ。例えば、テキスト分類システムは、テキストの一部を、予め定められたトピックのセットや特定のトピックに関連するものとして分類することができる。

テキスト分類システムの中には、テキストの一部の特徴をインプットとして受け取り、その特徴を用いてテキストの一部の分類を生成する。

また、この特許では、ニューラルネットワークの作用についての言及もある。

ニューラルネットワークは機械学習モデルであり、1つ、または複数のモデルのレイヤーを使用し、アウトプットを生成する。例えば、インプットとして受け取ったものに対する分類だ。

アウトプットのレイヤーに加え、1つ、または複数の隠れたレイヤーを含むニューラルネットワークもある。それら隠れたレイヤーのアウトプットはネットワーク内の次のレイヤーのインプットとして使用される。

例えば、次の隠れたレイヤーやネットワークのアウトプットレイヤーである。ネットワークの各レイヤーは各パラメーターの現在のバリューと一致したインプットからアウトプットを生成する。

この特許のプロセスはどう作用するのか?

まずは、単語のシーケンスのセットの取得から始まる。この単語のシーケンスのセットは、複数の第1の単語シーケンスを構成する。

これら第1の単語シーケンスに対し、第2の単語シーケンスは第1の単語シーケンスに続く。

それら第1と第2の単語シーケンスは、特定の著者によって書かれたものであると分類される。

ニューラルネットワークのシステムは特定の著者を判断するためにこれらの単語のセットで訓練され、オーサーベクトルは特定の著者を特徴づけるために使用される。

特許の内容は、そのプロセスに従うことの利点を説明している。

特定の著者を効果的に特徴づけるオーサーベクトルは、そのテキストが誰によって書かれたかというラベルが無くとも、その著者によって書かれたテキストから生成される。

一度生成されれば、オーサーベクトルは、その利用の文脈によって、その著者の異なるプロパティを特徴づけることができる。

オーサーベクトルをクラスタリングすることで、似通ったコミュニケーションスタイルと個性を持つ著者のクラスタが、効果的に生成される。

一度生成されれば、オーサーベクトルと、副次的にそのクラスタは、複数の目的で効果的に使用される。

この特許の情報を記載しよう。

  • Generating author vectors
  • Inventors(発案者): Brian Patrick Strope and Quoc V. Le
  • Assignee(受託者): Google LLC
  • US Patent(米国特許): 10,599,770
  • Granted(付与日): March 24, 2020
  • Filed(出願日): May 29, 2018

概要

オーサーベクトルを生成するための、コンピューターのストレージメディアに保管されているコンピュータープログラムを含む、手法、システム、装置。

手法の中には、単語のシーケンスのセットの獲得方法を含み、単語のシーケンスのセットは複数の第1の単語シーケンスと、それぞれの第1の単語シーケンスに続く第2の単語シーケンスから成り、ここで、各第1と第2の単語シーケンスは第1の著者によって書かれたものとして分類される。そして、第1の著者用のオーサーベクトルを決定するために第1と第2の単語シーケンスをもとに、ニューラルネットワークのシステムを訓練し、ここで、オーサーベクトルは最初の著者を特徴づける。

前述したトーマス・カーライル、アーネスト・ヘミングウェイ、ウィリアム・フォークナーの例では、どの文章を誰が書いたかを特定することは、比較的容易であった。また、彼らが書いた他の作品も同様だ。

ある程度は、この特許のポイントもここになる。

Googleは、著者のスタイルを学び、理解し、それらを区別できるようになるため、ニューラルネットワークを活用している。

この特許には下記の内容が書かれている。

特定の著者のためのオーサーベクトルのシステムから生成されたオーサーベクトルは、著者を特定する数的価値のベクトルである。

特に、オーサーベクトルの使用の文脈によっては、オーサーベクトルは、著者の1つ、またはそれ以上のコミュニケーションのスタイル、著者の個性、その著者が選択する特定の表現の可能性、また、それら以外のその著者の特徴を特定する。

この特許は特定の著者によって書かれたコンテンツのうち、下記の項目を見ている可能性がある。

  • センテンス
  • パラグラフ
  • 複数のパラグラフの集積
  • 検索クエリ
  • その他、複数の自然言語の集積

オーサーベクトルの観点からのアドバイス

Googleはコンテンツを作成した著者についてのデータを収集している。

それらは下記の複数のアプローチを含む可能性がある。

・レピュテーションスコアなどの生成

・Google+のようなソーシャルネットワークで他の人と結びついているかもしれない人々によって構成されたオーサーシップのようなアプローチをベースとした、コンテンツの順位付けへの寄与

また、Googleは下記のアプローチを発達させるためにニューラルネットワークの活用を模索している可能性がある。

  • クエリ内の言葉の文脈をよりよく理解する
  • Webサイトをより良く分類する
  • コンテンツの著者が誰であるかを理解するのを容易にする

全ての著者がウィリアム・シェイクスピアではないが、我々はウィリアム・シェイクスピアが誰であるかを本当に知っているわけではない。

それぞれの著者が異なるライティングスタイルを持ち、専門性のレベルも異なり、トピックへの興味も異なる。

Googleはこの特許によって、彼らがラベル付けされていない著者を特定できる可能性があることを、我々に伝えている。

この新しいアプローチが、オーサーマークアップの代替となるのだろうか?

少なくとも、とあるGoogleの社員は、「オーサーシップのマークアップは不要であり、Googleはどの著者が何のコンテンツを書いているかを十分に理解するほど賢い」と我々に伝えている。

これは、2016年の話だ。

オーサーベクトルの特許は、2018年に米国特許商標局へ出願されている。

それがいつ開発されたものなのか、我々が知るすべはない。

Googleがどの程度オーサーベクトルを用いているのか、それについての確証もない。

しかし、「Googleはコンテンツの著者が誰であるかをより良く特定できるようになっているのかもしれない」ということを我々は知ってしまっているのである。

この記事は、Search Engine Journalに掲載された「Author Vectors: Google Knows Who Wrote Which Articles」を翻訳した内容です。
コンテンツの著者を特定する方法をGoogleが試みているようだ、という記事でしたが、非常にGoogleライクなアプローチだと思いました。とても難解なプロセスを経ているという感覚ですが、あくまでも特許の内容であることは心に留めておこうと思います。

検索とは別の話になりますが、記事中にもあったシェイクスピアの件に関して、なんらかの証明ができたとすれば、それはそれで非常にワクワクしますね。

メールマガジン購読・SEO Japan Miniのご案内

SEO Japanでは、2週に1度メールマガジンを配信しています。

SEO業界の動向を受けたコラムや、記事の更新情報などが中心です。ぜひご購読ください。

また、SEO Japan Miniというオリジナル記事を配信するメディアも始めました。SEOやWebマーケティングに関する記事を執筆しています。
ぜひお読みいただけると幸いです。

SEO Japan Mini - アイオイクスのオウンドメディア

投稿 Googleは記事の著者をどのように特定しているのか?オーサーベクトルと特許についてSEO Japan|アイオイクスのSEO・CV改善・Webサイト集客情報ブログ に最初に表示されました。

投稿者:

SEO Japan

002年開設、アイオイクスによる日本初のSEOポータル。SEOに関する最新情報記事を多数配信。SEOサービスはもちろん、高機能LPOツール&コンサルティング、次世代SEOに欠かせないインフォグラフィックを活用したコンテンツマーケティング等も提供。 SEOブログながら、ウェブマーケ全般。アドテク、ソーシャル、スタートアップ、インフォグラフィック等。