Googleはどのようにして重複コンテンツの排除を行っているのか？

私たちが検索を行って、Googleが検索結果を返すまでにはいくつかの過程があります。
クローラーがwebページを巡回して新しいページを発見する「クローリング」、
検索エンジンのデータベースに登録して呼び出せるようにする「インデキシング」、
検索ワードに基きインデックスされた情報を用いて結果を表示する「クエリプロセス」
の３つのプロセスです。
今回は、SEOに大きく影響を与える「重複コンテンツの排除」が、この３つの中のどの過程で行われているのかについての記事です。– SEO Japan

Googleがどのように複製コンテンツを検索結果から排除したり、隠したりするかについては、たくさんの興味深い質問や回答がある。インデキシングの段階で行われるのか、それともクエリプロセスで行われるのか、はたまたその両方で行われているのか？

Googleのゲイリー・イェーシュ氏はTwitterで、「このトピックは、ブログで記事が書かれるだけの価値がある。自分か、Googleの誰かが書くべきだ」とつぶやいた。複製コンテンツは、常にウェブマスター、出版者、SEO業者らが意識しており、またSearch Engine Roundtableでも恐らく100回以上取り上げている内容だろう。

インデキシングから、検索結果を返すまでの検索過程で、Googleが複製コンテンツ、複製行為などにどのように対応しているのか？それを知ることはとても有益だ。

このトピックについてゲイリー氏はこのようにつぶやいている。

Page by page. Page A is compared to B for ex. contents match (by a margin), then they enter an auction & the winner gets to be the canonical

— Gary “鯨理” Illyes (@methode) 2017年8月31日

[質問者]
canonicalの処理はクエリ単位かページ単位かどちらで行われていますか？(私はクエリ単位ではないかと考えています)
[ゲイリー氏回答]
これに関してはページ単位で行ってます。例えばページAがページBと比較されているとします。コンテンツ同士が戦い、そしてオークションを行い、勝者がcanonicalになることができます。

The auction/canonicalization occurs during indexing, before the indexed contents end up in the serving trees, and it’s quasi-permanent

— Gary “鯨理” Illyes (@methode) 2017年8月31日

[質問者]
この「勝者」は、どの検索クエリが使われたかに関係なく、半永久的なステータスなのでしょうか？(つまり、いつ「オークション」は発生するのでしょうか？)
[ゲイリー氏回答]
オークション、canonical処理は、インデックスされたコンテンツが半永久的に勝者になる前の、インデキシングの過程で行われます。

This is a separate mechanism. Basically if during indexing we couldn’t eliminate dups, then this would try to take care of them. &filter=1

— Gary “鯨理” Illyes (@methode) 2017年8月31日

[質問者]
ありがとうございます！それではこのボタンは検索結果では隠れていたcanonicalを明らかにするのでしょうか？それとも別の何かをするのでしょうか？(検索語に依存するので)pic.twitter.com/qt6YxZdd0G
[ゲイリー氏回答]
これは別々のメカニズムです。基本的に、もしインデキシングの段階で複製コンテンツを排除できなかった場合は、「&filter=1」を使って対応します。

お分かりなられたと思いますが、Googleはインデキシング中はもちろん、クエリプロセスでも複製コンテンツに対応する可能性があります。またゲイリー氏が、Google内の他の検索結果と類似していることを表す「&filter=1」をどのように書いているかも注目。

このトピックはGoogleがカバーするのにとてもテクニカルで、興味深いトピック。本投稿はそれを支持しています。

この記事は、Search Engine Roundtableに掲載された「Google: Duplicate Content Elimination」を翻訳した内容です。

ご存知の通り、重複コンテンツはWebサイトにとって望ましいものではありません。
また、理解しているつもりでも絶対URLではなく相対的URLで書いてしまったり、
wwwの有無で統一していないと、重複コンテンツとみなされる場合もあります。
これを機に、canonicalタグの見直しなど行われてみてはいかがでしょうか？
— SEO Japan

投稿者:

SEO Japan

002年開設、アイオイクスによる日本初のSEOポータル。SEOに関する最新情報記事を多数配信。SEOサービスはもちろん、高機能LPOツール＆コンサルティング、次世代SEOに欠かせないインフォグラフィックを活用したコンテンツマーケティング等も提供。 SEOブログながら、ウェブマーケ全般。アドテク、ソーシャル、スタートアップ、インフォグラフィック等。 SEO Japan の投稿をすべて表示