そのデータの解釈、正しいですか? 「データドリブンSEO」のために知っておきたい5つのこと

はじめに

こんにちは、デジタルマーケティング事業部でアナリストをやっている森です。普段はアクセス解析やユーザーテスト、データ分析などを主に行っています。

多くのお客さまからご相談をいただく中で、「SEOの多くの数字を追っているが、施策への繋げ方がわからない」「データに基づく施策を行っても成果につながっていない」という声をよくいただきます。

データに基づく意思決定をする上で、正確なデータをとれていることは当然必須ですが、そのデータを正しく解釈できているかも重要になります。

そこで「データを解釈する際に注意しなければならないこと」をSEO対策の文脈からご紹介します。

  • データを見てもどう施策に落とせば良いかわからない
  • 自分のデータの見方が正しいか不安
  • データから意思決定した施策を行っているつもりでも成果が出ている実感がない

という方、ぜひご覧いただければと思います。

前提:SEOにおけるデータに基づく意思決定の難しさ

日々サイト運営をする中で、

  • 「外部リンク数もコンテンツ量も負けていないのに競合より順位が低い」
  • 「サーチコンソール上での平均順位は上がっているのにセッションは増えていない」
  • 「施策の結果良くなった指標も悪くなった指標もあり、結局横展開して良いか判断できない」

など、データにまつわる悩みを持つことは多いのではないでしょうか。

自社・競合問わず様々な数値を見れるツールが日々登場していること、またページスピードのようにGoogleが順位評価に用いると明言する指標も増えていることから、SEOにおいてデータを扱う難しさは年々増していると言えます。

またデータの解釈の際には人間の心理的なバイアスと、基本的な統計知識の双方を踏まえることが重要です。双方について、日々業務に追われる中でも最低限知っておきたいポイントをご紹介します。

データ分析をする際におさえておきたい5つのポイント

①人間の持つバイアスについて意識的になること

人は合理的に判断しているつもりでも、実際は当人の考えや周囲の環境の影響で無意識のうちに偏った認識や判断をしています。これを認知バイアスといいます。特に下記のようなバイアスはSEOの実務の場でもよく起こりがちです。

確証バイアス

確証バイアスとは、「人は意見の是非を判断する際に、自分の考えを立証する情報ばかり集めてしまい、反証する情報に注目しない傾向にある」というものです。

例として、複数のキーワードの順位に影響するような改修を行った後、効果検証を行うと想定します。

あるキーワードでは順位が向上し、別のキーワードでは下落していた際に、上昇しているキーワードばかりに着目し成功だったと判断してしまう、ということはよくあるでしょう。

こうした結果、実際には失敗であったり、効果のない施策であるにも関わらず、成功だとして横展開してしまう、という恐れがあります。

対策としては、「判断をする時はまずは反証となる情報から探す」「自分の主張を支持するデータが見つかっても、反するデータがないかを意識的に検討する」といったことが挙げられます。

認知的不協和

認知的不協和とは、「有する複数の情報に矛盾が生じた時、人は不快感を抱き、矛盾を解消しようという動機が生じること」です。

多大なコストを支払い、成果が出ると喧伝してリニューアルを行ったにも関わらず、数ヶ月たっても順位も流入も右肩下がり、となったとします。

「失敗できないプロジェクトなのに失敗した」という矛盾する認知を抱えた時、人は

  • 実は最初から自分も成功する確率は低いと思っていたと言う。
  • 失敗したのではなく、向上している数値もあるのでこれは成功だと認識する。

のように、どちらかの認知を変えて不協和を解消しようとします。

この結果、対応策を打つべきなのに現状への認識が阻害されることで対処が遅れる、という悪影響が起こりえます。

このように、人の認識には合理的でない部分が非常に多く存在します。回避することは難しいですが、普段から自分の思考や判断をできるだけ客観的に捉えることで、少しでも正しい分析をできるようにしましょう。

②仮説思考をもつこと

データを見る際に犯しがちな過ちとして、「まずは色々な数値を漠然と見てから何が問題か考えよう」としてしまうことがあります。

SEOにおいて追うことのできるデータの種類は膨大のため、このアプローチでは忙殺されるうちに目的を見失ったり、時間ばかりかかって時期を逸することがあります。

またアルゴリズムは多数の変数により成り立っているため、SEOにおいて1つの指標が決定的に悪いということに必ずしもならず、データを眺めても結局何が課題かは見えてきません。

データを見る際には、

  • 掲載されている求人数が上位サイトに負けているのではないか
  • テキスト量で劣っているのではないか
  • 各テンプレートのページスピードにおいて競合に劣っているものがあるのではないか

など、検証可能な仮説を持った上で分析を行うべきです。

成果のために大事なことは改善すべきポイントを見つけ、改善し効果検証を行うというサイクルを繰り返し行うことです。

③「平均」だけを見ないこと

データベース型やメディア型のサイトでありがちですが、

  • 「一覧ページに対応するキーワードの順位状況を見たい」
  • 「特定カテゴリの各記事の流入推移を見たい」

といった時に、平均順位やセッションの平均を見ることは多いと思います。

しかし、平均は「極端に大きい・小さい数値(外れ値と言います)の影響を受けやすい」という欠点があります。

例として、施策前後での効果検証を対象キーワードの順位で判断するとします。下記のように5キーワード中1キーワードだけ変化が大きかった場合、好調だったキーワードの下落を平均しか追わないことで見逃す恐れがあります。

順位の変化

これを避けるためには、

  • 分析前に、データ全体の分布を見ること
  • 分布や目的に合わせ、平均値・中央値・最頻値といった数値の中から適切な代表値を選ぶこと

が必要です。

データの分布を見る

データの分布を見る際にはプロットや箱ひげ図が効果的です。視覚的にデータを表すことで、データの偏りを直感的に理解することができます。

下記はある記事メディアサイトでの事例です。ページごとにある指標をスコアリングし、スコアごとの月間自然検索セッション数を図示しています。

※一部マスキングしています。

※両グラフは同じデータソースを使用しています。

プロット

プロット

箱ひげ図

箱ひげ図

箱ひげ図は、データの分布を表すのに使われるものです。中央の線が中央値、箱の上が第1四分位点(大きい順に並べた時に上から1/4の数値)、箱の下が第3四分位点(上から3/4の数値)を表します。上下のひげ部分は上位・下位25%の領域を表し、線の上端が最大値、下端が最小値を表します。この表し方をすることで、平均からは判別できないデータのばらつきや傾向を把握できます。

このように2種の図示を行うことで発見があります。プロットの場合、どのスコアの場合にセッション数が増加するか判別できません。しかし箱ひげ図を見るとスコア7までは大きくは分布が変化しないですが、スコア8からは第1四分位点、中央値ともに上がっていることがわかります。また8から12までは大きくはセッション数が増加していません。

このことから、

  • セッション数を高めるためにはまずはスコア8まで上げることが必要
  • スコア8から先は12まであまり効果は出ないため、8まで到達したら他の施策の優先度を高めるべきでは

といった仮説を持つことができます。

このように分析を行う前に図示することで、データの分布を直感的に理解し、大まかな傾向を把握することができます。

適切な代表値を決める

データの全体感を掴んだ後は、どの数値を追うかを決めます。データの特徴を表す数値(代表値)の主なものは平均値・中央値・最頻値の3点です。

  • 平均値とは「全ての数値の和をデータ数で割ったもの」
  • 中央値とは「数値を順に並べた時に中央に来るもの(例:データ数が49個なら25番目の数値)」
  • 最頻値とは「最も出現回数が多い数値」

を指し、それぞれデータの分布や目的により適切なものは変わります。

例として

  • 同じ階層のランクインページに対応する各KWの順位推移を見たい場合、外れ値が多くないのであれば平均値で追うことが良いです。ただし常に外れ値がないか検証した上で、必要に応じて除外するなどの処理が必要になります。
  • 記事メディアで、カテゴリ内の各記事の流入状況を見たい場合、流入は記事により多いものからほぼ0のものまでばらつきが大きくなります。そのため、平均値で見るよりは中央値で追ったり、「一定セッション以上の記事数」などで追うことが良いでしょう。
  •     

※上記ケースも一概には言えず、状況により最適な代表値は異なります。

このように、ただ平均を使うのではなく、データに合わせて追う数値を適切に選ぶことが必要です。

④相関と因果を取り違えない

SEOにおいてデータ分析を行う際に避けられない「特定キーワードの上位表示要因調査」を行うと想定します。

その結果、例としてある記事コンテンツに対応するキーワードで 「上位サイトはどれも滞在時間が長い一方、下位サイトは滞在時間が短い。滞在時間の長さこそが上位表示の要件だ。よって滞在時間を伸ばすためにページ内に動画を入れよう」という考察を行ったとします。これは正しいでしょうか。

こうした分析の際に抑えなければいけないのは「因果関係」「相関関係」「擬似相関」の3点です。

  • 因果関係とは「Aの結果Bが起こっている関係」
  • 相関関係とは「Aが変化すればBも伴って変化する関係」
  • 疑似相関とは「隠れた変数Cが変化することでA・Bが共に変化することにより、実際はないにも関わらずAとBに因果関係があるかのように見えること」

を指します。

因果と相関

これを踏まえると、冒頭の例は「ページ内のテキスト量(=C)が多くなるほど順位(=A)も滞在時間(=B)も上がり、少なくなると順位も滞在時間も悪化する」という、順位・滞在時間ではない変数による疑似相関の可能性があります。

そのため、「滞在時間が長くなれば順位も向上するはずだ」は成り立たず、コストをかけて動画を作成しても成果に繋がらない可能性があります。

※もちろん、動画の追加により別のランキング要素に好影響が及ぼされることで順位が変化し、結果的に成果が出ることはあります。

こうした事態を避けるために、一見因果関係がありそうな複数の変数が見られても、別の可能性がないか検討することを忘れないようにしましょう。

⑤正確な順位シミュレーションは原理上不可能

多く寄せられるご相談として、「施策を実施した場合の順位/流入/CVのシミュレーションを行ってほしい」というものがあります。社内報告や稟議のために予測を求められる担当者の方も多いでしょう。

しかし、SEOにおいて正確な順位のシミュレーションを求めることは原理上できません。

理由としては

  • Googleのアルゴリズムが日々変化している以上、どんなに精度の高い予測を行おうともそれは現時点でのアルゴリズムに基づく予測であり、今後行われるアルゴリズムの変化は予測しえないため
  • 予測のためにキーワードを選定しても膨大な流入キーワードの一部でしかなく、多くのロングテールキーワードを加味できないため

の2点が大きな理由となります。

もちろん、投資判断や社内稟議のために
キーワードの検索ボリューム×(目標順位のCTR-現状順位のCTR) (×CVR) の総計
のように簡易的ですがある程度のレンジでの流入やCV予測を行うことは良いでしょう。 (投資のリターンが百万円台なのか千万円台なのか億を超えるのか、くらいのレンジです)

しかし、それ以上に正確な予測を行おうとしても不可能であり、仮にモデルを構築してもすぐに変わってしまいます。実際、弊社にご相談いただいて予測を行う際も、正確性を求めすぎるのではなく投資判断できる程度まで算出する形をとることがほとんどです。

成果を出すためにはアルゴリズムの解明や予測に意識を向けるのではなく

  • Googleのガイドラインスターターガイドに従い、ユーザーのためになる施策を行うこと
  • 改善と検証のサイクルを手数多く行い、より効果のある施策を見つけ出すこと

などを通し、長期的にユーザーにとって利便性の高いサイトにしていくことが重要でしょう。

※2018/5/25 追記

「アルゴリズムがブラックボックスであること」がシミュレーションが困難である要因ではという意見をいただきました。確かにアルゴリズムがブラックボックスであることは要因の一つではあります。しかし仮に変動がなかったり、変動頻度が少ないのであればモデルを組むことである程度解明できるでしょう。変動が激しいことが最も大きな要因と言えます。

総括

以上、いずれも基本的な話ですが、SEOでデータを扱う上で最低限意識したいことをまとめました。

計測できるデータ量を増やしたり、そのダッシュボード化をしたりすることに意識が向けられやすい風潮ですが大事なことはその上で正しい考察を導きだすことです。

正確なデータと、そのデータの正しい解釈があって初めてデータドリブンな意思決定をすることができます。

成果を出すためにも、上記のような考えを踏まえて日々施策に取り組んでいただければと思います。

備考

弊社ではWebアナリティクスの第一人者である清水誠氏を顧問に迎え、「検索顧客の体験」を可視化し分析を行う「カスタマーアナリティクス」を応用したコンサルティングを行っています。以下記事をご覧ください。

カスタマー視点とアナリティクスでSEOはこう変わる ※清水氏寄稿

ユーザーの検索体験を「SEO成果指標」として可視化する方法(概念と準備編)

そのデータの解釈、正しいですか? 「データドリブンSEO」のために知っておきたい5つのことナイル株式会社 - SEO HACKSで公開された投稿です。