A/Bテストで陥りがちな6つの課題

日本でもABテストが大分一般的になってきた最近。多変量テスト等に比べると、とりあえず何パターンかページを用意してテストすれば良い手軽さも魅力ですが、SEO Bookが初心者テスターが陥りがちなミスや課題を記事にまとめてくれていたのでここに紹介します。 — SEO Japan

A/Bテストは、インターネットマーケティングの常套手段である。反応率を改善するには、ページを比較しなければならない。そして、反応率が最も高いページを選択する。

しかし、このように単純なコンセプトではあるが、A/Bテストを実施した経験があるなら、実際にはそれほど容易ではないことは、よくご存知のはずだ。例えば、結果が、消費者の行動における実際の違いなのか、あるいは、偶然なのか見極めるのは、非常に難しい。A/Bテストは、万能の選択肢なのだろうか？あるいは、特定の用途に適しているのだろうか？A/Bテストは、消費者が本当に求めているものを曖昧にしてしまうのだろうか？

この記事では、A/Bテストの初心者のために、A/Bテストの「あるある」を幾つか紹介していく。

1. サンプルの規模が不十分

テストを計画する。コールトゥアクション Aを持つページとコールトゥアクション Bを持つページを比較するためだ。そこで、PPCキャンペーンを有効にして、1日そのままの状態にする。

テストをやめると、コールトゥアクション Aが、コールトゥアクション Bよりも2倍コンバージョン率が高いことが判明した。そのため、コールトゥアクション Aが勝負を勝ち抜いたことになる。従って、このページを残し、オプション Bを除外する。

しかし、それが正解だとは限らない。

サンプルの規模が不十分なのかもしれない。100回のクリックをテストした結果、2つのページの間に大きな違いが現れていたが、1000回に達すると、この変化は現れなくなった。実は、結果は真逆だったのかもしれない。

それでは、どうすれば、統計的に十分なサンプルの規模を特定することが出来るのだろうか？この記事が数式を見事に説明してくれている。しかし、インターネット上には、エヴァン・ミラー氏の作品も含め、様々なオンラインサンプルサイズ計算機が存在する。また、大半のA/B計測ツールには、サンプルサイズ計算機が含まれているが、何を計算しているのか、どのように答えを出しているのかを理解し、テストの精度を裏付けるべきである。

要するに、十分な人数のオーディエンスをテストして、トレンドを特定したことを確かめる必要があるのだ。

2. 犠牲

コールトゥアクションの計測基準をテストしたい。ランディングページの「詳細はここから」リンクをクリックする人数を知りたい。テストを実施した結果、「購入する」よりも、「詳細はここから」をリンクに利用すると、クリックする人が増えることが分かった。

良かった良かった…で済ませてしまっていいのだろうか？

その結果、実際に購入する人数のコンバージョン率が下がってしまったら、問題ではないのだろうか？つまり、実際の売り上げを犠牲にして、ランディングページのクリックスルー率を改善したことになる。

だからこそ、テストを計画し、実行する際に、最終的な目標を明確にしておくことが重要なのだ。また、とりわけ、テストを行うために、プロセスを細かく刻んでいるなら、プロセスを全体として考察する必要がある。ある場所の変更が、別の場所に影響を与えることもあり得るからだ。

この例では、A/Bテストを行い、顧客の人数の合計に注目し、顧客の人数が増えたなら、成功と見なしている。唯一の目標が、例えば、品質スコアを改善するために、クリックスルー率を高めることなら、変更は、有効だったことになる。

3. なぜ？ではなく、何？

上の例では、「何？」を把握している。コールトゥアクションのリンクの表現を変えたところ、クリックスルー率が改善されている。しかし、「なぜ？」は、まだ分かっていない。また、言い回しの変化が、売り上げを減少させた理由も判明していない。

情報を求めている人達をより多く集めたからだろうか？サイトの本質に関して、買おうとする人達を混乱させてしまったのだろうか？ビジターは、このサイトでは製品を買うことが出来ないと考えたのだろうか？事前に価格の情報を比較することを望む人達が集まっていたのだろうか？

分からない。

しかし、問い続けている限り、良しとしよう。このような疑問は、A/Bテストのアイデアを増やしてくれる。より多くの質問、そして、願わくばより優れた質問を投げ掛けて、テストを継続的なプロセスに変えれば、様々な「なぜ？」の答えを見つけられる可能性は高まるはずだ。

4. 小型は問題あり

小さな会社を経営し、大きな会社と争っているなら、A/Bテストに関しては、それだけで不利な立場に身を置かれていることになる。

そのモジュール性こそが問題の原因である。一度に実施することが可能なテストの数が少ない場合は、どうだろうか？A/Bテストは、1日に大量のテストを実行し、大勢のビジターがアクセスする大型のウェブサイトには向いているが、例えば、ダイレクトメール等のアイテムには1度に2、3点しかテストすることが出来ない。このテストが明らかにする変動は僅かであり、統計的な分析を行うことは不可能だ。

要するに、統計的に意味のある結果を得られるほどのトラフィックが寄せられていない可能性がある。この問題を手っ取早く回避する方法はないものの、数式を複雑化させる取り組みに答えを見出すことが出来るかもしれない。

実験に基づいたデザインは、大きく、そして、意図的にダイレクトマーケティングキャンペーンにおける変動の量を増やす。このタイプのデザインでは、一部をテストするだけで、マーケッターは、多くの変化のインパクトを推測することが可能だ。数式は、変動の組み合わせの一部を用いて、もともとの変動の複雑性を表す。すると、マーケッターは、反応に応じて、素早くメッセージとオファーを調節し、マーケティングの有効性と会社全体の収益を改善することが可能になる。

また、大きな会社がA/Bテストを実施し、良質な成果を得ていることが確実なら、その会社のランディングページを「盗んでしまえば良い」と考えたくなる。競合者のランディングページのアイデアを参考にして、既存のページとテストで比較する。もちろん、ランディングページを盗むことは出来ないものの、このアプローチによる「影響を受ける」ことは可能である。

競合者の取り組みは、自分の会社のテストを始める上で、良い出発点となることが多い。そのため、競合者のアプローチを参考にして、改良していくと良いだろう。

5. 他に良い方法があるかもしれない

A/Bテストの代わりの手段はあるのだろうか？

多椀バンディットテスト方式に信頼を置く人達がいる:

多椀バンディットと言う用語は、カジノの世界で用いられている。壁に沿ってスロットマシンが並んでいる。スロットマシンによって、当たりが出る確率が異なるだろう。一番良いスロットマシンを見極め、出来るだけ少ない回数で、より多くのコインを得るにはどうすればいいのだろうか？
機械学習における多くの手法と同じように、最もシンプルな戦略が最強だ。より複雑な手法も検討する勝ちはあるが、パフォーマンスを数パーセント改善するのがやっとだ。

しかし…

多椀バンディットアルゴリズムは、積極的に（そして、貪欲に）現時点で最高のバリエーションに向けて最適化を目指す。したがって、実際のパフォーマンスの悪いバージョンには、ほとんどトラフィックがもたらされない（その多くは10%の実験段階）。トラフィックが少ないため、統計上の有意を算出しようとすると、バリエーションのパフォーマンスが「本当に」低いのか、あるいは、現在の低いパフォーマンスが偶然によるものなのかに関して、多くの懸念が残る。従って、多椀バンディットアルゴリズムでは、単純で無作為なA/Bテストと比べ、遥かに多くのトラフィックが必要になる（もちろん、多椀バンディットアルゴリズムキャンペーンでは、平均のコンバージョン率は高い）。

多変量テストは、一つだけでなく、複数の変化の組み合わせをテストしている場合、有効である。例えば:

製品の画像: 大きい vs 中ぐらい vs 小さい
価格のフォントのスタイル: 太字 vs 普通
価格の色: 青 vs 黒 vs 赤

この場合、3x2x3のバージョンをテストする必要がある。

多変量テストの問題は、あっと言う間に複雑になり、統計的に有意な結果を得るためには、大量のトラフィックが必要とされる点である。しかし、多変量テストは、A/Bテストとは異なり、ページの最も影響が強い部分を判断することが出来るメリットを持つ。グラフィックなのか、タイトルなの、それとも、動画なのか、A/Bテストを利用しているなら、特定することは出来ない。多変量テストは、コンバージョン率に影響を与えるセクション、そして、与えないセクションを教えてくれる。

6. 方法が全てではない

結局、A/Bテストは、実施する価値があるのだろうか？代わりのテストの方が優れているのだろうか？

方法の良し悪しは、テストの計画の良し悪しに左右される。計画が不十分なら、計算、テスト、データ、そして、ソフトウェアツールは、ほとんど役に立たない。

良質なテストを計画するには、ハイレベルな見解が求められる:

まずは、自分自身に問いかけてもらいたい。「自社サイトのエンゲージメント率は、競合者のサイトのエンゲージメント率よりも、なぜ低いのか？」等の疑問だ。大規模なテストを設計する前に、顧客から製品に関する情報を集める必要がある。キャッチフレーズをテストするつもりなら、顧客に調査を実施し、製品をどのように表現するのか訊いてみよう。

次に、テストの限界を考察するべきだ。テストは、人間味のない取り組みになる。冷酷だ。あるデザインが、別のデザインよりも、どれだけ印象が強いのか、どれだけ人気が高かったのかをテストすることは、事実上、不可能であり、一部の質問では、勘を頼りにせざるを得ない。特定のテストの内容が、オーディエンスにとって有効であり、その他のテストの内容が、無効であることもある。取引だけでなく、好感度を獲得しているかどうかをテストするには、どうすればいいのだろうか？

バージョン Aよりも、バージョン Bをクリックしたら、顧客のことを理解していると言えるのだろうか？あるオファーに対するリアクションを見ることが出来ても、それだけで、ユーザーの希望とニーズを理解していることにならない。戻るをクリックするビジターが多いなら、ビジターのことを理解していない点は明白だ。根本的なオファーが、顧客候補の希望とは異なる場合、グラフィックや言い回しを変えても、効果はない。どれほど多くの広告コピーをテストしたところで、ピンク色の汽車の模型は売れない。

顧客の理解は、一部はテストによって、そして、一部は顧客との直接的な経験とマーケットによって得られる。共感から理解を得られることもある。問いを投げかけて得られることもある。答えに耳を傾けることで、競合者の長所と短所を把握することで、選択肢を与えることで、開かれた会話を行うことで、そして、ビジターを安心させることで…等々。この情報を既に持っている可能性がある。そして、その情報は、有効なテストを計画する上で、とても有益である。

本当にA/Bテストを必要としているのだろうか？うまく実施すれば、著しくオファーを改善し、磨きをかけることが出来る。ただし、特効薬ではない。オーディエンスを理解することが、最も重要である。テストを広範囲にわたって実施するGoogleは、ユーザーを直感的に理解する必要がある分野を苦手にしているようだ。Google Glassは、社会的な背景を理解することに失敗した典型的な例である。一方、Appleは、直感的なアプローチを基に活動していた。故スティーブ・ジョブズは、「Macを作ったのは我々だ。Macの良し悪しを決めるのも我々だ。街頭で市場調査を行うつもりはさらさらなかった」と明言していた。

A/Bテストは、消費者を理解する取り組みの代わりとして用いられなければ、効果は期待できる。

この記事は、SEO Bookに掲載された「What’s Wrong with A/B Testing」を翻訳した内容です。

若干、概念じみた話が多かった気もしますが、それなりに納得できる記事だったと思います。ちなみに最初に取り上げられているA/Bテストの信頼性については、データアーティスト社が作成したEXCELツールも便利ですのでご活用ください。 — SEO Japan [G+]