ビッグデータ分析には直感とサイエンスの双方が必要

編集部: この記事はSteven Hillionの寄稿。HillionはAlpine Data Labsの共同ファウンダーであり、同社のエンタープライズ向けビッグデータ分析プラットフォームの開発責任者である。Alpineを起業する以前は、Siebel 、Greenplumなどでエンジニアのチーム責任者を務めていた。

現在、データは今までにない規模とスピードで動いている。これを分析にするにはきわめて高度なハード、ソフトを必要とする。ではビッグデータ分析が登場してからは昔ながらの「直感」は無用となったのだろうか? データは「進め」と言っているのに経営者の直感は「待て」だったときにはどうすればいいのだろう?

私のような人間―数学とテクノロジーの専門家―がこういうと意外に聞こえるかもしれないが、私はビジネスマネージャーはデータに加えて直感を重視しなければならないと強く信じている。

一部の人々は所与のデータ・セットから適切なモデルを組み立てるには数学とマシンパワーさえあれば十分だというように考えがちだ。しかしデータの機械処理だけでビジネス上の適切な意思決定ができるなどというのは愚かしい考えだ。データ・サイエンスでは分析と直感は車の両輪であり、互いに他を必要としている。

そもそも直感は分析を方向づける。分析の結果は何もないところからいきなり現れるわけではない。まず観察に基づいた何らかの直感があり、そこから構築された仮説を検証するためにコンピュータによる数値処理が行われる。またデータ・サイエンティストがどんな数値処理の手法を用いるかについても直感が導きとなる。どのデータが本質的に重要なのか? どの変数が、どの過程が意味があるのか? どれが原因でどれが結果らしく思えるか? どのモデルがいちばん適切か? こうしたことはすべて直感が関係してくる。

次に分析が直感に根拠を与える。 教師なし(unsupervised)モデリングは、一見しただけでは不明な関連やパターンを巨大なデータ・セットから探し出すことができる。分析は単なる観察では発見が不可能であり、時には直感に反するような方向を探索するきっかけを与える。ビジネス運営者の経験に基づく直感とデータ・サイエンティストの分析が適切に補いあわなければ必ず問題が発生する。

いくつか私が経験した例を紹介しよう。

あるチームは銀行の一般個人顧客について、口座を閉じそうな顧客を事前に予測するモデルを作ろうとしていた。しかし生成されたデータからはそれらしいパターンが発見できそうになかった。預金、ローン、クレジットカード、すべての分野を通じて顧客が解約する兆候らしきものは見つからなかった。顧客の預金引き出しやクレジットカードによる消費のパターンに特に変化はみられないのに、突然に解約が行われる。

しかし銀行チームが顧客のセグメントごとにさらにデータを詳しく検討していくうちに、あるアナリストの直感が貴重な発見をもたらした。彼女はある顧客セグメントに注目した。このセグメントは平均より飛びぬけて多額のローンを組んでおり、契約期間も長いなど、いくつの特異な属性を示しており、全体として顧客価値が極め高かった。 アナリストはこのセグメントの顧客はスモールビジネスのオーナーではないかと思いついた。そして個別の顧客情報を確認するとそのとおりだった。

アナリストは「これらのオーナーたちは一般個人向けのローンやクレジットカードよりも有利なスモールビジネス向け融資の仕組みがあることを知らないのではないか?」と考えた。そこでこうした高価値顧客を発見し、適切な金融商品を売り込むことにプロジェクトの目標が急遽、変更された。チームは.さらにデータ分析を続け、特定のセグメントの顧客に特化したセールスを行った場合の効果を検証した。その結果、セグメントごとにカスタマイズした金融商品の売り込みは効果があることが明らかになった。

データにいかに数値処理を加えてもこの結果―あるセグメントの顧客はスモールビジネスのオーナーである―は出て来なかったに違いない。ビジネスの経験に基づくこうした直感とデータ処理が統合されるときわめて価値ある結果がもたらされる。

こうした例でも明らかなように、ビジネス経験に基づく直感はデータ分析の決定的に重要な部分だ。にも関わらず、データ分析でビジネス側の経験者がプロセスから排除され、最後に結論だけを知らされるという例があまりにも多い。ビジネス・サイドの知識を持つメンバーをプロセスの当初から招き入れることが絶対に必要だ。私は、チームのプロセスをこうした線に沿って改革し、生データをレビューするもっとも早い段階からすべてのメンバーが参加するようにした。

われわれが経験したもう一つの例では、クライアントは巨大飲料会社だった。日本におけるセールスを予測するというのが彼らの依頼だった。われわれは経済動向と価格を変数として来年の売れ行きを予測するモデルを作った。クライアントは「売れ行きは景気に正比例するはずだ」とわれわれに告げた。日本の景気が徐々に回復すればそれに比例してソフトドリンクの売上も伸びるというわけだ。

クライアントはモデル中の景気の変数として日経平均を用いるよう要請してきた。このモデルは当初は適切な予測をするように見えた。しかし翌年入って時間が経つに連れてモデルは馬鹿げた予測を出し始めた。これは日経平均が当初予想した範囲の上限を超えて上昇したため、モデルが破綻したのだとわかった。もっと優秀なモデル設計者だったら、そもそも日経平均を変数に組み入れるような危険なことはしなかっただろう。

直感が重要な場合も多い。同時にデータサイエンスではモデリングの限界を知る慎重さが必要だ。われわれは清涼飲料水の売上予測モデルから日経平均を外した。するとモデルはうまく作動するようになり、翌年のマーケティング戦略の立案に重要な役割を果たすことができた。

データサイエンティスト側とビジネス実務側の間にはとかく緊張が生まれやすい。データ分析の結果が直感に反するように思える場合―たとえば派手なマーケティング・キャンペーンの効果がゼロに近いなどという結果が出たときには特にそうだ。われわれデータサイエンティストは往々にしてテーブルの向こうに座ったクライアントのマーケテティング担当者から「いったい全体、そんあ数字はどこから出て来たんだ?」と詰問される。

しかし私はこうしたやりとりは非常に重要だと考えている。数学と科学的分析はビジネス側の疑問に正しく答えることができなくてはならない。あるときはデータ分析の結果が直感が間違っていることを明らかにする。しかしあるときはデータ分析の欠陥を直感が明らかにすることがある。こうして直感と分析があい補っていくのが理想だ。

カット画像:Shutterstock USER Stocksnapper (IMAGE HAS BEEN MODIFIED)

[原文へ]

(翻訳:滑川海彦@Facebook Google+


投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。