編集部注:本稿の著者Asaf Cohen(アサフ・コーエン)氏は、データ運用プラットフォームであるMetrolink.aiの共同設立者兼CEO。
ーーー
「80:20のルール」としても知られるパレートの法則は、結果の8割は、原因全体の2割に相当する事柄に起因しているのであり、その他の原因が結果に及ぼす影響は小さいとする。
データ関連の仕事をしている人なら、この80:20のルールの別バージョン、すなわち、データサイエンティストは実際の分析やインサイトの生成ではなく、雑然としたデータを整えるのに勤務時間の80%を費やしている、というフレーズを耳にしたことがあるのではないだろうか。通常なら30分で行ける道のりを、交通渋滞のために2時間半かかるという例を考えれば、このフレーズの言わんとするところが理解していただけるだろう。
実際には、ほとんどのデータサイエンティストはデータ分析に勤務時間の20%以上の時間を割いているだろうが、それでも雑然とした大量のデータを分析に適したものに整えるのに数え切れないほどの時間を費やしているのが現状だ。重複したデータを削除したり、すべてのエントリが正しくフォーマットされていることを確認したりすることもこのプロセスの一部であり、その他の準備作業もしなければならない。
Anacondaの最新の調査によると、このプロセスに平均して全体の時間の45%が費やされていることがわかった。それより前に実施されたCrowdFlowerの調査では、その数字は60%と推定されており、またその他の調査でもこの範囲内の数字が示されている。
データの整備が重要でない、というわけではない。「使い物にならないデータを投入しても、使いものにならない結果が得られるだけ」とは、コンピューターサイエンス界でよく知られた法則であるが、これはデータサイエンスにも当てはまる。例えば、顧客番号1527のエントリーが数字ではなくテキスト形式になっていると、顧客あたりの平均支出を算出することができず、エラーになってしまうが、これはまだましな例である。最悪な場合には、企業は現実とは無関係なインサイトを元に今後に向けての判断を下すことになる。
ここで本当に問われるべきなのは、顧客番号1527のデータを、高給取りの専門家の時間を費やして再フォーマットするのが最良の方法なのかどうかである。さまざまな推定によると、データサイエンティストの平均給与は、年間で9万5000~12万ドル(約1050~1300万円)である。このような高給取りの従業員に、誰にでもできるようなつまらない雑用をさせるのは彼らの時間と会社のお金の無駄である。さらに、現実世界のデータには寿命があり、時間的制約のあるプロジェクトの場合、データセットの収集と処理に時間がかかりすぎると、分析を行う前に、それは古くて使いものにならなくなる可能性がある。
さらに、企業のデータの探求には、データに関与するはずではない人員が、本来の仕事ではなく、データの収集や生成の支援を命じられるなど、時間の無駄遣いが発生していることが少なくない。企業が収集したデータの半分以上はまったく活用されておらず、このことは、収集に関与した人員すべての時間が無駄に使われ、業務上の遅延とそれにともなう損失しか生み出さないことを示唆している。
データは収集されるものの、データサイエンスチームに負荷がかかりすぎてしまっていて、すべてのデータを活用できないこともしばしばだ。
すべてはデータのために、データはすべてのために
ここで概説された問題は、GoogleやFacebookなどのデータのパイオニアを除き、企業がデータ主導の時代における自らのあり方に頭を悩ませているという事実と結びついている。データが巨大なデータベースに投入され、データサイエンティストはデータ整備に多くの時間を費やし、またデータの収集の支援に時間を浪費している他の従業員がそのことから利益をえることはあまりないのである。
有り体に言えば、データ変革は始まったばかりである。データを事業モデルの中核に据えたテック大手の成功は、始まりの合図にすぎない。そして今のところその結果はまちまちであり、これは企業がまだデータに関する思考に習熟していないことの表れである。
データは多大な価値を持っており、企業もそれには気がついている。それは、 テック企業ではない企業がAI専門家を求めていることにも表れている。企業は道を誤ること無く進む必要があり、そこで重要になってくることの1つが、AIに注力するのと同じくらい人材に注力することである。
データは、事実上、あらゆる業種の組織構造内のあらゆる要素の運用を強化することができる。すべてのビジネスプロセスに機械学習モデルが存在する、といった未来を想像するのは魅力的かもしれないが、今はそこまで踏み込む必要はない。今日データを利用しようと考える企業のゴールは、データをA地点からB地点に移すことである。A地点はワークフローの中のデータが収集される地点であり、B地点は意思決定にそのデータを必要としている人物である。
重要なのは、Bがデータサイエンティストである必要はないということである。これは最適なワークフロー設計を解明しようとしているマネージャーかもしれないし、製造プロセスの欠陥を見つけ出そうとしているエンジニアかもしれないし、特定の機能のA/Bテストを行っているUIデザイナーかもしれない。これらの人々は全員、必要なデータを、インサイトを得るために処理できる状態で常に手元に持っていなければならない。
企業が人々に投資し、基礎的な分析スキルを身に付けさせた場合は特にそうだが、彼らはモデルと同様データで力を発揮することができる。このアプローチにおいては、アクセシビリティが鍵である。
懐疑論者はビッグデータは使い古された経済界の流行語にすぎないと主張するかもしれない。しかし、高度な分析能力は、明確な計画と適切な期待が備わっている限り、あらゆる企業の収益を強化することができる。最初の第一歩は、データをアクセスしやすく使いやすくすることであり、可能な限りデータを取り込むことではないのである。
言い換えれば、オールラウンドなデータ文化は、企業にとってデータインフラと同じくらい重要なのである。
関連記事
・【コラム】データサイエンティストは恐れずに新しい分野に挑戦せよ
・データサイエンティストが社内全体とデータを共有するプロセスをシンプルにするHexが6.1億円調達
・データ活用支援のDATAFLUCTが3億円調達、スタートアップスタジオモデルで2年後の上場目指す
画像クレジット:Getty Images under a alphaspirit license.
[原文へ]
(文:Asaf Cohen、翻訳:Dragonfly)