[筆者: Mark Gazit]
編集者注記: Mark Gazitはイスラエルのサイバーセキュリティのトップエキスパートの一人。イスラエル空軍で国防のためのサイバーセキュリティを担当し、今ではThetaRayのCEOである彼は、サイバー防衛の分野で長年高く評価されている。
ビッグデータの分析をするときは、データをよく理解してその秘密を解き明かし、闇に隠れていた真実を明るみにさらさなければならない。それはまさにそうではあるけれども、しかし、データはいろいろな側面を抱えており、その分析方法や使われ方次第で大きく異なる話を明かしてくれる。それは、データを解釈する人間の心が、それぞれ異なるためでもある。
誰が質問をするのか?
ビッグデータの分析には唯一の正しい方法というものはなくて、そこには必ず、人による違いというバイアスがかかっている。分析から得られる答えにも、同じくバイアスの影がある。同じデータを複数の人間が見て、それぞれ異なる結論に達するとしたら、ではその中のどれが正しいと言えるのだろうか?
データサイエンスを利用して生データから取り出した知識に、企業や組織にとって重要な価値や機会(ときにはリスク要素)が見出されることは多い。しかし分析の方法が、その価値を大きく左右する。
ビッグデータから有意な答えを取り出すためには、アルゴリズムにどんな問いを尋ねさせるのかを、データサイエンティストが決めなければならない。しかし質問者が人間であるかぎり、そこにはどうしても、意図せざるバイアスが導入される。さらに、クェリを選ぶ役を担うデータサイエンティストが、組織内の専門家であるドメインエキスパートよりも経験知識が浅くて、“正しい質問”を作れないことも多い。
たとえば国の規制に関する質問なら、コンプライアンス担当部局の日常の仕事をよく知らないサイエンティストよりも、コンプライアンスマネージャの方がずっと良い質問を尋ねられるだろう。同じことが。CISOと、インサイダー問題を担当している役員との違いについても言える。しかしそれでは、データチームには常時、いろんな人がたくさんいればよいのか? そういう、現場の問題をよく知っている人が会社を辞めたら、どうするのか?
データサイエンティストは必要かつ重要であり、データ量が増えてくると経験豊富なデータサイエンティストが必要になる。しかしそれと同時に、計算機の仕事を人間にやらせると、遅くなり、非科学的になり、急速に質が劣化しがちだ。なぜなら、人間の心はビッグデータで生じる量子的飛躍*について行けないからだ。〔*: 蓄積された大量データだからこそ得られる知見や洞察。〕
スケーラビリティの問題
データが急速に成長しているときは、スケーラビリティがビッグデータとデータサイエンスにとって緊急の問題になる。MGIとMcKinseyの調査によると: “合衆国だけでもデータ分析の専門家が14万ないし19万人不足しており、またビッグデータの分析に基づいて意思決定のできる管理職やアナリストが150万名不足している”、と言われる。データサイエンティストはすでに供給が不足しており、その一方で企業や組織が生成し、利用したいと願っているデータの量は増え続けている。そしてそんな中でヘルスケアなど社会の重要なインフラストラクチャに関わる業界のすべてが、ビッグデータを利用して仕事を加速し、問題を解決したいと願っている。
GEとAccentureが共同で行った調査によると、“全業界で調査対象企業の80〜90%が、ビッグデータ分析が最優先事項または最優先三項目の一つとしている”。さらに、“製造業企業の上級役員の53%が、ビッグデータ分析がすでに取締役会のレベルで取り組まれている”。需要がこれだけ熟し、しかも多くの場合リアルタイムのデータ分析が求められているとき、では、データサイエンティストの供給はどうだろうか? 能力と経験のあるデータサイエンティストが、すぐに見つかるだろうか? 見つからない。供給のスケーラビリティは、大きな、しかも喫緊の解決を要する問題だ。
幸いにも、この問題のソリューションはすでに、手の届くところにある。
機械学習
より賢明で効率的な方法は、ビッグデータの分析とクェリをデータサイエンティストにやらせずに機械学習にやらせることだ。その場合データサイエンティストには、機械学習の出力を検査し分類する仕事がある。異状や特例事象、問題などの発見は、人間にしかできない*。〔*: 本稿では、クェリセットの決定など、機械学習システム稼働に至るまでの初期的構成や設定、セットアップ等は経営トップや各業務の現場がイニシアチブをとる、という前提。〕
技術の進歩によって今では、高度な分析アルゴリズムが大量の複雑なデータから短時間で問題を検出あるいは予測できる。偏りや擬陽性などの間違いも、少ない。
機械学習によって自動化されたビッグデータ分析は、今では信頼性も高く、正確で、人出による介入を要さずに企業のさまざまなニーズに対応できる。データサイエンティストはビッグデータから問題や傾向を検出する作業を機械化して、自分はその出力の点検や解釈に集中できる。企業はそれによって、ビッグデータ分析を利用するソリューションの長期的な費用を節減できる。
企業はビッグデータ分析の最適化を妨げていた問題、中でもとくに厄介な人間的要素を解決することによって、自分が抱えるビッグデータの中からあらゆるタイプの凶兆や好機を迅速に見つけることができる。今はどんな企業・組織でも、人間と機械が毎日生成するデータの量がきわめて多いので、簡単迅速で精度の高いビッグデータ分析を常用することは、企業の生死を握るといっても過言ではないぐらいに重要だ。企業はそれによって諸状況への感度を高め、つねに、企業目的に沿ったタイムリーな意思決定ができるようになる。
[原文へ]
(翻訳:iwatani(a.k.a. hiwa))