【コラム】AI時代の「データの産業革命」:創始者たちが間違っていたこと

2010年2月、The Economist(エコノミスト)は「Data, data everywhere」というレポートを公開した。当時は、そのデータのランドスケープが実際にはどれだけ単純なものであったか、ほとんどわかっていなかった。つまり、相対的に見て、2022年に目を向けるときに直面するデータの現実を考えた場合である。

このEconomistのレポートの中で筆者は、ビッグデータをめぐる興奮から始まり、現在のデータ駆動型AIの時代に続いている「データの産業革命」に社会が突入しつつあることについて語った。この分野の多くの向きが、この革命によってより多くのシグナルを持つノイズを抑えた標準化がもたらされると期待していた。だがその代わりに、ノイズは増え、一方でシグナルはより強力になっている。つまり私たちは、ビジネス上の成果が大きくなるポテンシャルを有しながら、より困難なデータの問題を抱えているのである。

また、人工知能にも大きな進歩が見られている。それは現在のデータ世界にとって何を意味するのだろうか。私たちがいた場所を振り返ってみよう。

Economistの記事が掲載された当時、筆者はカリフォルニア大学バークレー校を離れ、同大学と共同でIntel Research(インテル・リサーチ)の研究所を運営していた。私たちは当時、今でいう「モノのインターネット(IoT)」に全面的にフォーカスしていた。

当時私たちが話していたのは、建物や自然、壁の塗料など、あらゆるものに埋め込まれた、相互に接続された小さなセンサーのネットワークについてであった。物理的な世界を計測しその現実をデータとして捉えることができるというビジョンがあり、そのビジョンに向けて理論を探求し、装置やシステムを構築していた。

私たちは将来に目を向けていた。しかし当時、データに関する一般的な熱狂のほとんどは、ウェブと検索エンジンの台頭を中心に展開していた。誰もが「ドキュメント」という形で大量のデジタル情報にアクセスできることを話題にしていた。ドキュメントとは、人間が生成し、人間が消費するコンテンツのことを意味する。

水平線の向こうに見えたのは、さらに大きな機械生成データの波だった。これは、筆者が「データの産業化」と呼んだものの1つの側面であり、データは機械駆動でスタンプアウト(型に合わせて生成)されるため、ボリュームが大幅に増加していくだろうと考えていた。そして、それは確かに起こった。

筆者が想定していた「データの産業革命」の第2の側面は、標準化の出現である。簡単に言えば、機械が生成しているものは毎回同じ形式で生成されるため、無数のソースからのデータを理解して結合することで、よりゆるやかな増幅過程を実現でるはずだ。

標準化の先例は古典的な産業革命であり、すべての関係者が交通機関や船舶のような共有リソースやプロダクト仕様を標準化するインセンティブが存在した。それはこの新しいデータ産業革命にも当てはまるように思われ、経済やその他の影響力がデータの標準化を推進するだろうと考えられた。

そのようなことはまったく起こらなかった。

実際、逆のことが起こった。「データの浪費」が大幅に増加した。これはログファイルの形式で計算量が指数関数的に増大した結果であり、標準化されたデータはわずかな増加に留まった。

そのため、統一された機械指向のデータではなく、さまざまなデータやデータ型が膨大な量となり、データガバナンスが低下した。

データの浪費や機械生成データに加えて、データを敵対的に利用するようになり始めた。これはデータに関与する人々が、その利用に対して多くの異なるインセンティブを持っていたためである。

ソーシャルメディアのデータと「フェイクニュース」に関する最近の話題を考えてみよう。21世紀初頭においては、個人だけでなく、大衆にリーチしようとしているブランドや政治的利益のために、デジタル情報をバイラルにすることの巨大な実験がなされた。

今日では、そのコンテンツの多くは実際には機械で生成されているものの、人間の消費と行動パターンに合わせたものだ。何年も前の純真な「人による、人のための」情報通信ネットワークとは対照的である。

要するに、今日のデータ生産産業は途方もなく大規模であるが、標準的なデータ表現に合わせて調整されておらず、10年余り前に筆者がこうした予測を立てたときに期待していたものではない。

イノベーションの状況:AI対人間のインプット

この10年ほどで明らかに大きく進歩したのが人工知能だ。私たちがアクセスし、処理し、モデルに取り込むことができるこの莫大なデータは、数年のうちにAIをSFから現実に変えた。

しかしAIは、ビジネスデータ処理の領域では期待していたほど有用ではない。少なくとも今のところはそうだ。自然言語処理のようなAI技術と構造化データの間には、驚くほどのずれが依然として存在する。いくらかの進展があったとしても、ほとんどの場合、データと通信して多くの成果が返ってくることは期待できない。Google(グーグル)で定量的な質問をして、テーブルやチャートが返ってくることもあるが、それは適切な質問をする場合に限られる。

AIの進歩は、スプレッドシートやログファイルなどの定量的で構造化されたデータ(IoTデータを含めて)とは、まだ大きく分離されている。結局のところ、私たちが普段データベースに入れているような従来型のデータは、画像検索や単純な自然言語による質問応答のような消費者向けアプリケーションよりも、AIで解読するのがはるかに困難であるということだ。

例えば、Alexa(アレクサ)やSiri(シリ)にデータのクリーニングを頼んでみよう。おもしろいが、あまり役に立たない。

AIの一般的なアプリケーションは、まだ従来のデータ産業には投影されていないが、努力不足のためではない。大学や企業の優秀な人材の多くは、従来の記録指向のデータ統合問題の難解な部分を打破できていない。

しかし、完全自動化はこの業界を巧妙に回避している。その理由の1つは、人間がデータから何を得たいのかを前もって特定するのが難しいことにある。もし「これが、この700個のテーブルを使って私があなたにしてもらいたいことです」と伝え、明確な目標を達成することができれば、アルゴリズムがそのタスクを代行してくれるかもしれない。しかし実際にはそうはならない。代わりに、人々は700個のテーブルを見て、そこに何があるのだろうと思い、探り始める。何度も探し回って初めて、これらのテーブルに何が起こって欲しいのかのてがかりを得ることになるだろう。

データを利用する方法のスペースは非常に大きく、成功の度合いを示す指標は実に多様であるため、探し回ることは創造的な仕事の域を出ない。最適化アルゴリズムにデータを渡して、最適な結果を見つけることはできないのだ。

AIによる完全自動化を待つのではなく、人間はAIからできる限り多くの助力を得るべきである。だが実際的には、ある程度の作用を保持し、何が有用か、あるいは有用でないかを特定した上で、次のステップを特定の方向に向けるべきであろう。それには視覚化と、AIからのフィードバックの束が必要だ。

データのインパクトを把握し、データの分散を制御する

もっとも、AIが本当に力を発揮している分野の1つは、コンテンツの推薦である。結果的にコンピューターは、コンテンツをターゲットにして広めるのに恐ろしいほど効果的なのだ。いやはや、私たちはデータとAIの側面に関するインセンティブとインパクトを過小評価していたのだろうか。

当時、データとそのAIへの利用に関する倫理的な懸念は、主にプライバシーに関するものだった。人々が予約した本のデジタル記録を公共図書館が持つべきかどうかについての大きな議論を覚えている。同様に、食料品のポイントカードプログラムについても論議があった。買い物客は、食料品チェーンがいつどんな食べ物を買ったかを把握して、それに付随するアイテムについて自分たちをターゲットにすることを望まなかった。

その考え方は大きく変わった。現在、10代の若者たちは、購入した食品のブランド以上に、ソーシャルメディア上ではるかに多くの個人情報を共有している。

デジタルプライバシーが良い状態にあるとは言い難いが、今日のデータ問題の中で最悪なものではないことは間違いない。例えば、政府の資金援助を受けた俳優たちが、データを使って私たちの社会的議論に混乱を加えようとしているという問題がある。20年前はこういったものが現れるのを目にすることはほとんどなかった。何が間違った方向に向かっているのかという倫理的な問いについて、大きな意識があったようには思えない。

この要素は、私たちのデータ利用の進化における次の、そして現在進行中のものにつながる。政府と善意の立法の役割はどういったものになるだろうか。ツールがどのように使われるかを予測しなければ、賢明に管理し制限する方法を知ることは難しい。今日の私たちは、データに関するコントロールやインセンティブ、そしてデータがどのように公表されるのかを理解する必要があるように思われるが、テクノロジーは社会がリスクや保護を理解するよりも早く変化している。控えめに言っても、それは不安を感じさせる。

さて、予想は的を得ていたのだろうか?

教授としては合格点を与えたいと思うが、Aにはしたくない。私たちが想像していたよりもはるかに多くのデータが利用可能になっている。その結果、AIと機械学習、そしてアナリティクスが驚くほど進歩したが、多くのタスクではまだ表面的なものにすぎず、他のタスクにおいては旋風を巻き起こしている。次の10年、20年がこのような問題に何をもたらすのか、そして何を振り返るのか、興味深いところである。

編集部注:執筆者のJoe Hellerstein(ジョー・ヘラースタイン)はTrifactaの共同設立者兼最高戦略責任者で、カリフォルニア大学バークレー校コンピューターサイエンスのJim Gray Chair。

画像クレジット:MR Cole Photographer / Getty Images

原文へ

(文:Joe Hellerstein、翻訳:Dragonfly)