著者紹介:Tianhui Michael Li(ティエンフイ・マイケル・リー)氏は、学術界から産業界への博士やポスドクの移行を支援する8週間のフェローシップで知られる、The Data Incubator の創設者である。それ以前はFoursquareでマネタイゼーション・データサイエンスの責任者を務め、GoogleやAndreessen Horowitz、J.P.Morgan、D.E.Shawにおける勤務経験も有する。
—
「自動化によりデータサイエンスは不要になるだろうか?」
これは、私が参加するカンファレンスでほぼ毎回尋ねられる質問である。大抵質問を発するのはこの問題に関心を寄せる2つのグループである。まず1つ目のグループは、将来の雇用の見通しについて憂慮している現役の実務家、またはその志望者である。もう一方のグループは、データサイエンスへの取り組み開始したばかりの経営陣やマネージャーで構成されている。
彼らは、Targetは顧客が妊娠しているかどうかを買い物のパターンから判断できる、と聞くと、彼らのデータにも適用できるそうした強力なツールを持てないかと考える。そして、自動化AIベンダーが最新のセールスプレゼンテーションで、データサイエンティストなしにTargetが行ったのと同じこと(あるいはそれ以上)を実現できる、と主張するのを耳にする。彼らの問いに対し、私たちは、自動化や、より進化したデータサイエンスツールは、データサイエンスの需要をなくすことも、減らすこともないと主張している(Targetのストーリーのようなユースケースを含めて)。自動化によってさらに多くのデータサイエンスに対する需要が生み出されるのだ!
その理由は次のとおりだ。
関連記事:「What’s different about hiring data scientists in 2020?」(未訳記事)
ビジネス上の問題を理解することが最大の課題
データサイエンスにおける最も重要な問題は、どの機械学習アルゴリズムを選択するかではなく、どのようにデータをクリーンアップするかでさえない。コードを書く前にまず考えるべきことがある。それはどのようなデータを選択し、そのデータに対してどのような質問を設定するか、ということである。
一般的イメージに欠落しているのは(希望的観測の面もあるが)、創意工夫、創造性、そしてこれらのタスクに注がれるビジネスへの理解である。顧客が妊娠しているかどうかを気にするのはなぜか。Targetのデータサイエンティストたちは、積み重ねてきた研究作業に基づいて、これがなぜ小売業者を変える準備をしている高収益の顧客層であるのかを把握した。利用可能なデータセットはどれか?それらのデータセットについて科学的に検証可能な質問をどう提示できるか?
Targetのデータサイエンスチームは、ベビーレジストリ(ベビー用品の買い物リスト作成サービス)データを購入履歴と結びつけ、それを顧客の支出と結びつける方法を見い出した。どのようにして成果を測るか。非技術的な要件を、データで回答できる技術的な質問に定式化することは、データサイエンスにおける最も困難な作業の一つであり、さらに精度を伴うことは非常に難しい。こうした問題を定式化できる経験豊かな人間がいなければ、データサイエンスへの取り組みを始めることさえできないだろう。
前提条件の作成
データサイエンスの質問を定式化した後、データサイエンティストは前提条件の概要をまとめる必要がある。これには、多くの場合、データのマンジング、データのクリーンアップ、フィーチャーエンジニアリングといった作業が伴う。現実世界のデータはまぎれもなく混沌としており、保有するデータと、取り組もうとしているビジネスやポリシーの質問とのギャップを埋めるために、多くの前提条件を作らなければならない。また、これらの前提条件は、実際的な知識とビジネスコンテキストに大きく依存する。
Targetの例では、データサイエンティストは妊娠の代理変数、分析の現実的な時間枠、正確な比較のための適切な対照群について前提条件をまとめる必要があった。彼らは、無関係なデータを捨て、特徴を正しく正規化できるような、現実的な前提条件をほぼ確実に作成しなければならなかった。こうした作業はすべて、人間の判断に大きく依存している。機械学習におけるバイアスに基づく問題が最近相次いでいるとおり、人間をこのループから外すのは危険だ。その問題の多くが、フィーチャーエンジニアリングの排除を強く主張するディープラーニングアルゴリズム周辺から発生しているのは、偶然ではないだろう。
コアとなる機械学習の一部は自動化されている(私たちもこれらのワークフローを自動化する方法をいくつか教えてさえいる)が、データサイエンスにおける実際の仕事の90%を占める、データのマンジング、データのクリーンアップ、フィーチャーエンジニアリングについては、安全に自動化することはできないのだ。
歴史的な例示
データサイエンスが完全には自動化されないことを示唆する明確な先例がある。ある分野では、高度な訓練を受けた人間が、コンピューターに驚くべき偉業を達成させるコードを生み出している。こうした人材は、この分野において、スキルを持たない人材よりもかなり高い報酬を得ており(驚くにはあたらない)、このスキルの訓練に特化した教育プログラムが存在する。その結果生じる、この分野を自動化しようとする経済的圧力は、データサイエンスへの圧力と同じように激しい。その分野とは、ソフトウェアエンジニアリングである。
実際、ソフトウェアエンジニアリングが容易になるにつれて、プログラマーへの需要は増すばかりである。自動化によって生産性が向上し、価格が下がり、最終的に需要が増大するというこのパラドックスは、新しいものではない。ソフトウェアエンジニアリングから財務分析、企業会計に至るまで、さまざまな分野で繰り返し見られている現象だ。データサイエンスも例外ではなく、自動化により、このスキルセットに対する需要が促進されるだろう。
カテゴリー:人工知能・AI
[原文へ]
(翻訳:Dragonfly)