時代遅れの採用選考プロセスを嫌うデータサイエンティスト、コロナ禍の影響も?

著者紹介:Tianhui Michael Li(ティエンフイ・マイケル・リー)氏は、学術界から産業界への博士やポスドクの移行を支援する8週間のフェローシップで知られる、The Data Incubator(データ・インキュベーター)の創設者である。それ以前はFoursquare(フォースクエア)でマネタイゼーション・データサイエンスの責任者を務め、Google(グーグル)やAndreessen Horowitz(アンドレセン・ホロウィッツ)、J.P.Morgan(ジェイ・ピー・モルガン)、D.E.Shaw(ディー・イー・ショー)における勤務経験も有する。

ーーー

2020年は世界が大きく変わった年である。その変化は、企業のデータサイエンス職の採用選考方法にも現れている。さまざまなことが変わったが、その中でも目立って大きく変わったことが1つある。筆者が創設したデータ・インキュベーターは、データサイエンスフェローシップを実施しており、毎年数百人のデータサイエンス職採用者を送り出している。我々が調査したところ、こうした採用者は今では珍しくなった時代遅れの採用選考プロセスを嫌い、全体の80%を占める標準的な採用プロセスを実施している企業を選択していることが明らかになった。大企業(つまりは最も変化に慎重な企業)ほど、こうした時代遅れのやり方に固執する傾向がある。現在こうした大企業は、データサイエンティストの獲得競争においてかなり不利な立場に置かれている。

振り返ると、データサイエンス関連職の採用活動はソフトウェアエンジニアリングから発展してきた。ソフトウェアエンジニアリングの面接といえば、かなり手強いパズルのような難問が特徴だ。例えば、「ボーイング747の機体にはゴルフボールが何個入るか?」とか「ホワイトボード上でクイックソートのアルゴリズムを実行せよ」といった類の問題だ。応募者は数週間、数か月をかけてこうした問題を解く勉強をする。求人関連ウェブサイトのGlassdoorは、そうした問題の対策用に1つのセクションをまるごと割いている。データサイエンス職の採用選考では、従来のコーディングの難問を補足する形で、例えば、「2個のサイコロを振ったときに出た目の合計が3で割り切れる確率は?」といった統計問題も出題されてきた。しかし企業は長い年月をかけて、こうした難問はあまり効果的でないと認識するようになり、出題を控えるようになっている。

その代わりに、プロジェクトベースのデータ評価を採用選考に取り入れる方法に注目している。これは、データサイエンス職の応募者に、企業が提供した実世界のデータを分析させるものだ。こうしたプロジェクトベースの評価は、1つの正解が存在するわけではなく、たいてい自由形式で回答し、説明することが求められる。面接を受ける人は通常、コードと評価結果を提出する。このやり方には形式と内容の両面において、多くの利点がある。

第1に、データ評価の対象となる環境の方がはるかに現実的だ。パズル形式の難問では、応募者が無意味に問題に苦しんだり、ホワイトボード上でぎこちなくコードを書いたりすることになる。また、こうしたパズル形式の問題はグーグル検索ですぐに正解がわかるため、インターネットの使用は禁止される。実際の仕事で、ホワイトボード上にコードを書いたり、誰かが肩越しに覗いている状態で暗算を実行したりするといったことはあり得ない。業務中にインターネットアクセスを禁止されるなど理解しがたい。データ評価では、応募者が使い慣れたIDEまたはコーディング環境を使って、より現実的なペースで評価作業を実行できる。

「自宅で行う課題なら、実際の仕事における応募者のパフォーマンスをパズル形式の面接問題よりも現実的にシミュレートできる」と、エンジニアリングマネージャーで「How Smart Machines Think(スマートマシンはこうして思考する)」の著者でもあるSean Gerrish(ショーン・ジェリッシュ)氏はいう。

第2に、データ評価は内容もより現実的だ。パズル形式の難問は一筋縄では解けないように、あるいはよく知られたアルゴリズムの知識をテストするために意図的に考えられたものだ。実世界では、こうしたアルゴリズムを手で書くことは絶対にないし(通常はインターネット上で入手可能な無償のソリューションを使う)、仕事で遭遇する問題にパズルのようなトリッキーなものは滅多にない。データプロジェクトでは、応募者に実際に扱う可能性のあるデータを与え、評価結果の社内における共有方法と同様に成果物を構造化するため、実際のジョブスキルに近い能力をテストできる。

業界経験が長く「Data Teams(データチーム)」の著者でもあるJesse Anderson(ジェシー・アンダーソン)氏は、データ評価による選考を強く推奨している。同氏は次のように指摘する。「これは、応募者と企業の双方に有益な方法だ。面接を受ける側は、実際の仕事に近い作業を体験できる。マネージャーは、志願者の作業と能力を、実際の仕事に即して詳しく判定できる」。プロジェクトベースの評価には、書面によるコミュニケーション力を評価できるという利点もある。これは新型コロナウイルスでリモートワークが増えた今、ますます重要なスキルとなっている。

最後に、書面による技術プロジェクトワークは、従来の雇用プロセスに存在する先入観の多い側面を和らげることで、偏見を排除するのに役立つ。同じ履歴書を提出しても、ヒスパニック系やアフリカ系の米国人は白人に比べて面接の連絡をもらえることが少ない。これに対応するため、人種的マイノリティーの応募者は自身の履歴書を故意に「白人化(履歴書で白人を装うこと)」している。対面式の面接も、こうした問題のある直感に基づいて行われることが多い。仕事のパフォーマンスにより近い評価を重視することで、面接担当者は、偏見のある「直感」に頼るのではなく、実際の資質や能力の判定に集中できる。#BLMや#MeTooに単なるハッシュタグ以上の意味を感じている企業は、自社の採用プロセスをどのように微調整すればより広範な平等を実現できるのかを検討しているようだ。

データ評価の詳細な形式はさまざまだ。データ・インキュベーターで行った調査によると、60%を超える会社が自宅に持ち帰って行うデータ評価を課題として与えていることが判明した。こうしたデータ評価は実際の仕事の環境をシミュレートするには一番の方法だ。応募者は、通常数日間に及ぶリモートワークを体験できるからだ。また、約20%の会社が、応募者が面接プロセスの一部としてデータ分析を行う面接データプロジェクトが必要だと答えている。こうした面接時に行うデータプロジェクトでは、応募者が制限時間というプレッシャーを受けるものの、終わるまでデータ評価作業に延々と取り組むプレッシャーから解放される。「課題を自宅に持ち帰って取り組むには多くの時間が必要だ」と経験豊富なデータサイエンティストで「The Data Science Handbook(データサイエンス・ハンドブック)」の著者でもあるField Cady(フィールド・キャディ)氏は説明する。「これは応募者にとってかなり負担のかかる作業である。また、家庭での責任があるため、夜の時間の多くを課題に費やすことができない応募者には不公平となる可能性がある」。

企業側が自社で作成したデータプロジェクトを課題として出さずに済むように、賢明な応募者は、自身のスキルを見せるために事前にポートフォリオプロジェクトを構築している。企業側も自社のカスタムプロジェクトの代わりに、応募者が事前に用意したプロジェクトを課題として受け入れるところが増えている。

古いパズル形式の難問を面接時に使用する企業はなくなりつつある。こうした古いやり方に固執している20%の企業の大半は、通常変化に適応するのが遅い有名大企業だ。こうした大企業は、時代遅れの採用プロセスは単に古くさいだけでなく、応募者を遠ざけることになることを認識する必要がある。最近のオンライン会議で、出席したパネリストの1人にデータサイエンス関連職として新規採用された人がいたが、彼はその会社の選考過程があまりにお粗末だったため入社を断ったと話してくれた。

採用プロセスが時代遅れになっている組織が果たして強いチームを形成できるのだろうか。データ・インキュベーターのデータサイエンスフェローシップを終えようとしている博士号取得者の多くがこのような気持ちを抱いている。新しい現実を受け入れることができない企業は、最高の人材を獲得するための競争に敗れている。

関連記事:自動化によりデータサイエンスは不要になるだろうか?

カテゴリー:人工知能・AI

タグ:データサイエンス コラム

原文へ

(翻訳:Dragonfly)

自動化によりデータサイエンスは不要になるだろうか?

著者紹介:Tianhui Michael Li(ティエンフイ・マイケル・リー)氏は、学術界から産業界への博士やポスドクの移行を支援する8週間のフェローシップで知られる、The Data Incubator の創設者である。それ以前はFoursquareでマネタイゼーション・データサイエンスの責任者を務め、GoogleやAndreessen Horowitz、J.P.Morgan、D.E.Shawにおける勤務経験も有する。

「自動化によりデータサイエンスは不要になるだろうか?」

これは、私が参加するカンファレンスでほぼ毎回尋ねられる質問である。大抵質問を発するのはこの問題に関心を寄せる2つのグループである。まず1つ目のグループは、将来の雇用の見通しについて憂慮している現役の実務家、またはその志望者である。もう一方のグループは、データサイエンスへの取り組み開始したばかりの経営陣やマネージャーで構成されている。

彼らは、Targetは顧客が妊娠しているかどうかを買い物のパターンから判断できる、と聞くと、彼らのデータにも適用できるそうした強力なツールを持てないかと考える。そして、自動化AIベンダーが最新のセールスプレゼンテーションで、データサイエンティストなしにTargetが行ったのと同じこと(あるいはそれ以上)を実現できる、と主張するのを耳にする。彼らの問いに対し、私たちは、自動化や、より進化したデータサイエンスツールは、データサイエンスの需要をなくすことも、減らすこともないと主張している(Targetのストーリーのようなユースケースを含めて)。自動化によってさらに多くのデータサイエンスに対する需要が生み出されるのだ!

その理由は次のとおりだ。

関連記事:What’s different about hiring data scientists in 2020?」(未訳記事)

ビジネス上の問題を理解することが最大の課題

データサイエンスにおける最も重要な問題は、どの機械学習アルゴリズムを選択するかではなく、どのようにデータをクリーンアップするかでさえない。コードを書く前にまず考えるべきことがある。それはどのようなデータを選択し、そのデータに対してどのような質問を設定するか、ということである。

一般的イメージに欠落しているのは(希望的観測の面もあるが)、創意工夫、創造性、そしてこれらのタスクに注がれるビジネスへの理解である。顧客が妊娠しているかどうかを気にするのはなぜか。Targetのデータサイエンティストたちは、積み重ねてきた研究作業に基づいて、これがなぜ小売業者を変える準備をしている高収益の顧客層であるのかを把握した。利用可能なデータセットはどれか?それらのデータセットについて科学的に検証可能な質問をどう提示できるか?

Targetのデータサイエンスチームは、ベビーレジストリ(ベビー用品の買い物リスト作成サービス)データを購入履歴と結びつけ、それを顧客の支出と結びつける方法を見い出した。どのようにして成果を測るか。非技術的な要件を、データで回答できる技術的な質問に定式化することは、データサイエンスにおける最も困難な作業の一つであり、さらに精度を伴うことは非常に難しい。こうした問題を定式化できる経験豊かな人間がいなければ、データサイエンスへの取り組みを始めることさえできないだろう。

前提条件の作成

データサイエンスの質問を定式化した後、データサイエンティストは前提条件の概要をまとめる必要がある。これには、多くの場合、データのマンジング、データのクリーンアップ、フィーチャーエンジニアリングといった作業が伴う。現実世界のデータはまぎれもなく混沌としており、保有するデータと、取り組もうとしているビジネスやポリシーの質問とのギャップを埋めるために、多くの前提条件を作らなければならない。また、これらの前提条件は、実際的な知識とビジネスコンテキストに大きく依存する。

Targetの例では、データサイエンティストは妊娠の代理変数、分析の現実的な時間枠、正確な比較のための適切な対照群について前提条件をまとめる必要があった。彼らは、無関係なデータを捨て、特徴を正しく正規化できるような、現実的な前提条件をほぼ確実に作成しなければならなかった。こうした作業はすべて、人間の判断に大きく依存している。機械学習におけるバイアスに基づく問題が最近相次いでいるとおり、人間をこのループから外すのは危険だ。その問題の多くが、フィーチャーエンジニアリング排除強く主張するディープラーニングアルゴリズム周辺から発生しているのは、偶然ではないだろう。

コアとなる機械学習の一部は自動化されている(私たちもこれらのワークフローを自動化する方法をいくつか教えてさえいる)が、データサイエンスにおける実際の仕事の90%を占める、データのマンジング、データのクリーンアップ、フィーチャーエンジニアリングについては、安全に自動化することはできないのだ。

歴史的な例示

データサイエンスが完全には自動化されないことを示唆する明確な先例がある。ある分野では、高度な訓練を受けた人間が、コンピューターに驚くべき偉業を達成させるコードを生み出している。こうした人材は、この分野において、スキルを持たない人材よりもかなり高い報酬を得ており(驚くにはあたらない)、このスキルの訓練に特化した教育プログラムが存在する。その結果生じる、この分野を自動化しようとする経済的圧力は、データサイエンスへの圧力と同じように激しい。その分野とは、ソフトウェアエンジニアリングである。

実際、ソフトウェアエンジニアリングが容易になるにつれて、プログラマーへの需要は増すばかりである。自動化によって生産性が向上し、価格が下がり、最終的に需要が増大するというこのパラドックスは、新しいものではない。ソフトウェアエンジニアリングから財務分析企業会計に至るまで、さまざまな分野で繰り返し見られている現象だ。データサイエンスも例外ではなく、自動化により、このスキルセットに対する需要が促進されるだろう。

関連記事:データ駆動型組織になるための5つの構成要素

カテゴリー:人工知能・AI

タグ:機械学習 コラム データサイエンス

[原文へ]

(翻訳:Dragonfly)