IBM WatsonのCTO Rob Highにとって、機械学習における現時点の最大の技術的課題は、少ないデータでどうやってモデルを訓練するか、ということだ。バルセロナで今行われている例年のMobile World Congressでインタビューしたとき彼は、“それはチャレンジであると同時に目標でもあるが、それが可能だと信じられる理由もある”、と語った。
彼のこの意見は、業界全体の声を反映したものでもある。GoogleのAIのチーフJohn Giannandreaはたとえば最近、それを同社の機械学習グループが取り組んでいる主要な課題の一つとして挙げた。通常、機械学習のモデルは、正確であるために大量のデータで訓練する必要があるが、しかし、そんな大きなデータ集合がそもそも存在しない問題も多い。
しかしながらHighは、これが解決可能な問題だ、と信じている。なぜか? “人間はそれをしているからだ。われわれ人間にはデータポイントがある”、と彼は言う。ここで心に留めなければならないのは、人間がやってることの中にその証拠がある、と彼が言うのは、具体的なあの機会やこの瞬間に、人間の学習の仕方に関する情報がある、という意味ではない。“むしろ、テーブルの上にはありとあらゆるコンテキストがあるのだ”。つまりHighが言いたいのは、少ないデータでモデルの訓練が可能になるのは、コンテキストのおかげであり、また、転移学習(transfer learning)における最近の進歩だ。それは、すでに訓練されているモデルを、データの少ない別のモデルの訓練に利用する技法だ。
しかしAIの課題、とくに会話的AIの課題は、さらにもっと困難だ。“もう一方では、人間が自然だと感じるようなやり方で人間と対話し、人間の思考に影響を与えるにはどうするか、という課題がある”、とHighは語る。“人間は、彼らがやり取りする言葉だけから影響されるのではなく、それらの言葉を収めている発声や屈折、抑揚、韻律、気分、顔の表情、腕や手のジェスチャー、などなどの影響も受ける”、Highは、AIがこれらの要素を擬人的に模倣すべきだ、とは考えていない。むしろ、デバイス上の何らかの形のビジュアルキューを使うだろう、と。
それと同時に、多くのAIシステムがもっと上手になるべきなのが、質問の意図を正しく理解することだ。その質問は、何かに関するその人の前の質問とどう関連しているのか。その人の今の心の状態や人柄が、質問の意図にどう影響しているか、など。
しかしここから、もうひとつの疑問が生ずる。今実用化されている機械学習のモデルの多くは、それらが訓練されたときのデータによって偏りが生じている。分かりやすい単純な例としては、そのモデルは白人の男性に関しては精度が高く、黒人の女性に対しては成績が悪い、ということがありえるだろう。この問題にHighはこう答える: “方程式の両辺を見る必要がある。ひとつは、データの集積による偏りで、これに対してはよく注意して、人間ならばそのモデルが表している文化的および集団的側面を広げる努力をしなければならない。しかしもうひとつは、個人的偏りよりは、集積的偏りの方が望まれる場合もある、ということだ”。〔偏りが求める母集団の特性を表しているような場合。〕
Highは、IBMがSloan Kettering Cancer Center(がんセンター)で行った例を取り上げた。その病院は、がん治療の優れた外科医たちの仕事に基づいてモデルを訓練した。彼曰く: “しかしSloan Ketteringには、治療のやり方に関する独特の哲学があり、その哲学が偏りとして組み込まれた。それはその機関の偏りであり、彼らのブランドでもある。[…]Sloan Ketteringの外でそのシステムを利用するときも、その哲学による偏りを免れない”。
“偏りが正しい偏りであるためには、モデルの利用者や、彼らが代表している集団が、多様な文化集団がある中でもとくに、その偏りにとって適正な人びとでなければならない”。これは、IBMのクライアントに対してHighがよく言う言葉でもある。偏りを偏りとして直視し、ときにはその意義も認めることは、今だにこの種の話題を無視しがちな業界における、肯定的な兆候のひとつだ。