2020年の変化に人は適応し始めているがAIは苦労している

2020年は、すべての産業がその前進のシナリオを新型コロナウイルス(COVID-19)に照らして再考することを迫られた年だ。公民権運動、大統領選挙、その他の数え切れないほどの大きなニュースが続いている。人間たちは、新しい生活様式に適応しなければならなかった。私たちはこれらの変化を受け入れ始め、新しいパンデミックルールの下で、人生をどう生きていくのかを理解し始めたところだ。人間がそのように落ち着きつつある一方で、AIは適応に苦労している。

2020年におけるAIトレーニングの問題とは、突然私たちが、社会的および文化的規範を変えたことだ。私たちがこれらのアルゴリズムに教えてきた真実の多くが、その真実性を失ってしまった。とりわけビジュアルAIは、それがまだ手に入れていないアップデートされた文脈に沿った、新しい生活様式を即座に解釈することが求められている。

アルゴリズムは新しいビジュアルデータへの適応を続けている最中であり、対象を正確に識別する方法を理解しようとしている最中だ。ビジュアルAIがアップデートされていくにつれて、不正確なトレーニングデータセットと既存のオープンソースモデルを修正できるように、AIトレーニングプロセスにおける定期的なアップデートの、新たな重要性の確立も必要としている。

コンピュータービジョンモデルは、新型コロナウイルスの時代になって私たちが出会った新しいシーンや状況の描写に対して、適切なタグを付けることに苦労している。カテゴリーが変わったのだ。例えば、息子が傍らで遊んでいる在宅勤務中の父親の画像があるとしよう。今でもAIは、それを「レジャー」または「リラクゼーション」として分類する。横で子供が遊びながら仕事をしている様子が、この時期の多くの家庭で見られる光景だとしても、AIがそれを「仕事」や「オフィス」と識別することはない。

画像クレジット:Westend61/Getty Images

より技術的なレベルでは、私たちは世界の異なるピクセル描写を物理的に抱えている。Getty Imagesでは、私たちはAIに「見る」ための訓練をしてきた。これが意味するのは、アルゴリズムが画像を識別し、その画像のピクセル構成に基づいてそれらを分類し、何がそこに含まれているかを決定できるということだ。私たちの日常生活のあり方が急速に変わることが意味するのは、カテゴリーやタグもそれにともなって変える必要があるということだ。例えば「掃除」を考えてみよう。

考えてみて欲しい。今や「掃除」には、視覚的にはきれいな表面を拭く行為も含まれるようになったのだ。これまでのアルゴリズムは、掃除といういうものは、とっ散らかった状況がまず必要だと教えられていた。これはとても異なるもののように見える。これらの再定義されたカテゴリパラメータを取り入れるために、システムを再トレーニングする必要があるのだ。

これは小さなレベルにも関係している。誰かが小さなワイプでドアノブを掴んでいたり、車の中に座った人がハンドルを拭いているかもしれない。かつては些細だったことが、今では人々が安全を確保しようとする際に重要なものになっている。適切にタグ付けされるように、こうした小さなニュアンスをもキャッチする必要がある。そうすることでやっと、AIは2020年の私たちの世界を理解し始め、正確な出力を生成することができるようになる。

マスクと手袋をした中国人女性。在宅命令が発令される中、買い物に行く前に車内の清掃と消毒を行っている。画像クレジット:Chee Gin Tan/Getty Images

現在AIのまた別の問題は、機械学習アルゴリズムはマスクをした顔を識別および分類する方法の模索を、まだ続けているということだ。顔は、顔の上半分だけまたは2つの顔(マスク付きの顔と目だけの顔)として検出されている。これにより不整合が生じ、顔検出モデルの正確な利用が妨げられることになる。

前進するための1つの方法は、マスクの上である顔の上部のみが与えられた場合のパフォーマンスを向上させるために、アルゴリズムを再トレーニングすることだ。このマスクの問題は、サングラスをかけている人や横顔から顔を検出するなどの、従来からの顔検出の課題に似ている。今ではマスクも一般的なものになった。

撮影場所:ダルエスサラーム/タンザニア 画像クレジット:Rodger Shija/EyeEm/Getty Images

こうしたことからわかるのは、コンピュータビジョンモデルが止まることなく進化し続ける私たちの社会の風景を本当に「見る」ことができるようになるまでには、まだ長い道のりがあるということだ。こうしたことに対抗するためには、堅牢なデータセットを構築したい。そして、顔が遮られたり覆われたりする可能性がある無数のさまざまな方法に対して、説明ができるようにコンピュータビジョンモデルをトレーニングするのだ。

この時点で、私たちはアルゴリズムが顔と見なすもののパラメーターを拡大している。それは食料品店でマスクを着用している人なのか、日常業務の一部としてマスクを着用している看護師なのか、または宗教的な理由で自らの顔を隠している人なのか。

こうした堅牢なデータセットを構築するために必要なコンテンツを作成するときには、意図していないバイアスが増える可能性があることに注意する必要がある。AIには常にある程度のバイアスが存在しているが、今やニューノーマルを反映したバランスのとれていないデータセットが、私たちの目の前にあるのだ。例えば他の人種に比べて、マスクを着けている白人の画像が増えている。

これは、厳格な在宅命令のために、写真家たちが自分のコミュニティ以外へのアクセスが制限され、被写体を多様なものにできない結果である可能性が高い。この主題を撮影することを選んだ写真家の人種に関連している可能性がある。もしくは、新型コロナウイルスがさまざまな地域に及ぼした影響のレベルの違いによるものかもしれない。理由がどのようなものであるにせよ、こうしたバランスのとれていないデータセットがあることで、アルゴリズムは他のどの人種や民族よりも、マスクを着けている白人をより正確に検出できるようになる。

データサイエンティストやモデルを利用してプロダクトを開発する人たちの、社会規範の変化に照らしてモデルの正確性をチェックする責任が、さらに重要なものになっている。トレーニングデータとモデルの定期的なチェックとアップデートは、モデルの品質と堅牢性を確保するための鍵だ。その重要性がこれまでになく高まっている。もし出力が不正確な場合には、データサイエンティストはそれらを素早く特定し、軌道修正することができる。

私たちの現在の生活様式が、見えている範囲での未来でも継続するだろうということにも触れておこう。こうした理由から、トレーニング目的で利用しているオープンソースのデータセットには、注意する必要がある。データセットは変えることができるし、そうすべきだ。変更できないオープンソースモデルには免責事項を記載する必要があるため、どのプロジェクトが古いプロジェクトのトレーニングデータから悪影響を受ける可能性があるかは明らになる。

システムによる理解が求められている新しいコンテキストの識別は、ビジュアルAIを前進させるための最初のステップだ。次に、より多くのコンテンツが必要である。周囲の世界に対する、多様な視点からの、より多くの描写。そしてこの新しいコンテンツを蓄積する際には、新しい潜在的なバイアスと、既存のオープンソースデータセットを再トレーニングする方法を検討しよう。私たちはみな、矛盾や不正確さをモニタリングする必要がある。コンピュータービジョンモデルの再トレーニングの恒久化と専業化が、2020年にAIを活かす鍵なのだ。

【編集部注】著者のAndrea Gagliano(アンドレア・ガリアーノ)氏は、Gety Images(ゲッティ・イメージズ)のデータサイエンス責任者であり、コンピュータービジョンと自然言語処理に重点的に取り組んでいる。彼女は倫理的AIプロダクトの開発のために、Getty Imagesの科学者、エンジニア、プロダクトデザイナー、ビジネスリーダーたちの教育を主導している。

原文へ
(翻訳:sako)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。