IEEE主催のサーモ画像超解像化コンペで東京・渋谷のクーガーが世界2位を獲得

近い将来、AIは人間には見えない景色、例えば温度分布を見て周りの状況を把握するようになる——スパイ映画かSFの設定のようなテクノロジーをまた一歩現実に近づける、コンピュータビジョンのコンペティションが開催された。

主催者は、電子工学・情報工学分野で世界最大の学会であり、国際的な技術標準化機関でもあるIEEE(アイトリプルイー)。彼らが開催したコンペ「Thermal Image Super-Resolution Challenge」は、解像度の低いサーモグラフィー画像から、機械学習で高解像度の画像を生成する手法を競うものだ。

6月14日に結果が発表されたこのコンペでは、東京・渋谷に拠点を置くクーガーのAIリサーチャー、Sabari Nathan氏とPriya Kansal氏によるモデルが2位に入賞。コンピュータビジョンの2大カンファレンスのうちの1つ「CVPR」に論文が採択された。

自動運転やロボへの応用も期待されるサーモ画像解析

クーガーは、AI、IoT、AR/VR、ブロックチェーンなどの技術を組み合わせて、人型AI「バーチャルヒューマンエージェント」の開発を進めている企業だ。同社はこの開発の一環として、AIエージェントの視覚を担う画像情報の分析・解析についても研究開発を行っている。

クーガーのAIチームは2019年9月、Facebookが主催するアイトラッキングの認識精度を競うコンペで、2D画像の眼球位置を推定する「Semantic Segmentation Challenge(セマンティックセグメンテーションチャレンジ)」においても世界3位を獲得している。今回のIEEEのコンペでクーガーから提出されたモデルは、Facebookのコンペで使われたコンピュータビジョンのためのアイデアを応用したものだという。

IEEEが今回のコンペを実施した目的は、画期的で新規性のある、精度の高いサーモグラフィー画像解析の機械学習ソリューションを探すためだ。

写真などの画像データが可視光を扱うのに対し、サーモグラフィー画像は熱を扱うため、照明その他の環境条件の影響を受けない。このため医療や軍事、物体検出など幅広い用途で利用が可能だ。例えば空港や学校といった施設で熱がある患者を見分けることでウイルス感染拡大を防ぐ、夜間の運転時に人を検知することで事故を防ぐといった場面では既に活用が進んでいる。

IEEEが2004年から開設する「Perception Beyond the Visible Spectrum(PBVS)」(可視域外の知覚)に関するワークショップでも、こうした可視光以外の画像解析には、さまざまな応用範囲があるとして期待が寄せられてきた。

例えば自律走行中の自動運転車が、可視光のみでは逆光のときに進行方向の状況が判別できない、といった場合に、サーモグラフィー画像が視野を補えば、障害物や標識などを見分けることが可能になる。自動運転モビリティやドローン、ロボットなどへの応用のほか、人工衛星からの画像や、光の届かない水中の画像分析などにも活用できるサーモグラフィー画像解析へのニーズは、今後ますます高まるはずだ。

ここで課題となるのが、センサーで撮影されたサーモグラフィー画像の解像度、質である。一般にサーモグラフィー画像の解像度は、写真などの画像の解像度に比べると低い。このため、機械学習による解析・処理によって画像の質を上げることで、何が写っているかが判別できるようにする必要がある。今回のコンペでは、低解像度のサーモグラフィー画像から、より精度の高い高解像度画像(超解像画像)をつくり出す手法が競われた。

従来、低解像度画像の解像度を上げるために行われる機械学習では、与えられた画像にダウンサンプリングを行い、ノイズやぼかしを加えた質の悪い画像と元の画像とを使って学習を行うアプローチが取られてきた。一方、異なる解像度のカメラから得られた一対の画像を使って学習を行うアプローチはほとんど採用されてきていない。

今回のコンペでは、3つの解像度が異なる赤外線カメラで撮影された実際の低・中・高解像度の画像セットを学習データとして用いる、新しい機械学習の手法が評価された。

コンペの評価は2種類の方法で行われた。1つは3つの異なる解像度で撮影された元画像にノイズを加えてダウンサンプリングし、それぞれのデータから元の解像度と同じ解像度の画像を生成して、元画像と比較するというもの。もう1つは、中解像度カメラで撮影された実画像から超解像画像を生成して、対になる高解像度画像と比較するというものだ。2つめの課題ではクーガーチームが1位に評価されており、トータルで2位を勝ち取る結果となった。

高解像度画像の生成例(左が実画像、右が生成画像)

実用に耐えるサーモ画像認識ソリューション目指す

クーガーチームが用いた手法では、3レイヤーでのアップサンプリングと、畳み込みブロックアテンションモジュール(Convolutional Block Attention Module:CBAM)を組み合わせている。

3層化したのは、1層につき1つの特徴量に対応するため。1レイヤーでは同種画像の分析には強いが、複数の特徴量、今回の場合では解像度の異なる画像の分析を1度にこなすのが難しい。そこで3レイヤーで3種のスケールの高解像化に対応できるようにすることで、アウトプットの精度を担保したという。

通常は調整パラメータが多くなるため、こうした構造のアプローチは取られないそうだ。学習データを豊富に持つ研究室ならデータ量でカバーしようとするところを、少ないデータでも処理できるように工夫した結果がこのアプローチだという。またCBAMで、注目する特徴量として何を有効にするかを決めることで、うまく処理が行えているとのこと。Sabari Nathan氏は「Facebookのコンペティションの経験もあり、やり切れることは分かっていたので」このアプローチを採用したと述べている。

クーガーの手法を使った超解像画像の生成は1秒以下と、高速での処理が可能だ。「動作が軽いので、実際にいろいろな場面で使える」とクーガー代表取締役CEOの石井敦氏は話している。

「今回のコンペでは、軽量であることは評価対象ではなかったが、我々としてはバーチャルヒューマンエージェントで動かすことを前提に実用化を目指しているので、そこにもこだわった。人間の視覚は複雑で、色や距離、雰囲気などを瞬時に見て取る力がある。今回のチャレンジは熱を使うことによって、視覚をより分解した取り組みになる。サーモグラフィー画像は可視光の画像よりデータが小さく、高速で処理できるため、応用範囲は広い」(石井氏)

クルマやドローンなどの小さなスペースに搭載できて、安価なカメラで撮影した画像でも認識性能を向上したいというニーズには、こうしたソリューションが大きく貢献するだろう。

「今後、コンピュータビジョンはますます頼りにされる。世の中の変化によって、学習データは日々変わる中で、精度の高いソリューションを生み出し続けるために、今回のようなコンペが実施された。解像度を上げて、それっぽくきれいに見えるというだけでは意味がない。低解像度のサーモグラフカメラでも、いい結果が出せて、また広い範囲で正しく認識できる。無人の自動運転車やドローンを運行するときなどには必要な、リアルタイムでの画像分析で求められる成果だ」(石井氏)

AI vs ウソと差別的発言、コロナ禍のいまFacebookが抱える大問題とは

FacebookのAIツールは、いまFacebookで吹き荒れている差別的発言や偽情報とユーザーの間に立つモデレーターの役割を一手に引き受けている。同社の研究者は、ミームを装った新型コロナウイルス感染症関連の偽情報や差別発言を特定することで、こうした発言に対する水際対策を講じるための機能をいくつか考え出した。

今は新型コロナウイルス関連の偽情報を検出して排除することが優先事項であることは間違いない。Facebookやその他のソーシャルメディアは、通常の憶測や議論だけでなく、組織的に不和の種をまいたりエセ科学を広めたりするなどの、悪意ある妨害の温床となっているからだ。

「新型コロナウイルス感染症の影響で、サイト全体でユーザーの行動が大きく変わってきている。我々が危険だと感じる偽情報が急増している」とFacebookのMike Schroepfer(マイク・シュローファー)CTOは報道陣の取材に答えた。

Facebookは世界中で数十社のファクトチェック団体と契約している。そうした団体との協力体制がどの程度の効果を上げているのかという疑問はさておき、偽情報はすぐに変異していく傾向があるため、1つの画像やリンクを削除するだけでも複雑な仕事になる。

一例として、次の1つの画像を見てほしい。

これらの画像は、背景、色、書体が同じであることからほぼ同一であるともいえる。だが、2枚目の画像は少し異なっている。オリジナルではなく、誰かがオリジナル画像のスクリーンショットを撮ったものだ。3枚目の画像もほぼ同じだが、文が逆の意味になっている。

あまり洗練されていない画像認識アルゴリズムでは、これらの画像はわずかに異なる部分があるために(生成されるハッシュ値がまったく異なるため)まったく別の画像として認識されるか、圧倒的に類似点が多いためすべて同じ画像として認識されるかのどちらかである。もちろん、人間が見ればすぐに違いが分かるが、この違いを確実に識別できるようにアルゴリズムをトレーニングするのはかなり難しい。それにFacebookでは情報がまたたく間に拡散するため、上記のような同じような画像が数千も存在する状態になることがある。

「我々の目的は、人が見れば同じ画像とみなされるこうした類似画像を同じ画像として検出することだ」とシュローファー氏はいう。「これまでのAIシステムは非常に精度が高かったが、その分、わずかな違いに対して非常に弱い。数ピクセル変更しただけで、別画像と認識してしまい、削除対象から除外されてしまう。そこで我々はこの2年半で、ニューラルネットワークベースの類似性検出システムを構築した。これにより、より広範囲にわたって、こうしたわずかに異なる画像を高精度で特定できるようになった」。

幸いにも、そうした規模での画像解析はFacebookの得意とするところだ。写真を比較して顔やあまり望ましくないものの特徴を検索するためのアルゴリズム基盤はすでに整っている。あとは何を探すのかを教えるだけだ。そうして数年の努力の結果完成したのが「SimSearchNet」だ。SimSearchNetは、最も目立つ(ただし人の目ではまったく気づかないような)特徴を詳しく調べることによって、ある画像に非常によく似た画像を検索および解析するシステムだ。

現在、InstagramとFacebookにアップロードされる1日あたり数十億にのぼる画像はすべて残らずSimSearchNetによって調査されている。

Facebook MarketplaceもSimSearchNetの監視の対象だ。このマーケットプレイスでは、アップロード画像に関するルールをすり抜けようとする人たちが、同じ出品アイテムについて、ほぼ同一だが少しだけ編集した画像(例えばN95マスクの画像など)をアップロードして、削除を免れるようにしている。SimSearchNetでは、色やその他の方法で編集された写真の類似性がチェックされ、(削除対象となっている写真と同一と判定されれば)出品が中止される。

差別的ミームと意味があいまいなスカンク

Facebookが対応に苦慮しているもう1つの問題がヘイトスピーチ、およびそれに準ずる不快表現だ。とりわけAIによる検出が特に難しいことが分かっている領域としてミームがある。

問題は、こうした投稿は画像とテキストの相互作用によって初めて意味を成すことが多いという点だ。テキストだけではまったく問題なかったり意味があいまいだったりしても、画像と組み合わせることで意味が明確になる。それだけではない。画像やフレーズにはそれこそ無限のバリエーションがあり、それによって意味が微妙に変わる(あるいは変わらない)ことがある。次の例をご覧いただきたい。

Facebook上のミーム

これらは悪意のあるミームだがトーンダウンされている。Facebookでよく見かける本当に差別的なミームはこんなものではない

パズルを構成する個々の画像は、コンテキストによって問題ないこともあれば、侮辱的にもなる。こうした善悪を機械学習システムでどのように判別すればよいだろうか?こうした「複合型ヘイトスピーチ」は、AIの動作の仕組みという観点からすると大きな問題となる。既存のAIシステムは言葉を理解し、画像を判別できるが、両者の相互作用によってもたらされる結果を特定するのは簡単ではない。

Facebookの研究者たちによると、このようなテキストと画像の相互作用というテーマに関する研究は驚くほど少ないという。その意味でFacebookの研究は解決策というより探査ミッションのようなものだ。この研究によりFacebookがたどり着いたテクニックは数段階の手順から成る。まず、人に膨大な数のミーム型画像も見てもらい差別的発言かどうかを示す注釈を付けてもらう。次に、このデータに基づいて機械学習システムをトレーニングして、既存のシステムとは決定的に異なるシステムを構築した。

こうした画像分析アルゴリズムはほとんどの場合、テキストと画像を同時に提示すると、まずはテキスト、次に画像という具合に別々に分類してから、両者の関連付けを行う。しかし、その方法には上述のような脆弱さがある。つまり、差別的ミームのテキストと画像を、コンテキストを考えずに別々に見ると、まったく無害なコンテンツであると判別される可能性がある。

Facebookのシステムはテキストと画像の情報をパイプラインの最初の段階で組み合わせて(これを「早期融合」と呼ぶ)、従来の「遅延融合」アプローチとの違いを生み出す。この方法は人の処理方法に近い。つまり、メディアを構成するすべての要素を見てからその意味やトーンを評価するというやり方だ。

この新しいアルゴリズムは現時点ではまだ本格的導入されてはいない。全体的な精度は65~70%程度だ。だがシュローファー氏によると、有効性の評価には「本当に判別の難しい問題」を使っているという。複合型ヘイトスピーチは簡単に判別できるものもあれば、人でも判別が難しいものもある。

システムのミーム判別能力をさらに高めるため、Facebookでは、今年後半に開催されるNeurIPS AIコンファレンスで「差別的ミームチャレンジ」と題するコンテストを実施する予定だ。コンテストは普通、機械学習システムにとって難しいタスクが課題として使われる。そのような新しい問題は研究者たちの大好物だからだ。

FacebookのポリシーにおいてAIが果たす役割の変化

Facebookは、新型コロナウイルス大流行の初期に、AIのモデレーターとしての役割を拡充強化していく計画を発表した。マーク・ザッカーバーグ氏は3月、記者会見で、「1万5000人のモデレーター契約社員が自宅で有給休暇を取っている状態を考えると、『偽陽性』(誤って削除対象にしてしまうコンテンツ)の件数が増えると思われる」と語った。

YouTubeTwitterも同時期にコンテンツのモデレーション作業のAI移行を強化したが、AIによるモデレーションへの依存度が大きくなると、ルールに違反していないコンテンツが誤って削除対象となる可能性があることを警告している。

FacebookはAI化を進める一方で、人間のレビューアの通常出勤を促すことに必死である。ザッカーバーグ氏は4月半ば、社員の通常出勤への復帰スケジュールを明示し、コンテンツレビュアーは通常勤務への早期復帰が最も望まれる「重要職」であると述べた。

FacebookはAIシステムによるコンテンツの削除は行き過ぎる可能性もあると警告しているが、新型コロナウイルス危機の拡大にともない、ヘイトスピーチ、悪質な脅し、偽情報などもサイトで拡散を続けている。Facebookは最近、マスクをしないようにとか、ワクチンが入手可能になっても買い求めないように促す、健康に関する偽情報ルールに明らかに違反した口コミ動画を広めたとして非難されている。

この動画は「Plandemic」という公開予定の偽情報ドキュメンタリーから抜粋され、最初はYouTubeで拡散したものだが、研究者たちはFacebookで活発に活動している陰謀論支持者グループが広くこの動画を共有した結果、ネット上で広く議論される主要な話題となったと見ている。陰謀説がちりばめられた26分間のこの動画は、アルゴリズムで解釈するのが難しいコンテンツの典型例でもある。

またFacebookは火曜、テロリズム、ハラスメント、ヘイトスピーチといったカテゴリ全体にわたるモデレーション作業の詳細を記述したコミュニティ規定違反対応レポートを発表した。今回のレポートにはパンデミックが発生してから1か月分の結果しか含まれていないが、AIによるモデレーションへの移行が進めば、次回は、その成果がより反映されたものとなるだろう。

Facebookのモデレーション作業に関する質問に対し、ザッカーバーグ氏は「パンデミックによって人によるレビューが大変難しくなった。ユーザーのプライバシー保護および社員の精神衛生の保護に関する懸念から、レビューアの在宅勤務は課題が多いが、それでも現在その方向に確実に進めている」と述べた。FacebookはTechCrunchの取材に対し、常勤コンテンツレビュアーの出社勤務については、ごく一部の希望者にのみ許可していると回答した。コンテンツ管理担当副社長Guy Rosen(ガイ・ローゼン)氏によると、大部分の契約コンテンツレビュアーは在宅勤務が可能となったという。「モデレーション作業では今後も人間の能力が重要な役割を果たすだろう」とローゼン氏は語った。

関連記事:いまさら聞けない機械学習入門

Category:AI・人工知能

Tag:Facebook 機械学習 画像認識

“新型コロナウイルス

[原文へ]

(翻訳:Dragonfly)