IEEE主催のサーモ画像超解像化コンペで東京・渋谷のクーガーが世界2位を獲得

近い将来、AIは人間には見えない景色、例えば温度分布を見て周りの状況を把握するようになる——スパイ映画かSFの設定のようなテクノロジーをまた一歩現実に近づける、コンピュータビジョンのコンペティションが開催された。

主催者は、電子工学・情報工学分野で世界最大の学会であり、国際的な技術標準化機関でもあるIEEE(アイトリプルイー)。彼らが開催したコンペ「Thermal Image Super-Resolution Challenge」は、解像度の低いサーモグラフィー画像から、機械学習で高解像度の画像を生成する手法を競うものだ。

6月14日に結果が発表されたこのコンペでは、東京・渋谷に拠点を置くクーガーのAIリサーチャー、Sabari Nathan氏とPriya Kansal氏によるモデルが2位に入賞。コンピュータビジョンの2大カンファレンスのうちの1つ「CVPR」に論文が採択された。

自動運転やロボへの応用も期待されるサーモ画像解析

クーガーは、AI、IoT、AR/VR、ブロックチェーンなどの技術を組み合わせて、人型AI「バーチャルヒューマンエージェント」の開発を進めている企業だ。同社はこの開発の一環として、AIエージェントの視覚を担う画像情報の分析・解析についても研究開発を行っている。

クーガーのAIチームは2019年9月、Facebookが主催するアイトラッキングの認識精度を競うコンペで、2D画像の眼球位置を推定する「Semantic Segmentation Challenge(セマンティックセグメンテーションチャレンジ)」においても世界3位を獲得している。今回のIEEEのコンペでクーガーから提出されたモデルは、Facebookのコンペで使われたコンピュータビジョンのためのアイデアを応用したものだという。

IEEEが今回のコンペを実施した目的は、画期的で新規性のある、精度の高いサーモグラフィー画像解析の機械学習ソリューションを探すためだ。

写真などの画像データが可視光を扱うのに対し、サーモグラフィー画像は熱を扱うため、照明その他の環境条件の影響を受けない。このため医療や軍事、物体検出など幅広い用途で利用が可能だ。例えば空港や学校といった施設で熱がある患者を見分けることでウイルス感染拡大を防ぐ、夜間の運転時に人を検知することで事故を防ぐといった場面では既に活用が進んでいる。

IEEEが2004年から開設する「Perception Beyond the Visible Spectrum(PBVS)」(可視域外の知覚)に関するワークショップでも、こうした可視光以外の画像解析には、さまざまな応用範囲があるとして期待が寄せられてきた。

例えば自律走行中の自動運転車が、可視光のみでは逆光のときに進行方向の状況が判別できない、といった場合に、サーモグラフィー画像が視野を補えば、障害物や標識などを見分けることが可能になる。自動運転モビリティやドローン、ロボットなどへの応用のほか、人工衛星からの画像や、光の届かない水中の画像分析などにも活用できるサーモグラフィー画像解析へのニーズは、今後ますます高まるはずだ。

ここで課題となるのが、センサーで撮影されたサーモグラフィー画像の解像度、質である。一般にサーモグラフィー画像の解像度は、写真などの画像の解像度に比べると低い。このため、機械学習による解析・処理によって画像の質を上げることで、何が写っているかが判別できるようにする必要がある。今回のコンペでは、低解像度のサーモグラフィー画像から、より精度の高い高解像度画像(超解像画像)をつくり出す手法が競われた。

従来、低解像度画像の解像度を上げるために行われる機械学習では、与えられた画像にダウンサンプリングを行い、ノイズやぼかしを加えた質の悪い画像と元の画像とを使って学習を行うアプローチが取られてきた。一方、異なる解像度のカメラから得られた一対の画像を使って学習を行うアプローチはほとんど採用されてきていない。

今回のコンペでは、3つの解像度が異なる赤外線カメラで撮影された実際の低・中・高解像度の画像セットを学習データとして用いる、新しい機械学習の手法が評価された。

コンペの評価は2種類の方法で行われた。1つは3つの異なる解像度で撮影された元画像にノイズを加えてダウンサンプリングし、それぞれのデータから元の解像度と同じ解像度の画像を生成して、元画像と比較するというもの。もう1つは、中解像度カメラで撮影された実画像から超解像画像を生成して、対になる高解像度画像と比較するというものだ。2つめの課題ではクーガーチームが1位に評価されており、トータルで2位を勝ち取る結果となった。

高解像度画像の生成例(左が実画像、右が生成画像)

実用に耐えるサーモ画像認識ソリューション目指す

クーガーチームが用いた手法では、3レイヤーでのアップサンプリングと、畳み込みブロックアテンションモジュール(Convolutional Block Attention Module:CBAM)を組み合わせている。

3層化したのは、1層につき1つの特徴量に対応するため。1レイヤーでは同種画像の分析には強いが、複数の特徴量、今回の場合では解像度の異なる画像の分析を1度にこなすのが難しい。そこで3レイヤーで3種のスケールの高解像化に対応できるようにすることで、アウトプットの精度を担保したという。

通常は調整パラメータが多くなるため、こうした構造のアプローチは取られないそうだ。学習データを豊富に持つ研究室ならデータ量でカバーしようとするところを、少ないデータでも処理できるように工夫した結果がこのアプローチだという。またCBAMで、注目する特徴量として何を有効にするかを決めることで、うまく処理が行えているとのこと。Sabari Nathan氏は「Facebookのコンペティションの経験もあり、やり切れることは分かっていたので」このアプローチを採用したと述べている。

クーガーの手法を使った超解像画像の生成は1秒以下と、高速での処理が可能だ。「動作が軽いので、実際にいろいろな場面で使える」とクーガー代表取締役CEOの石井敦氏は話している。

「今回のコンペでは、軽量であることは評価対象ではなかったが、我々としてはバーチャルヒューマンエージェントで動かすことを前提に実用化を目指しているので、そこにもこだわった。人間の視覚は複雑で、色や距離、雰囲気などを瞬時に見て取る力がある。今回のチャレンジは熱を使うことによって、視覚をより分解した取り組みになる。サーモグラフィー画像は可視光の画像よりデータが小さく、高速で処理できるため、応用範囲は広い」(石井氏)

クルマやドローンなどの小さなスペースに搭載できて、安価なカメラで撮影した画像でも認識性能を向上したいというニーズには、こうしたソリューションが大きく貢献するだろう。

「今後、コンピュータビジョンはますます頼りにされる。世の中の変化によって、学習データは日々変わる中で、精度の高いソリューションを生み出し続けるために、今回のようなコンペが実施された。解像度を上げて、それっぽくきれいに見えるというだけでは意味がない。低解像度のサーモグラフカメラでも、いい結果が出せて、また広い範囲で正しく認識できる。無人の自動運転車やドローンを運行するときなどには必要な、リアルタイムでの画像分析で求められる成果だ」(石井氏)

クーガーがイーサリアム財団の支援でコミュニティ「ETH Terakoya」を展開

AI、IoT、VR/AR、ブロックチェーンなどの技術を組み合わせた人型AIエージェントの開発を行うクーガーは、5月25日、イーサリアム財団(Ethereum Foundation)の援助を受け、日本のエンタープライズブロックチェーン活性化のための活動を開始すると発表した。コミュニティ「ETH Terakoya(イーサテラコヤ)」を展開し、ワーキンググループの開催、アウトプット共有やノウハウ・スキルの提供を、オンライン・オフラインの双方で行っていくという。

エンタープライズユースで注目高まるEthereum

クーガーはホンダへのAI学習シミュレータ提供や、Amazonが主催するロボットコンテストAmazon Robotics Challenge(ARC)上位チームへの技術支援、NEDO次世代AIプロジェクトでのクラウドロボティクス開発統括などで知られ、ゲームAI、画像認識AI、ブロックチェーンの分野に強みがある企業。現在は、これらのテクノロジーを統合する形で、人型AIアシスタント「Connectome(コネクトーム)」の開発を進めている。

ブロックチェーンの領域では、クーガーはこれまでにも大企業との連携による実証実験を行ってきた(関連記事:KDDIとクーガーがブロックチェーン技術Enterprise Ethereumを修理業務に適用する実証実験を開始)。

また2018年には米国のブロックチェーン企業ConsenSysと共催で、日本の大手企業も協賛・後援する形で、インバウンド向けブロックチェーンサービスのハッカソンを実施している。

同社ではほかにも、チーフブロックチェーンアーキテクトの石黒一明氏が2018年、ワールドワイドでブロックチェーンの社会実装を目指す企業連合、Enterprise Ethereum Alliance(EEA)の日本支部代表に就くなど、企業のブロックチェーン活用につながる活動を続けている。

「こうした流れもあり、今回、イーサリアム財団の支援を得て、日本のエンタープライズブロックチェーンの活性化を進めていくことになった」とクーガー代表取締役CEOの石井敦氏は話している。

イーサリアム財団は、Ethereumと関連テクノロジーのサポートに特化した非営利団体だ。非中央集権、分散型のEthereumエコシステムを支える取り組みに対して、助成金などの財政面で支援するほか、エコシステム成立に必要と考えられるアクションへの助言、サポートも行っている。

イーサリアム財団エグゼクティブディレクターの宮口あや氏は、「Ethereumは、企業ではスケーラビリティやプライバシーの面で課題があり、使いやすい状態ではなかった。それが最近では、Etereumプロトコル上で利用できるツールなどの研究・開発が進んだことで、企業でもメインネット、パブリックチェーンを使いやすい環境になり、エンタープライズユースへの注目、ニーズが高まっている」と語る。

「当初は開発に力を入れていた財団メンバーだが、現在はコミュニティのコーディネートや助成金でEthereumをサポートするようになっており、研究・開発支援のほか、教育にはより力を入れるようになっている。日本では特に事業者側が『勉強してからしっかり取り組む』という傾向があるため、教育の仕組みはあった方がいいと考えていた。クーガーのメンバーとは、これまでにもブロックチェーン社会実装への取り組みで面識があった。Ethereumコミュニティとしても、企業のニーズが増える中で、クーガーが日本での教育、勉強する場を展開してくれるというのは、ありがたい」(宮口氏)

技術だけでなくビジネス、法律面でも課題を洗い出し

企業のブロックチェーン活用といえば、暗号通貨取引や証券取引など、フィンテック領域での浸透が最も進んでいるが、GA technologiesが不動産取引にブロックチェーン技術を取り入れるなど、他業種からも注目されるようになっているのが現状だ。日本では、ブロックチェーンを物流やサプライチェーンに織り込む流れも出てきている。

クーガー自身も人型AIエージェントの開発において、エージェントが扱う情報の信頼性を担保し、安全にデータを扱うためにブロックチェーン技術を活用している。また、KDDIとはEnterprise Ethereumを活用したスマートコントラクトの実証実験を実施。携帯電話の修理業務を対象に、ショップでの修理申し込みから修理完了までの情報共有とオペレーション効率化や、他事業とのシステム連携の可能性について、検証を行っている。

石井氏は「企業のブロックチェーン活用においては、技術、ビジネス、法律のそれぞれの面で課題がある。しかも産業によって、その課題は変わる」と述べている。

「ETH Terakoyaでは毎回、テーマを決めてワーキンググループで協議した結果をワークショップで発表していく予定だ。そこで技術的な面だけでなく、ビジネスとして成立するのか、法律的に問題がないのかといったフィードバックが数多く得られるだろうと考えている。場合によってはテーマをさらに深掘りして、続きを協議していくこともあるだろう」(石井氏)

日本の場合は「大企業が集まっており、特に自動車、家電、ゲームやアニメなどのコンテンツ分野では競争力の高い企業も多い」と石井氏。「産業ごとに連携して、業界内で『意味のある課題』を見つけることができるのではないか。また、日本からスタートして世界へ広げていくこともできるのではないかと思う」と期待を寄せている。「イーサリアム財団やコア開発者からのフィードバックや連携も受けながら、ガラパゴス化しないような取り組みも並行していく考えだ」(石井氏)

中国ではBATと呼ばれる3大IT企業、Baidu、Alibaba、Tencentの各社が独自のブロックチェーンサービスを提供し、自らもバックエンド技術として取り入れるという動きがある。

石井氏は「物流やサプライチェーンなど、同じ課題に対して別々の取り組みをするのは効率が悪いと考えている」と話す。「日本では文化的にブロックチェーン技術を取り入れるのは難しいという論もあるが、Linuxの例もある。初めはオープンソース由来のシステムを企業サーバで利用することに躊躇があった日本でも、今やほとんどの大企業でLinuxが使われている。標準化されたものを使った方がよいという流れはあり、今は活用を検討するのには、よいタイミングだと思う」(石井氏)

また、これまで企業ユースではEthereumのようなパブリックチェーンではなく、プライベートチェーンを利用する動きが強かったが、先の宮口氏の発言のとおり、企業でもパブリックチェーンを使いやすい環境が整ってきている。今年3月には大手会計事務所EYと、Consensys、Microsoftが提携し、Ethereumのパブリックメインネットを安全かつプライベートに活用できるプロトコル「Baseline」を発表するなど、メインネット、パブリックチェーンへの大きなトレンドが出てきているところだ。

宮口氏はこの流れを「イントラネットからインターネットへの流れと同じようなことが起きている」として、こう述べている。「(ブロックチェーン活用に際して)長い目で見なければ、ビジネスチャンスとして限界があるのではないかと考える企業が出てきている。Ethereumに限らず、(安全性、スケーラビリティといった)課題さえ解決されれば、パブリックチェーンを使えた方がビジネスチャンスは大きいとして、大企業も早めに取り組もうとしている。現実には(コンソーシアムチェーンなどパブリックとプライベートの)ハイブリッド型が多いし、私もいきなり大きなビジネスコンソーシアムが100%Ethereumでやると言ったら現時点では勧めないと思うが、インターネットの爆発的普及を見てきた事業者なら、誰しも長期的にはパブリックチェーンを取り入れたいと考えるのではないだろうか」(宮口氏)

石井氏は「日本が独自システムでやってこられたのは、企業買収・売却や人が辞めることが少なかったから。開発した人がそのままメンテナンスできてきたので、仕組みとして信頼性が維持されることへの価値にピンと来ていなかったのだろう」と述べ、「今後の人口減少や海外人材の活用、転職者の入れ替わりなどは避けられない。(運用でカバーするだけでなく)仕組みとして安定していることや信頼性は必要になってくる。使う技術やツールも個人に依存しない形にしなければならない」と標準化されたテクノロジーを重視する理由を語る。同時に「ほかの事業者といかに連携するかについても、考えざるを得ないだろう」とも話している。

ワーキンググループ最初のテーマはマイナンバー活用

石井氏は、ETH Terakoya展開に当たって「クーガーとしてのメリットは、あまり考えていない」と話している。

「クーガーでは、もともとAIの信頼性を生み出す手段としてブロックチェーンを使えると考えてきた。このため、ほかの事業者よりは中立的な立場にあると思う。Industry 2.0といわれる流れの中で、今後さまざまなものが自動化していくということが起きていくだろう。コロナ禍でも明確になったが、情報源の信頼性や、その情報を使って自動化したものが信用できるかといった考え方はより加速するだろう。クーガーでは、ブロックチェーンとAIの両方が分かっているチームも抱えており、中立性とあわせて、コミュニティに貢献できるのではないかと考えている」(石井氏)

石黒氏も「クーガーがハブとなってコア開発者による支援やレビューを受け、メインネット、パブリックチェーンを目標に、長期的目線でブロックチェーン活性化につながる活動をETH Terakoyaでは行っていきたい」と述べている。

ワーキンググループが最初にテーマとするのは、ブロックチェーンによるマイナンバー活用だ。「コロナの影響もあり、情報の信頼性や個人が行った行動を証明すること、複製防止などの文脈を考えると、マイナンバーのID特定やブロックチェーンでそれを生かす具体的な課題解決といったテーマも出てきている」と石井氏はいう。

「まず技術的にどう解決するのかを議論した上で、ビジネスにマイナンバーを生かしたときにインパクトがどれくらいあり、何が解決できるのか、今は気づかれていない価値を探る。それらとセットで、技術的に解決できても法律が追いついていないという部分を洗い出し、解決の道筋を考えていく」(石井氏)

ETH Terakoyaのコミュニティ運営を担当する、クーガー プロダクトマーケティングディレクターの田中滋之氏は「新型コロナ感染拡大で話題となっている例では、健康保険証とマイナンバーの関連付けといったものがある」とテーマに関連したトピックを挙げる。

「シンガポールなどの例でも、国は感染者を特定したいはずで、今後日本でも同じ議論が出てくる可能性があるが、一方でプライバシーの問題がある。マイナンバーを活用するときにプライバシーをどうコントロールするのか、これをブロックチェーンを活用することで『いかに個人を特定せず、IDをオープンに活用することができるか』といった、面白い議論ができるのではないかと考えている」(田中氏)

石井氏も「秘匿化と行為の証明を両立することは、これまでは矛盾するものと考えられてきたが、ブロックチェーンを使うことによって両立できる可能性がある。ここを深掘りしたい」と述べている。

また石黒氏は「テーマに関連することでは、ほかにも給付金申請の仕組みなど『どこが問題か分からない』のが問題となっているものがある。ワーキンググループ内の議論でこうした課題も洗い出せるのではないかと考えている。マイナンバーは日本特有のものだが、マイナンバーだけでなく、他の国や似たようなシステムでも使えるよう、議論を続けたい」と話している。

Facebook主催のアイトラッキングコンペで東京のクーガーが世界3位に入賞

Facebookが主催するアイトラッキングの認識精度を競う「OpenEDS(Open Eye Dataset)Challenge」は、世界各国からコンピュータビジョンの研究者が挑戦するコンペティションだ。大学などの研究機関も参加するこのコンペの結果が9月30日に発表された。コンペの2つの課題のうち、2D画像の眼球位置を推定する「Semantic Segmentation Challenge(セマンティックセグメンテーションチャレンジ)」では、東京・渋谷に拠点を置くクーガーのチームが提出したAIモデルが世界3位を獲得している。

VR/AR普及のカギ、視線追跡の「精度」と「軽さ」を競う

VR/ARが注目を集める中で、スマートグラスの装着時に視線や眼球の動きを追跡する「アイトラッキング」の需要は高まっている。深層学習の進歩によりアイトラッキング領域でも成功例は出てきている。ただしCPUの性能にはまだ限界があり、リアルタイムでの精度の高い計算には制限がある。

また安定した効率的な機械学習ソリューションを用意するためには、異なる条件下にある何千人ものユーザーから、大量で正確な学習データを取得する必要がある。しかしコスト面でも正確性の面でも、実際には収集できるトレーニングデータの量と品質には制約がある。

VRデバイス「Oculus Rift」や「Oculus Go」などの製品も持つFacebookが、OpenEDS Challengeを開催し、機械学習やコンピュータビジョンの研究者の参加を求めるのには、こうした背景がある。OpenEDS Challengeでは、2つの課題が提示された。

1つは、2D画像から眼の瞳孔や虹彩、強膜、そしてその他の部分の位置を正確に推定する「セマンティックセグメンテーション」。もう1つは、入手が困難な現実の視線データに代わり、現実的な眼の画像を合成して効率的なデータ学習が行えるようにする「Synthetic Eye Generation(シンセティックアイジェネレーション)」だ。

このうちセマンティックセグメンテーションの課題で、クーガーに所属するDevanathan Sabarinathan氏とDr. Priya Kansal氏によるAIモデルが3位にランクイン。さらにこのモデルの独自性が評価され、11月に韓国・ソウルで行われるコンピュータビジョンのカンファレンス「ICCV」ではこのモデルについての論文が採択され、発表が決定している。

既存手法を活用してコンペ条件をクリア、入賞も果たす

セマンティックセグメンテーションの技術は、VR/ARデバイスなどで視線追跡を行うときに、2D画像の正確な認識、つまり眼の重要な領域(強膜、瞳孔、虹彩)とそれ以外の領域をピクセル単位で区分するために必要なものだ。認識の精度の高さとリソース消費の少なさが求められるため、今回のFacebookのコンペでは「モデルの精度」「モデルサイズの軽量化」の視点で審査が行われた。

クーガーが発表したEyeNetモデルによる認識結果画像

今回クーガーが発表したモデル「EyeNet(アイネット)」は、7月に米国で開催された別のコンピュータビジョンに関するカンファレンス「CVPR」で同社が発表した、骨格認識のモデル「SkeletonNet(スケルトンネット)」をベースに開発された。OpenEDS Challengeでは、高精度を保ちながら、モデルサイズを2MB以下、モデルのパラメータ数(複雑さ)を40万以下に抑えるという条件をクリアしなければならない。結果、クーガーのモデルは提示されたベースラインをクリアしただけでなく、世界3位を獲得することができた。

ベースラインのモデルの数値:
mIoU: 0.89478
Model Complexity: 416,088.00000
Total Score: 0.76240

クーガーのモデルの数値:
mIoU: 0.95112 (6.3%の向上)
Model Complexity: 258,021.00000 (38%の向上)
Total score: 0.97556 (28%の向上)

このコンペティションで上位入賞を果たしたチームは認識精度を上げるうえで、主にデータの前処理での工夫に注力している。クーガーは、インプットデータのどの部分を重視するかを決定する「アテンション機構」の複数使用や、Microsoft Researchが2015年に考案した、高い画像認識能力を持つニューラルネットワークモデル「Residual Network」を組み合わせることなどによって、モデルの精度を向上しながら軽量化も果たしたという。

より自然なコミュニケーションのために人型AIアシスタントを開発

クーガーは2006年の創業。ホンダへのAI学習シミュレータ提供や、Amazonが主催するロボットコンテストAmazon Robotics Challenge(ARC)上位チームへの技術支援、NEDO次世代AIプロジェクトでのクラウドロボティクス開発統括などで知られる。ゲームAI、画像認識AI、ブロックチェーンの分野に強みがあり、現在は人型AIアシスタント「Connectome(コネクトーム)」の開発・提供に力を入れている。

クーガー代表取締役CEOの石井敦氏は「人型AI、バーチャルヒューマンエージェントには、ゲームAIによる生きているように感じるキャラクター性、視覚情報から状況を理解する画像認識能力、情報の信頼性を担保し、安全にデータを扱うブロックチェーン技術の3つすべてが必要」と話す。「当社は3つの分野それぞれで、世界トップクラスの技術を持っている。そのうちの画像認識領域での成果のひとつが、今回のOpenEDS Challengeでの3位入賞だ」(石井氏)

Connectomeは音声認識、映像認識、そして表情やしぐさから感情を認識する機能やジェスチャーを認識する機能を持つ。

コンピュータのモニターやデジタルサイネージで動く「モニターモード」やタブレット、スマホのようなモバイル機器で動く「ARモード」が開発されており、ショッピングセンターやコワーキングスペースなどの施設の案内や利用者とのコミュニケーション、イベント実況などで活用が進められている。

「Siri」や「Googleアシスタント」をはじめ、スマートスピーカーなど音声によるAIアシスタントはある程度、一般化してきたが、わざわざ人間のように振る舞うエージェントを用意するのはまだ、ハードルも高い部分もある。また、中には「機械やキャラクターでも用が足りるのに、必ずしも人型にすることはないのではないか」という論もある。石井氏に人間のようなインターフェースを持つ、バーチャルヒューマンエージェントを開発する意図を聞いてみた。

ロチェスター大学の研究では、バーチャルヒューマンとASD患者の10代の若者たちが会話するプロジェクトで、患者の60%が実際の人間より話しやすいと回答している。また、南カリフォルニア大学の調査では、音声のみでコミュニケーションを取るときと比較して、バーチャルヒューマンを使った場合、応答率は17%増加し、応答時間は19%増えたという結果もあり、人型が相手の方が利用者が出す情報量が増え、共感が生まれることが分かっている。人型AIの方がコミュニケーションがより自然になり、人間の信頼度も上がる。特にヘルスケア領域などでは、キャラクターよりも人のようなもの、より人に近いものと話したい人は多いと考えている」(石井氏)

石井氏は「目線の分析はもはや当然になっていて、より細かな分析へと焦点は移っている」として、バーチャルヒューマンエージェントへの画像認識技術の応用について、こう語った。「クーガーではコンピュータビジョンの分野で強みを持ちながら、バーチャルヒューマンを開発している。またバーチャルヒューマンエージェントのSDKを他社にも提供することで、ユースケースの拡大を図っている。ゆくゆくは今回発表したアイトラッキングの認識技術をSDKにも取り込むつもりだ」(石井氏)

本田技研も使っている「ゲームAIで自動運転AIを鍛える」学習シミュレータ

AI学習シミュレータ「Dimension」の動画像

クーガーは、大勢の人々が街角や商業施設内を歩き回る状況を生成するAI学習シミュレータ「Dimension」を開発、提供を開始した。同社が持つゲームAIの知見を応用したプロダクトで、自動運転車や自律移動型ロボットのAIのトレーニングやテストに利用する。1億通り以上のシーンを生成できる自由度と、動画像とLIDAR(レーザーを用いた測距技術、関連記事)データの両方を生成できる点が特徴。すでに本田技術研究所や中部大学が研究目的で利用中である。

このAI学習シミュレータが登場した背景には、自動運転車、自律移動型ロボット、ドローンなどの研究開発ニーズが拡大している状況がある。クーガー代表取締役CEOの石井敦氏は次のように説明する。「自律的に行動するロボットや自動運転車は、やがて人が行動している状況の中で一緒に活動するようになる。ところが人の外見や行動は多様なので、AIが理解する上ではまだハードルが高い。髪型や服の色、持ち物が違うと認識を誤る場合がある。例えばスケートボードに乗って移動する小さな子供のように行動が大幅に異なる存在も認識できる必要がある。このような状況を数多く体験して学習し、テストを繰り返すことが重要だ」。多様な姿形の人々が自由に動き回る複雑な状況をシミュレートする技術では、大規模オンラインゲーム制作に参加した経験があるクーガーの技術が活きると石井氏は説明する。

路上を走る自動運転車の研究は盛んだが、それ以外にも商業設備内を自律的に移動するロボットなどの取り組みも多数登場している。多くの種類の状況(シーン)を生成できるDimensionには、AIの学習やテストのためのニーズが大きいと同社は考えている。現実の人間とロボットを一緒に歩き回らせて学習するやり方も考えられるが、それは「エキストラを連れてきて映画を撮影するようなもの」(石井氏)で限界がある。多くの状況をシミュレートできるDimensionはより多くの学習データを作り出すことができるという訳だ。

動画像とLIDARセンシングデータを生成

LIDARセンシングデータ

Dimensionの機能上の特徴は、1億通り以上のシーンを生成できること、また動き回る人々を含めた動画像とLIDARのセンシングデータの両方を生成することだ。動画像は人間に見せるためのものではなく、AIの機械学習の学習データに利用する。そこで「学習させて精度が出るデータ」を作る上では「服の色、持ち物の色などでどのようなランダム性を保たせるべきか」など独自のノウハウがあるとのことだ。

一方、LIDARのセンシングデータはCGで生成した動画像と異なり現実との違いが出ない。そこで自動運転車やドローンでは画像センサーとLIDARを併用する例が多い。

AIトレーニング用シミュレータの試みは、Microsoft ResearchのAirSimがあり(参考記事)、Elon Mask氏らが立ち上げたOpenAIでも学習プラットフォーム「Universe」の取り組みがあった(関連記事参考記事)。また、DeepMindがBlizzardの戦略ゲームStarCraft IIをAI学習に用いた例もあった(関連記事)。人が登場する複雑なシーンをシミュレートできるゲームAIを学習(トレーニング)に用いるアイデアはすでにいくつも登場している。その中で、クーガーは「ゲームAIとロボット用の機械学習の両方の知見を持つ会社はまだ少ない」と自信を示している。

クーガーは、最近では感情表現を取り入れたCGキャラクターによるAIアシスタント「バーチャルヒューマンエージェント」の開発にも取り組んでいる(関連記事)。将来的には、例えば自動車の自動運転のトレーニングにはシミュレータを使い、自動車内部の人と機械のコミュニケーションにバーチャルヒューマンエージェントを活用するといった活用も視野に入れている。

初音ミクとも対話可能、クーガーがKDDIに技術提供、機械学習×ゲームAI×xR×ブロックチェーン

クーガーは、AIとxR(VR/AR/MR)を組み合わせた「バーチャルヒューマンエージェント」技術を開発し、KDDIの「バーチャルキャラクター×xR」プロジェクトに提供した(クーガーの発表資料KDDIの発表資料 )。

KDDIの発表会で見せたデモより

KDDI発表会のデモに使われたスマートグラス「R9」。重量181gで外見もコンパクト。このサイズにSnapdragon 835(2.45GHz、8コア)、6GバイトのRAM、128Gバイトのストレージ、1400mAhのバッテリーを搭載。視野角50度、表示機能は1080p×2(フルHD×2眼)。開発環境はAndroid Nougat(7.0)ベース

KDDIが4月26日に開催した「xR技術への取り組み」に関する発表会の場では、クリプトン・フューチャー・メディアのバーチャルシンガー「初音ミク」のキャラクターが米ODG社のスマートグラス「R9」により現実世界の中で動いて対話する「バーチャルヒューマンエージェント」のデモンストレーションを披露した。初音ミクが目の前に等身大で表示されていて、部屋の中の人物や置いてあるモノに関心を持って近寄ったり、褒める言葉をかけると喜んだり、ネガティブな言葉をかけると反発したりする。KDDIでは過去にARアプリによる地域密着型イベント「ミク☆さんぽ」を実施しているが、その次世代ともいえる技術になっている。

この事例では「初音ミク」をキャラクターとして起用しているが、もちろん他のキャラクターをエージェントに配役することも可能だ。

学術AIとゲームAIを掛け合わせ、ブロックチェーンでデータを管理

クーガーによるデモンストレーションから。スマートフォン上で「バーチャルヒューマンエージェント」を動かしている

「バーチャルヒューマンエージェント」はCGで表現したキャラクターを備えていて、実世界の中で「人に近寄る」「新しいモノに興味を持って近づく」ように振る舞いをする。また記憶と感情を持ち、振る舞いや会話にそれを織り交ぜるようにする。例えば「新しい椅子」や「初めての来客」などに反応する。

バーチャルヒューマンエージェントには多くの技術要素が組み込まれているが、大きな枠組みとして「2系統のAIを組み合わせた」とクーガー 代表取締役 CEOの石井敦氏は説明する。「学術分野で発達した深層学習などのAIと、ゲーム分野で発達したキャラクターAIは今まで接点がなかった。その両者を結びつけた」(石井氏)。記憶、感情があるかのように振る舞うキャラクターAIの部分ではゲーム開発の知見を盛り込み、一方で画像認識、空間認識の部分では自動運転技術にも応用されつつある機械学習の技術を応用している。

同社は、今回発表の「バーチャルヒューマンエージェント」を、「空間をスマート化する技術」として作り上げる「コネクトーム」と名づけた技術の中でヒューマンインタフェースを担当する技術として位置づけている。「コネクトーム」は脳の配線情報という意味をもつが、同社の技術名称としてのコネクトームは、前述の学術AI、ゲームAI、データをその所有権や信頼性が保てるよう管理するブロックチェーン技術、xR(VR/AR/MR)、IoTの各種技術を組み合わせた技術の総称である。

クーガーの技術「コネクトーム」の全体像。「バーチャルヒューマンエージェント」はコネクトームの入力、出力に相当する。データ管理にはブロックチェーン技術を活用

上の図が「コネクトーム」の全体像である。例えば今回発表の「バーチャルヒューマンエージェント」をスマートフォンをプラットフォームとして利用している場合は、(1) 情報の入力がスマートフォンのカメラ、マイク、6軸センサ、その他センサ。(2) 情報の出力が、スクリーンにCGキャラクターとして表示されてスピーカーから語りかけてくるバーチャルヒューマンエージェント、という形になる。また、音声認識関連ではクラウド側のエンジンも使っているが、画像認識やCG生成のエンジンはほぼスマートデバイス(スマートフォン、スマートグラス)上で動かしている。「リアルタイムな画像認識、CGキャラクター生成ではクライアント側で処理しないと追いつかない」(石井氏)。

将来はAIエージェントのマーケットプレースも

クーガーは、この「バーチャルヒューマンエージェント」を将来的には法人ユーザーや個人ユーザーに提供していく考えだ。法人向けの展開としては、例えば飲食店の接客用のAIとして使う形を検討している。

フェーズ1として、2018年8月には、クーガーのオフィスで社員として立ち振る舞うバーチャルヒューマンエージェント「Rachel」を誕生させたいとしている(この名前から映画『ブレードランナー』を想像した読者はおそらく正しい)。視覚、聴覚、感情をもち、接客やコミュニケーションが可能。オフィス内の機器類、例えば冷蔵庫、テレビ、照明とも連動する。学習履歴、行動履歴、デバイス情報などのデータはブロックチェーンで管理する。「バーチャルヒューマンエージェントにオフィス内で経験を積んでもらう形」だと同社は説明する。

フェーズ2として、2018年12月を目標に、バーチャルヒューマンエージェントのマーケットプレイスを展開する方向だ。経験を積んで育ったAIキャラクターを交換可能としていく。例えば、自分が育てたAIが、複数のAIに派生して育っていく樹形図を見ることができる将来像も考えている。ブロックチェーンのようなdecentralized(管理主体を持たない)の特性を持たせることや、非営利団体による運営などの構想も視野に入っているとのことだ。

クーガーのバックグラウンドについて若干の補足をしておく。同社はスクウェア・エニックスのオンラインゲーム開発協力の経験を持つ。これまでにゲームAIの応用であるAI学習シミュレータを本田技術研究所に提供した経験、ロボット競技ロボティクス出場チームへの支援、Ethereumベースのブロックチェーン関連開発(関連記事関連発表)などの経験を積んでいる。