NVIDIAが多機能でリアルなAIアバター・AIアシスタントが作れるプラットフォーム「Omniverse Avatar」を発表

NVIDIAは11月9日、仮想コラボレーションとリアルタイムシミュレーションのためのプラットフォーム「NVIDIA Omniverse」(オムニバース)上で使えるインタラクティブなAIアバターが作れる機能「Omniverse Avatar」(アバター)を発表した。

Omniverse Avatarは、単にインタラクティブに動かせるレンダリングされた3Dキャラクターを作るだけではなく、音声、AI、自然言語理解、レコメンデーションエンジン、シミュレーションといったNVIDIAのテクノロジーが駆使され、見たり、聞いたり、多言語で話したりができるAIアシスタントとして機能する。NVIDIAの創業者でCEOのジェンスン・フアン氏はこれを、「インテリジェントな仮想アシスタントの夜明け」と称している。

NVIDIA Omniverseの新機能として追加された「Omniverse Avatar」には、次の要素が盛り込まれている。

  • 音声認識:複数言語の音声を認識するソフトウェア開発キット「NVIDIA Riva」をベースに会話の応対を行う
  • 自然言語理解:「NVIDIA Megatron 530B大規模言語モデル(Large Language Model)」をベースに、複雑な文書の作成、幅広い分野の質問への回答、長いストーリーの要約、他言語への翻訳などを行う
  • レコメンデーション エンジン:大量のデータを処理し、賢明な提案を行うことを可能にするディープラーニング レコメンデーション システムを構築するためのフレームワーク「NVIDIA Merlin」を利用
  • 認知機能:ビデオ分析用のコンピュータービジョン・フレームワーク「NVIDIA Metropolis」を活用
  • アバターのアニメーション:2Dおよび3DのAIによるフェイシャルアニメーションとレンダリングの技術「NVIDIA Video2Face」と「NVIDIA Audio2Face」を使用
  • これらの技術がアプリケーションに組み込まれ、「NVIDIA Unified Compute Framework」を使ってリアルタイムで処理される

フアン氏のアバターを使ったデモでは、同僚とのリアルタイムの会話が披露され、生物学や気象科学などの話題について語った。また、別のデモでは、レストランの2人の客にカスタマーサービス担当アバターが対応し、ベジタブルバーガーとフライドポテトと飲み物の注文を受けることができた。さらに、騒々しいカフェでビデオ通話をする女性の音声を正確に聞き取り、その言葉をリアルタイムで書き写し、その女性と同じ声とイントネーションで、ドイツ語、フランス語、スペイン語に翻訳して見せたとのことだ。

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。