NVIDIAは11月9日、仮想コラボレーションとリアルタイムシミュレーションのためのプラットフォーム「NVIDIA Omniverse」(オムニバース)上で使えるインタラクティブなAIアバターが作れる機能「Omniverse Avatar」(アバター)を発表した。
Omniverse Avatarは、単にインタラクティブに動かせるレンダリングされた3Dキャラクターを作るだけではなく、音声、AI、自然言語理解、レコメンデーションエンジン、シミュレーションといったNVIDIAのテクノロジーが駆使され、見たり、聞いたり、多言語で話したりができるAIアシスタントとして機能する。NVIDIAの創業者でCEOのジェンスン・フアン氏はこれを、「インテリジェントな仮想アシスタントの夜明け」と称している。NVIDIA Omniverseの新機能として追加された「Omniverse Avatar」には、次の要素が盛り込まれている。
- 音声認識:複数言語の音声を認識するソフトウェア開発キット「NVIDIA Riva」をベースに会話の応対を行う
- 自然言語理解:「NVIDIA Megatron 530B大規模言語モデル(Large Language Model)」をベースに、複雑な文書の作成、幅広い分野の質問への回答、長いストーリーの要約、他言語への翻訳などを行う
- レコメンデーション エンジン:大量のデータを処理し、賢明な提案を行うことを可能にするディープラーニング レコメンデーション システムを構築するためのフレームワーク「NVIDIA Merlin」を利用
- 認知機能:ビデオ分析用のコンピュータービジョン・フレームワーク「NVIDIA Metropolis」を活用
- アバターのアニメーション:2Dおよび3DのAIによるフェイシャルアニメーションとレンダリングの技術「NVIDIA Video2Face」と「NVIDIA Audio2Face」を使用
- これらの技術がアプリケーションに組み込まれ、「NVIDIA Unified Compute Framework」を使ってリアルタイムで処理される
フアン氏のアバターを使ったデモでは、同僚とのリアルタイムの会話が披露され、生物学や気象科学などの話題について語った。また、別のデモでは、レストランの2人の客にカスタマーサービス担当アバターが対応し、ベジタブルバーガーとフライドポテトと飲み物の注文を受けることができた。さらに、騒々しいカフェでビデオ通話をする女性の音声を正確に聞き取り、その言葉をリアルタイムで書き写し、その女性と同じ声とイントネーションで、ドイツ語、フランス語、スペイン語に翻訳して見せたとのことだ。