NVIDIAが多機能でリアルなAIアバター・AIアシスタントが作れるプラットフォーム「Omniverse Avatar」を発表

NVIDIAは11月9日、仮想コラボレーションとリアルタイムシミュレーションのためのプラットフォーム「NVIDIA Omniverse」(オムニバース)上で使えるインタラクティブなAIアバターが作れる機能「Omniverse Avatar」(アバター)を発表した。

Omniverse Avatarは、単にインタラクティブに動かせるレンダリングされた3Dキャラクターを作るだけではなく、音声、AI、自然言語理解、レコメンデーションエンジン、シミュレーションといったNVIDIAのテクノロジーが駆使され、見たり、聞いたり、多言語で話したりができるAIアシスタントとして機能する。NVIDIAの創業者でCEOのジェンスン・フアン氏はこれを、「インテリジェントな仮想アシスタントの夜明け」と称している。

NVIDIA Omniverseの新機能として追加された「Omniverse Avatar」には、次の要素が盛り込まれている。

  • 音声認識:複数言語の音声を認識するソフトウェア開発キット「NVIDIA Riva」をベースに会話の応対を行う
  • 自然言語理解:「NVIDIA Megatron 530B大規模言語モデル(Large Language Model)」をベースに、複雑な文書の作成、幅広い分野の質問への回答、長いストーリーの要約、他言語への翻訳などを行う
  • レコメンデーション エンジン:大量のデータを処理し、賢明な提案を行うことを可能にするディープラーニング レコメンデーション システムを構築するためのフレームワーク「NVIDIA Merlin」を利用
  • 認知機能:ビデオ分析用のコンピュータービジョン・フレームワーク「NVIDIA Metropolis」を活用
  • アバターのアニメーション:2Dおよび3DのAIによるフェイシャルアニメーションとレンダリングの技術「NVIDIA Video2Face」と「NVIDIA Audio2Face」を使用
  • これらの技術がアプリケーションに組み込まれ、「NVIDIA Unified Compute Framework」を使ってリアルタイムで処理される

フアン氏のアバターを使ったデモでは、同僚とのリアルタイムの会話が披露され、生物学や気象科学などの話題について語った。また、別のデモでは、レストランの2人の客にカスタマーサービス担当アバターが対応し、ベジタブルバーガーとフライドポテトと飲み物の注文を受けることができた。さらに、騒々しいカフェでビデオ通話をする女性の音声を正確に聞き取り、その言葉をリアルタイムで書き写し、その女性と同じ声とイントネーションで、ドイツ語、フランス語、スペイン語に翻訳して見せたとのことだ。

安価なApple Music VoiceプランはSiriの改良を進める作戦である可能性が高い

Apple(アップル)は、先に開催したイベントで数多くの興味深い発表を行った。その中で私が特に注目した、かつあまり注目されていないように思えたのが、Apple Musicの新しい料金プランだった。新しい「Voice」プランでは、Apple Musicの全ライブラリを月額5ドル(日本では税込月額480円)という低価格で利用できる。ただし、Siriを使ってアクセスしなければならず、Apple Musicの標準的なビジュアルと入力しやすいアプリ内のユーザーインターフェイスは使用できない。

関連記事
アップル発表イベント「Unleashed(パワー全開)」に登場した新製品まとめ
アップルがSiriでのみ利用できる安価なApple Music Voiceプランを発表、月額480円

Appleは、このプランを開始する理由を明らかにしていないが、iPhoneメーカーとしては、音声アシスタントの学習と改良のために音声データをより多く収集したいため、価格の障壁を低くして、より多くの人にSiriを使ってもらおうとしているのではないかと推測するのが妥当だと思う。

AppleのCEOであるTim Cook(ティム・クック)氏は、このイベントで「より多くの人が、声だけでApple Musicを楽しめるようになることをうれしく思います」と述べていた。

このApple Music Voiceプランが存在する理由として、他に説得力のあるものが考えられない。特に、Apple Music上の曲目全体を提供するために、Appleはレーベルとのライセンス契約を変えていないため、標準プランよりもはるかに低いマージンでこの新サービスを提供していると思われる。

繰り返しになるが、これは単なる推測だ。ただ、AppleとSpotify(スポティファイ)間の厳しい競争を考えると、スウェーデンの会社がApple Musicを価格で打ち負かすために自社のストリーミングサービスを月額7~8ドル(月額税込980円)で提供できるのであれば、そうするのではないだろうか。そしてAppleは、どうしても膨大なデータを集めたいがために、新しいサブスクリプションプランであえて多少の損失を出しているのではないだろうか。私がこの説をツイートしたとき、同僚のAlex(アレックス)は、ではなぜAppleはサブスクリプションを無料にしないのかと疑問を抱いていた。2兆5000億ドル(約285兆円)規模の企業であるAppleは、技術的にはバランスシート上でそれだけの打撃を飲み込むことができると思うが、Spotifyのような独立した音楽ストリーミング企業からの批判をこれ以上集めたくはないのだろう。同社はすでに、さまざまな分野で反競争的な行為を行っているという批判を受けている。

テクノロジー企業は、AIモデルに膨大な量のデータを与え、サービスの機能を向上させている。Siriが長年にわたってかなり改良されてきたとしても、テック業界で働く多くの人々や大衆の間では、Amazon(アマゾン)のAlexaやGoogle Assistantの方がはるかに優れているというのが一般的な意見だ。

Appleはすでにこのような音声データを、Apple Musicの既存ユーザーから取得していると思われるが、ある友人が言ったように「要は、この機能はもともとあった。ただ、高い有料の壁を設置していただけだ。今回、彼らはその壁を低くしたということ」。新プランでMusicを音声操作のみにしたことで、参入障壁が下がっただけでなく、ユーザーはSiriを使わなくてはいけなくなった。SiriはApple Musicの標準加入者向けの機能だが、ほとんどのユーザーは基本的に、もしくは意図的にアプリのUIを使ってコンテンツにアクセスする可能性が高いと思われる。

音声アシスタントに「音声優先」や「音声のみ」のサービスを求めるとどうなるかわかる例として、AmazonのAlexaを見てみよう。Alexaは、最初から音声でアクセスしなければならなかった。これにより、AmazonはAlexaのアルゴリズムのために大量の学習データを収集することができただけでなく、Alexaを最大限に活用する方法についてユーザーをトレーニングすることもできた。

私の理論が正しいと思うもう1つの理由は、Appleがこの新しいサブスクリプションを最初に提供する予定の国についてだ。オーストラリア、オーストリア、カナダ、中国、フランス、ドイツ、香港、インド、アイルランド、イタリア、日本、メキシコ、ニュージーランド、スペイン、台湾、英国、米国だ。

インド、スペイン、アイルランド、フランスが第一陣に名を連ねているのは、Appleが世界中のさまざまな言葉を集めようとしていることを意味している。ところで、インドなどの発展途上国や、中国や日本など、テキスト入力が音声に比べて不必要に複雑になることがある市場では、音声検索が非常に人気がある(世界第2位のスマートフォン市場であり、約98%のパイをAndroidが占めているインドで、音声検索が驚くほど大量に採用されたことで、Googleアシスタントの改良や、音声分野での革新に向けたより積極的なアプローチが可能になったと、Googleの幹部が話してくれたことがある)。

Siriは、他の音声アシスタントと比較して、その能力の点でやや遅れをとっていると言われているが、Appleのサービスにおける新しい動きは、顧客に音楽ストリーミングサービスに参加するための割安な方法を提供するためのものでもある一方で、この認識されているギャップを埋めるための試みでもあると捉えられるだろう。

画像クレジット:Heng Qi / Visual China Group / Getty Images

原文へ

(文:Manish Singh、翻訳:Akihito Mizukoshi)

ユーザーがニーズに合わせてAIを訓練、パーソナライズできるAlexaの3つの新機能

Amazon(アマゾン)は、消費者がAlexa体験をさらにパーソナライズできる3つの新機能の展開を準備している。簡単なツールを使ってAlexa(アレクサ) AIのトレーニングを行えるようにするのだ。数カ月後には、家庭内で鳴っているドアベルやインスタントポットのチャイム音などの特定の音を識別するといった仕事を、消費者がAlexaに教えることができるようになる。また、Ring(リング)ユーザーの場合は、閉まっているはずのドアが開いているといった、何かが視覚的に変化したことをAIが気づくことができるようになる。さらに、好きなスポーツチームや好みの天気予報アプリ、食べ物の好みなどを、自分の好みに合わせてAlexaにはっきり指示を出すことができるようになる。

この機能は、アマゾンが最新のEchoデバイスやその他の新しいハードウェアを発表する秋のイベントで、米国時間9月28日紹介された。

この新しい音識別機能は、Alexaがすでに提供しているAlexa Guard(アレクサガード)という機能をベースにしている。この機能は、ガラスが割れる音や、火災や、一酸化炭素の警報音など、特定の音を識別することができるため、外出中の人や耳の不自由な人にとっては、緊急事態が発生しているかもしれないことを知ることができて便利だ。さらにサブスクリプションをアップグレードすると、スマートカメラが家の外の動きを検知したときに、犬の鳴き声を再生することもできる。

このAlexaの音検知機能を、今回アマゾンは、必ずしも緊急事態ではないものへどのように利用できるかを考えている。

画像クレジット:Amazon

新機能によって、消費者は自分にとって重要な特定のタイプの音を聞き分けるようにAlexaを訓練することができるようになる。例えば、鍋のビープ音、オーブンのタイマー、開けっ放しにしておくとビープ音が鳴る冷蔵庫、ガレージのドアが開く音、ドアベルの音、水の流れる音など、繰り返し同じような音が鳴り特定しやすいものがある。

6個から10個のサンプルをAlexaに与えることで、Alexaはこの音が何であるかを「学習」する。これは、アマゾンがAlexaに他の音を学習させるためにかつては数千個のサンプルを必要としたことに比べれば大幅に削減されている。ユーザーは、Echo(エコー)デバイスやAlexaモバイルアプリから直接、Alexaに新しいカスタムサウンドを教えることができる。

ただし、登録やトレーニングのプロセスはクラウド上で行われる。とはいえ、実際の利用時の音の検出はデバイス自体で行われ、登録が終わった後にアマゾンが音声をクラウドに送ることはない。

一度学習させれば、ユーザーはAlexaがその音を聞いたときに、自分で設定した通知やルーティンを起動するように選択することができる。たとえばAlexaがドアベルの通知をFire(ファイア)TV上に表示することで、アクセシビリティの観点や高齢者介護にも役立つ可能性がある。その他にも、たとえばガレージのドアの音がしたら、Alexaが「おかえりなさい手続き」を起動して、照明をつけたり、好きな音楽をかけたりするといった日常生活を支援することができるようになるかもしれない。

アマゾンによると、Custom Sound Event Detection(カスタムサウンド・イベント検知)機能は2022年にはローンチされるという。

同様に、消費者はRingカメラに搭載されたAIを訓練して、カメラの視野上で関心のある領域を特定し、その領域が変化したかどうかを判断することができるようになる。この「変化」は今のところ、2つの状態に区別できるものでなければならない。例えば、物置の扉が開いているか閉じているかといった状態だ。バリエーションの多い、より特殊なものには対応できないかもしれない。

Custom Event Alerts(カスタムイベント通知)と呼ばれるこの機能は、数カ月以内にRing Spotlight Cam Battery(リング・スポットライト・カム・バッテリー)の利用者が使えるようになる。

Alexaの最後の新機能は、食べ物やスポーツ、スキルプロバイダーに関するユーザーの好みを、スマートアシスタントが学習できるようになるというものだ(これらのスキルはAlexaデバイス上で実行されるサードパーティの音声アプリだ)。利用者は「アレクサ、私の好みを覚えて」などということで、Alexaを教え始めることができるようになる。しかし、この学習はもっと繊細な方法でも行うことができる。例えば、Alexaに近くのレストランを尋ねた際に、続けて「アレクサ、私たちの中にはベジタリアンの人がいます」などということで、ステーキハウスを候補から外させることができる。

一方、Alexaがあなたのお気に入りのスポーツチームを学習した後は、スポーツハイライトを質問した際に、あなたのお気に入りのチームのハイライトをAIがより多く盛り込んでくれるようになる。

また、Alexaにどのサードパーティ製スキルを使用したいかを伝えれば、AIアシスタントは以降、自身のネイティブな応答ではなく、そのスキルを使用することをデフォルトとする。

とはいえ、今のところ、対応しているサードパーティスキルは天気予報だけだ。それをアマゾンは時間をかけてより多くのスキルへと拡大したいと考えている。このことは、ユーザーが起動したいスキルを覚えられないことに起因する、スキルの利用率の低さを解消することができるだろう。この機能によって「一度設定したら忘れてしまって良い」式のカスタマイズが可能になる。つまり良いスキルを見つけたら、それをデフォルトに設定することで、あとは自然な言葉で(たとえば「お天気は?」など)話すことができるようになる。

アマゾンによると、この嗜好データは匿名化された顧客IDにのみ関連付けられていて、調整も可能だという。例えばベジタリアンの人が肉も食べるように戻った場合には、次にAlexaにレストランの候補をたずねる際に「アレクサ、私はベジタリアンじゃない」ということができる。このデータは、Amazonサイトでのショッピングのお勧めをカスタマイズするためには使用されないとアマゾンはいう。

この「嗜好ティーチング機能」は、年内に利用できるようになる。

アマゾンはこれらの機能を、アマゾンが「アンビエント・インテリジェンス」(環境知性)と呼ぶものをより多くの人々に提供するという目標に向けた、さらなるステップであるとしている。

AlexaのSVPで主任サイエンティストであるRohit Prasad(ローヒット・プラサド)氏は、アンビエントAIについて「あなたのことを学び、あなたがそれに合わせるのではなく、あなたのニーズに合わせることができるものなのです」と指摘している。

「Alexaは、私にとって単なる音声言語サービスではありません。むしろ、自分の周りの多くのデバイスで利用できるアンビエント・インテリジェンス・サービスであり、環境の状態を理解し、さらには自分に代わって積極的に行動することができるものなのです」と述べている。

画像クレジット:Amazon

原文へ

(文:Sarah Perez、翻訳:sako)