Amazon(アマゾン)のAlexaやGoogleアシスタントなどのAIアシスタントの音声は、昔のGPSなどに比べればずっと良いが、それでもリズムや抑揚などは本物の人間に及ばない。しかしNVIDIAがこのほど発表した研究とツールは、そうした自然な発話を捕捉するためにユーザーがAIを自分の声で訓練できる。発表は、Interspeech 2021カンファレンスで行われた。
AIが行なう音声の合成を改良するためにNVIDIAのテキスト読み上げ研究チームは、アバターの本物らしさを競う、放送事業者の大会NAB Showのコンペで優勝したシステムであるRAD-TTSと呼ばれるモデルを開発した。このシステムは、人が自分の声でテキストから音声への読み上げを訓練することができ、AIの習得内容には発話のテンポや調性、音色なども含まれる。
もう1つのRAD-TTSの特長は、声の変換だ。ユーザーが別の人物の声で話者の語りを伝えて、その人物の声でAIを訓練できる。それにより、合成音声のピッチや持続、声の強さなどを個々のフレームのレベルで微調整できる。
この技術を使ってNVIDIAの研究者たちは、本物の会話のように聞こえるナレーションを作り、同社のビデオシリーズ「I Am AI」用に、人間の声でなく合成音声を使うことができた。その狙いはナレーションをビデオのトーンとスタイルに合わせるためであり、それは今日までのAIがナレーションしているビデオではうまくできなかったことだ。結果はまだ少々ロボット的だが、これまで聴いたどんなAIナレーションよりも良い。
「ビデオのプロデューサーはこのインタフェースを使って、ビデオの台本を読んでいる自分自身を録音でき、それからAIのモデルを使って彼の発話を女性ナレーターの声に変換できる。この基準的なナレーションがあれば、プロデューサーはAIを声優のようにディレクションすることができ、合成音声を加工して特定の語を強調したり、ナレーションのペーシングを変えてビデオのトーンをもっとうまく表現したりできる」とNVIDIAは説明している。
NVIDIAはこの研究の一部を一般に公開しているが、もちろんNVIDIAのGPUで効率的に動くように最適化されている。オープンソースで試してみたい人は、GPUで加速した会話的AIのためのPythonツールキットNVIDIA NeMoを使えばよい。同社の、コンテナやその他のソフトウェアのハブであるNGCで入手できる。
NVIDIAの説明では「一部のモデルは、NVIDIA DGXシステムの上で数万時間分のオーディオデータで訓練されている。デベロッパーは自分のユースケースのために、どのモデルでも微調整でき、NVIDIA Tensor Core GPU上の混合精度コンピューティングを使って訓練をスピードアップできる」という。
編集注:本記事の初出はEngadget。執筆者のSteve DentはEngadgetの編集者。
関連記事
・rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化
・英国の競争・市場庁が、NVIDIAのArm買収に「競争を阻害するおそれがある」との懸念を示す
・NVIDIAのAIペイントソフト「Canvas」はいたずら書きを瞬時にリアルな風景に変える
画像クレジット:NVIDIA
[原文へ]
(文:Steve Dent、翻訳:Hiroshi Iwatani)