Amazonは既に、Alexaに ささやく能力を与えているが、今回はまた別の会話スタイルをアシスタントに与えるようだ。新しくAlexaに与えられるのは「ニュースキャスター」ボイスである。本日(米国時間1月16日)以降、米国内のユーザーがAlexaに向かって”What’s the latest?”(最新ニュースは?)と尋ねると、Alexaはプロのニュースキャスターがニュースを読む際に使う声に近いものを使って反応するようになる。
Amazonの説明によれば、この新しい声は、より真に迫ったニュース配信を行うために、どの単語が強調されるべきかを知っているという。
この新しい声を実現するために、AmazonはニューラルTTS(NTTS:TTSとは「テキスト読み上げ」技術のこと)で最近得られた開発成果を利用している。このテクノロジーはより自然な響きの声を提供し、Alexaの会話スタイルを、要求されたコンテキストに基づいて変えることを可能にする。ニュースキャスターの声に関して言えば、文章の中の適切な単語を強調する、より良いイントネーションを、NTTSが生成するのだとAmazonは説明する。
さらに、Amazonの科学者たちは、音声信号を生成するためにディープラーニングを適用する、直接波形モデリング(direct waveform modeling)と呼ばれるアプローチを採用した。
同社は11月には、この技術の詳細を説明していた。当時の説明では、わずか数時間のトレーニングデータで、同社の最新のTTSシステムが、ニュースキャスタースタイルを使えるように訓練できたと述べられている。また研究者たちは、この開発によって、Alexaや他のサービスが、将来的には他の状況に対して異なる会話スタイルを取り込める可能性が開かれた、と語っている。
AmazonのTTS研究チームのシニアマネージャーであるAndrew Breenは、声明の中で「顧客の要求するコンテキストに基づいて、会話スタイルを変える能力をAlexaに与えることによって、これまでには思いもよらなかった素晴らしい体験を提供できる可能性が生まれました」と述べている。「この新しい方法を使って、皆さまがAlexaからニュースやウィキペディアの情報に耳を傾けるようになることに、興奮しています」。
以下に、以前のテクノロジを用いたオーディオサンプルと、新しいニュースキャスターの声を使ったサンプルを示した。
同社はまた、Alexaがウィキペディアの情報を読み上げる際に、どのようにニューラル音声を利用できるかも示している。
[原文へ]
(翻訳:sako)