Googleは昨年、新しい音声生成の方法であるWaveNetを発表した。これは大量の単語ライブラリや、堅苦しくなりがちな簡易手段に頼らない手法だ。WaveNetは、機械学習を使いサンプル毎に音声を生成する。その結果は私に言わせれば「気味が悪いほど良くできた」ものだ。これまではラボの中で提供されていたが、この技術が、最新版のGoogle Assistantに導入される。
この技術の背後にある基本的なアイデアは、文法や音調のルールを手でコーディングして単語や文を生成するのではなく、機械学習システムを使ってスピーチのパターンを見出し、それをサンプル毎に生成するようにしたことだ。この場合のサンプルとは、1/16000秒単位で生成される音だ。最初のリリース時点ではWaveNetは非常に計算コストが高く、0.02秒の音声を生成するのに1秒を要していた。つまり “turn right at Cedar street”(Cesar通りを右折)といった2秒のクリップを生成するのにほぼ2分近い時間がかかっていたのだ。そのため、実際の用途には適していなかった(そんなに時間がかかったら、交差点を通り過ぎてしまう)。それがGoogleのエンジニアたちが改善を図った理由だ。
新しく改良されたWaveNetは、実時間に比べて20倍の速さで音声を生成する。すなわち同じ2秒のクリップを1/10秒で生成するのだ。そしてさらに、8ビットではなく16ビットで、1秒あたり2万4000回という高いレートでサンプリングを行なうことも可能だ。スマートフォンのスピーカーでは、そうした忠実度の高いサウンドが本当に高く評価されることはないだろうが、本日(米国時間10月4日)のアナウンスによれば、Assistantはほどなくより多くの場所に登場するようだ。
WaveNetによって生成された音声は、従来使用されていた最先端の単語連結式システムよりもかなり良好なものだ。
改良前:
改良後:
(Assistantもすぐにこのような音声になるだろうが、さらに多くの例はDeep Mindのブログ記事でも聞くことができる)。
WaveNetはまた、他の言語やアクセントに対して拡張していくことが非常に容易であるというとても優れた性質を持っている。ウェールズ語のアクセントで話させたいときに、手を入れて自分の声の母音を足したりする必要はない。ウェールズ人の声を数十時間入力として与えるだけで、システム自身がニュアンスを抽出する。とは言え、この新しい声は、現在米国英語と日本語でのみ利用可能で、他の言語についてはまだ発表されていない。
「大手のハイテク企業たちは、他の大手ハイテク企業がやっていることをやる」という流れに乗って、最近Appleも、機械学習スピーチモデルを使ってそのアシスタント(Siri)を改良した。しかしこれは、Googleのものとは違い、サンプリングレベルでの再生成を行っているわけではなく、音素レベルでの再生成に留まっている。
WaveNetのチームはその成果をほどなく公開する予定だが、今のところは、これまでよりも遥かに効率よく働くという、彼らの約束で満足しておくしかない。
日本版:Deep Mind ブログに掲載された日本語のサンプル
改良前:
改良後:
[ 原文へ ]
(翻訳:Sako)