Text-to-speech | SEO-LPO.net

Google CloudはGoogle自身が使っているテキスト音声変換エンジンをデベロッパーに公開

テキストから音声への合成技術は近年大きく進歩し、最近のシステムは本物の人間がテキストを読んでるように聞こえるものが多い。その進歩を引っ張った企業のひとつであるGoogleは今日（米国時間3/27）、同社がAssistantやGoogle Mapsなどで今使っているのと同じ、DeepMindが開発したテキスト音声変換エンジンをデベロッパー向けに一般公開した。

そのCloud Text-to-Speechと呼ばれるサービスは、32種の声が12の言語とその変種を喋る。このサービスが生成するMP3またはWAVファイルは、ピッチや読む速度、音量などをデベロッパーがカスタマイズできる。

しかし、声の質にはむらがある。それはたとえば、英語には6種類の声があるからで、それらはすべて、テキストから生のオーディオを作るためのDeepMindのモデルWaveNetで作られている。

WaveNetはそれまでの技術と違って、短い発話の集まりから音声を合成しない。それをやると、私たちにはおなじみの、ロボットふうの話し方になってしまう。それに対してWaveNetは機械学習のモデルを使って生のオーディオのモデルを作り、より自然に聞こえる音声を合成する。Googleが行ったテストでは、WaveNetの声の方がふつうの（人間の）声よりも20%良い、という評価になった。

Googleが初めてWaveNetに言及したのは約1年前だが、その後同社は、同社自身のTensor Processing Unitsをベースとする新しいインフラストラクチャへこれらのツールを移し、オーディオ波形の生成をそれまでの1000倍速くした。だから今では1秒のオーディオの生成に50ミリ秒しかかからない。

この新しいサービスは、すべてのデベロッパーが利用できる。料金表はここにある。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）

Googleが音声合成を機械学習で訓練する方法Tacotron 2を発表、システムの調教が楽になる

本物らしい良質な合成音声を作ることは今、ホットな研究開発テーマだが、一歩リードしているのはGoogleだろう。同社は今日、Tacotron 2なるものを発表して、さらにその差を広げたかもしれない。これは人工知能にテキストを読ませてリアルな音声を作り出すための、ニューラルネットワークの新しい訓練方法で、ユーザーには文法知識がなくてもよい。

この新しいテクニックは、Googleのこれまでの音声生成プロジェクトWaveNetと初代Tacotronの良いとこ取りをしている。

WaveNetは、ぼくの感想では“気味が悪いほど本物そっくりの”音声を作り出し、しかも一度に一つずつのオーディオサンプルを作るので、あまり実用向きではない。WaveNetは有能ではあるけど、最初に言語に関する大量のメタデータを必要とする。発音や、言語のさまざまな特徴などだ。

初代Tacotronは、イントネーション（抑揚）や強弱などを含む、より高いレベルの音声合成ができるが、実用的な最終製品を作るのには向いていない。

Tacotron 2は、この両者を利用している。ぼくはこの方面の技術には疎い方だけど、理解できる範囲で言えば、このシステムは、言葉のルールを明示的に教えなくても、テキストの原文とナレーションからそれらのルールを予測推定する。テキスト本体は、Tacotronがリズムや強調を得るために使う“メル尺度スペクトログラム(mel-scale spectrogram)”に変換され、語そのものはWaveNet的なシステムを使って生成される。

これでよく分かるはず!?

そうやって得られた音声は、ここにサンプルがあるが、今世の中にあるものの中では最良ではないだろうか。語りのリズムは自然だが、ちょっと快活すぎるかもしれない。わかりにくい発音のある語ではつまずくが、それらは主に、アメリカ英語に外から輸入された語、たとえば“decorum”をこのシステムは第一音節を強調するし、フランスのワイン用ぶどうの品種“Merlot”は書かれた綴りをそのまま発音するので笑わせる。研究者たちは、“極端なケースでは奇妙なノイズをランダムに生成することもある”、と書いている。

また、音声の口調…元気である、心配しているなど…をコントロールすることはまだできない。アクセントなどは、WaveNetでできたように、できる。

訓練システムの敷居を下げれば、もっと良質な訓練ができるだろう。Googleのこの新しい方式では言葉や話法に関する複雑なルールを、言語や音声スタイルが変わるたびに手作業で教えなくてもよい（ニューラルネットワークを実例で訓練するだけだ）。

研究者たちは結果をIEEEのカンファレンスInternational Conference on Acoustics, Speech and Signal Processingで発表する予定だが、そのためのペーパーはarXivで読める。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）

標識などを瞬時に訳してくれるGoogle Translateが、対応言語を27ヵ国語に拡大

自国語の通じない国を旅行したことはおありだろうか。最近ではそうした際に利用できるツールがいろいろと登場してきている。しかしそんな中でも、Google Translateが、No.1ツールとしての地位を獲得しているのではなかろうか。

手軽さでいってもナンバーワンで、6ヶ月前からはインスタント翻訳の機能も備えるようになった。これは、買収したWord Lensの機能を利用したもので、標識などにカメラを向けると、直ちに（かつ驚くほど正確に）内容を翻訳してくれるというものだ。

その機能はこれまで7ヵ国語で利用できるものだったが、このたび27ヵ国語に拡大されたのだ。これにより利用可能な言語は英語、フランス語、ドイツ語、イタリア語、ポルトガル語、ロシア語、スペイン語、ブルガリア語、カタロニア語、クロアチア語、チェコ語、デンマーク語、オランダ語、フィリピン語、フィンランド語、ハンガリー語、インドネシア語、リトアニア語、ノルウェイ語、ポーランド語、ルーマニア語、スロバキア語、スウェーデン語、トルコ語、そしてウクライナ語となった。iPad版およびAndroid版の双方で、アップデートの提供を開始したところだ。

インスタント翻訳および音声翻訳のスピードはニューラルネットワークを活用することで実現しているのだそうだ。仕組みについてはGoogle TranslateのソフトウェアエンジニアであるOtavio Goodがブログで説明している。なかなか難しい内容だが、テクノロジーに興味のある人には面白い内容だろう。

個人的には、ついには他言語を学ぶことなく、テクノロジーの力により理解できる時代になってきたのかと感慨深く思う。これはたとえばGPSに似ているだろうか。そちらの方も仕組みはよくわからないものの、手放せないツールとなっている。ついには外国語も「理解せずとも使える」段階になりつつあるのかもしれない。

（訳注：原文にはこの後、Google TranslateのプロダクトマネージャーであるJulie Cattiauへのインタビューが掲載されています）

［原文へ］

（翻訳：Maeda, H）

PlayStation 4のアップデートでゲームの中断/再開ができるようになった、外部ハードディスクへのバックアップも

Sony PlayStation 4の最新アップデート”Yukimura”には、プレイヤー待望のSuspend/Resume（中断/再開）機能がある。一時停止するとPS4はRest Mode（休憩モード）に入り、再開すると、さっきやめたところから始まる。

このSuspend/Resume機能を使うと、いちいちセーブしてからアクションを止めなくてもよい。またRestModeで低電力消費の静止状態に入っても、何ごともなかったかのように蘇生する。これまでは、こういう一時的なポーズをするためには、メニューを開いて何かをチェックするふりをする必要があった。メニューが開いている間（かん）、ゲームはフリーズする。

YukimuraすなわちPS4のソフトウェアのバージョン2.50には、本体のHDDの内容を外部のUSBドライブ（ハードディスクやSSD）に/からセーブ/リストアするバックアップ機能が加わった。設定も、保存したデータも、ゲームのスクリーンショットも、パッチもダウンロードも、…システムのすべてをバックアップできる。

保存したデータのバックアップは前にもできたが、それはUSBのフラッシュドライブだけで、しかも新たなセットアップ（あるいはリセット）が必要ならシステムデータをPlaystationのサーバからダウンロードする必要があった。経験者として言えば、それはかったるいプロセスであり、システム全体をモバイルのSSDから単純にロードできるようになったのは、ほんとに良いことだ。

PSNの上の友だちを、Facebookのアカウントから探せる機能も加わった。また進行中のゲームに加わったり、招いたりするのも、前より簡単にできるようになった。自分のTrophy情報をFacebookやTwitterなどでシェアできる。Dualshock 4のボタンのレイアウトをカスタマイズできる。さらに、障害者のためのテキスト読み上げやグラフィカルな表示機能などもある。

ほかに、次のようなものも新たに加わった: （Sonyのサイトより）

リモートプレイとシェアプレイ**: 60fpsをサポートしているゲームでは、リモートプレイやシェアプレイのゲームを60fpsのデバイスにストリームできる。
システムソフトウェアのアップデートを自動インストール: 将来のシステムソフトウェアのアップデートは自動的にインストールされる。
サブアカウントのアップグレード: 18歳以上のユーザはPS4上のサブアカウントから直接、マスターアカウントをアップグレードでき、チャットの制限を取り除いたり、ウォレットにファンドを加えたり、コンテンツを買ったり、いろいろできる。
公認アカウント: デベロッパやプロデユーサーやゲームデザイナーやコミュニティのマネージャなど、ゲーム業界のプロフェッショナルとして公認されているアカウントはバッジをつけて表示される。
Dailymotion.com: SHAREボタンでビデオクリップをDailymotionに直接アップロードできる。

[原文へ]
（翻訳：iwatani(a.k.a. hiwa）