本日(米国時間2月8日)Amazonは、新しいAmazon Polly WordPressプラグインを発表した。これを使えばブログの投稿から音声版を作成して、ブログに声を与えることができる。Amazonによれば、生成された音声は、そのブログ記事から直接再生したり、Amazon Pollycastという機能を通してポッドキャスト形式でアクセスすることができる。
このプラグイン自体は、AmazonのAWSチームと、マネージドWordPressプラットフォームプロバイダであるWP Engineによって共同で設計されたものだ。Amazonのテキスト音声変換サービスであるPollyを活用している。
2016年11月にAmazonのre:Invent開発者イベントで初登場したPollyは、生き生きとした音声を提供するために、機械学習技術を使用している。たとえばPollyは、”live”という単語が、その文脈によって異なる発音(ライブとリブ)をされることを理解している。”I live in Seattle”(私はシアトルに住んでいます)と“Live from New York”(ニューヨークからのライブ)というフレーズの両者で、liveは同じように綴られているが、発音は異なっている。これは、他のいくつかのより基本的なテキスト音声変換エンジンよりも、音声がより自然に聞こえることを意味する。
Pollyの音声エンジンは当初、47の男性と女性の声、そして24言語のサポートから開始された。その後、アマゾンは韓国語やその他5つの言語のサポートを追加し、AWSのすべてのリージョンでPollyを利用できるようにした。
囁き、スピーチへのマーキング、音質効果、ダイナミックレンジ圧縮などの機能も追加されて、テクノロジーの機能も進化した。これらの音声技術の進歩は、Alexaのサウンドをより自然にするためにも利用されている。Pollyと同様に、今年の始めにAlexaは囁くことを学び、声のピッチを変えることもできるようになった。
もちろん今回のWordPressプラグインが、Pollyがデジタルテキストを音声に変換するために使用された、初めての例ではない。このサービス自体は、任意のテキスト、すなわちニュース記事、ブログ投稿、RSSフィード、PDFなどをずっと音声に変換するために使われて来た。しかし、この機能をWordPressプラグインとして利用できるようにすることで、より多くのユーザーがPollyにアクセスしやすくなる。
ただし、このプラグインは、自分のインフラストラクチャ(ホストされていたり、マネージドだったり)上またはAWSに、WordPressをインストールしている人だけが利用可能であり、設定も少々必要だ。これはそれほど技術的ではない人には、やや使い難いかもしれない(手順はアマゾンの開発者のブログ上のここ、またはとプラグインページ上に書かれている)。
設定が完了すると、プラグインはブログ投稿が保存または更新されるたびに、Amazon Pollyを呼び出す。
もし技術的な心得があれば、単にポストを読み上げさせるだけでなく、Pollyの柔軟性によって、異なる行に異なる声を設定することも、引用したテキストに異なる声を使用することもできる(プラグイン自体からは直接そうしたオプションは利用できない)。Pollyは翻訳機能も備えているので、あなたのブログは他の言語を話す人に読んでもらうこともできる。
ポッドキャストを行う人たちのために、プラグインにはPollycastという機能があり、このことによって、iTunesのカテゴリ、画像、連絡先電子メール、露骨なコンテンツフラグといった、生成されるRSSフィードに含まれるiTunesのパラメータを制御することができる。
Amazon Pollyプラグインは無料だが、Pollyの利用は無料ではない。
料金は、音声に含まれる文字数に基づいて計算される。また、AWS無料ティアによって、Pollyの開始後1年間は、毎月500万キャラクタまでは無料で使うことができることは、指摘しておく価値があるだろう。
[原文へ]
(翻訳:sako)
FEATURED IMAGE: MRTOM-UK/GETTY IMAGES