合成音声に人間の深い感情を吹き込むSonantic、本当に人が泣いているかのような表現も可能に

Amazon(アマゾン)のAlexa(アレクサ)やApple(アップル)のSiriなどの音声アシスタントには「情緒」とか「表現力」といった言葉は無縁に思える。声のトーンは平坦で慇懃で、感情は一切表に出さない。アシスタントならそれでもいいが、合成音声をゲームや映画、その他の物語性の高いメディアには使いづらい。

そこで、Sonantic(ソナンティック)というスタートアップは、真に迫った泣き方をする「人間の深い感情」を表現できるAIの開発に取り組んでいる。英国を拠点とするこのスタートアップは、先月、EQT Ventures主導による230万ユーロ(約2億7000万円)の投資を獲得したと発表したが、5月12日にその技術がどれほどのものかを示す動画が公開した。

動画を見れば、読者もその結果を評価できるだろう。Sonanticによれば、すべての声は技術的に作り出されたものだそうだ。私個人の感想としては、優れた声優に置き換えられるほどではないといった感じだ。しかし、これまで聞いたどの合成音声よりも確かに感情がこもっている。

Sonanticの実際の製品は音声エディターだ。すでにゲームメーカーでテストが進められている。共同創設者でCEOのZeena Qureshi(ジーナ・クレシ)氏によると、このエディターにはさまざまな音声モデルが含まれており、それらは実際の声優とともに開発したものだという。そして、声優には売り上げの一部が還元される。

「私たちは、声のディテールと息遣いのニュアンスにこだわりました」とクレシ氏。「声そのもので物語が表現されなければなりません」。

共同創設者でCTOのJohn Flynn(ジョン・フリン)氏は、わかりやすい出発点としてゲームスタジオがあると話す。ゲームでは、何千何万という会話を録音しなければならないからだ。「これがあれば、時間をかけることなく、状況に応じて同じセリフにさまざまな表情を付けることができる」と同氏は説明する。例えば、走っているキャラクターが息を弾ませながら話すといったシチュエーションだ。また、キャラクターが泣いたり叫んだりしても、声優の喉に負担をかける心配もない。

フリン氏は映画の映像処理の世界で働いていた経験があり、Sonanticの技術はゲーム以外にも数々の業界で応用できると考えている。声優に置き換わることが狙いではなく、目指すのはむしろ「語り」の新しい活躍の場の発掘だ。

「実写映像の処理にどれほどCGが使われているかを考えてみてください」と彼は言う。「どちらかを選ぶという性質のものではありません。新しいテクノロジーとは、夢のような方法で新しい物語を聞かせてくれものなのです」。

Sonanticは、初期の音声モデル開発に協力した女優のArabella Day(アラベラ・デイ)氏を私に紹介してくれた。デイ氏は、何時間もかけてたくさんのセリフを録音したという。そしてついにフリン氏から電話があり、彼女の声の合成音声版を聞かされた。「私はフリンにこう言ったんです。それが私?私が録音した声? って」と彼女は振り返っていた。

Sonanticでの仕事は「本物のパートナーシップ」だったと彼女は話していた。彼女が新しい音源を提出すると、それを基にボイスモデルがどんどん改良されていく。最近では、彼女の音声が米国人のアクセントになっていたものもあるらしい。デイ氏によれば、彼女の声の使い方について、本人が心配しないよう会社は気を使ってくれたという。ブラックリストに載せたい会社はないか、いつも聞かれていたとのこと。

「女優として演劇の未来はAIだなどとは、まったく思っていません」とデイ氏。「これが私の仕事の道具のひとつになればいいと願っています。頼りになる私の特別な強みにね」。

同時に彼女は、多くの業種でAIが人間の労働者に置き換えられることへの「合理的」な懸念も抱いてもいる。「それがエンターテインメントの未来だとしても、私もその一員でいたい」と彼女は言う。「でも、その一員として、一緒に働きたいんです」。

関連記事:ゲームの人工音声をより「人間らしく」するSonanticが約2.8億円を調達

画像クレジット:Sonantic

原文へ

(翻訳:金井哲夫)

ゲームの人工音声をより「人間らしく」するSonanticが約2.8億円を調達

ゲームやそのほかのエンターテインメントの人工音声を「人間らしく」するイギリスのスタートアップであるSonanticが、230万ユーロ(約2億7680万円)の資金を調達した。

EQT Venturesがこのラウンドをリードし、前からの投資家であるEntrepreneur First(EF)とAME Cloud Ventures、そしてHorizons VenturesのBart Swanson(
バート・スワンソン)氏が参加した。なお、Twitchの共同創業者Kevin Lee(
ケビン・リー)氏も、初期の投資家の1人だ。

2018年にCEOのZeena Qureshi(ジーナ・クレシ)氏とCTOのJohn Flynn(
ジョン・フリン)氏は、ロンドンで行われたEFのインキュベーター事業に参加して同社を創業した。以前はSpeak Aiという社名だったSonanticは、世界のゲームとエンターテインメントの音声技術に革新をもたらしたいと考えている。同社は開発した人工音声技術を、ゲームスタジオがオンデマンドで使える「表情豊かでリアルな演技音声」と呼んでいる。すでにAAA(トリプルエー)のゲームスタジオ10社あまりとの研究開発パートナーシップを進めている。

Sonanticが解決する問題について尋ねると、クレシ氏は次のように答えている。「ゲームに会話を入れる工程は時間がかかり、高価で労働集約的な作業だ。この工程はキャスティング、スタジオの予約、契約、スケジューリング、編集、監督などなど、大量の調整作業を要する。音声つきのビデオゲームは、頻繁に変わるゲームデザインに付き合わされて1本のゲームが完成するまでに10年かかることもある。そのたびにゲームデベロッパーは、同じような繰り返し作業を強いられる。しかも途中で予算オーバーになったり、ゲームのリリースが遅れたりすることもある」

こういった問題を解決するためにSonanticは、クレシ氏が「オンデマンドで動的な演技音声」と呼ぶ技術を提供する。この技術は、キャラクターに求められる性別や個性、アクセントの特徴、声色、感情などに基づいて正しいタイプの声を作り出す。同社の人間の声に近いテキスト音声変換システムはAPIで提供され、ユーザーはGUIのツールで合成声優を編集し、変化させ、まるで人間の俳優に行うように監督(演技指導)する。

そのためにSonanticは、俳優たちといっしょに彼らの声を合成し、その際の演技指導も行う。「さらにその声のデジタルバージョンを提供することで、彼らの受動的収入源になり、俳優たちの助けにもなる」とSonanticのCEOは説明する。

経費を下げ、すぐに利用可能な音声モデルを用意していることで、Sonaticはゲームスタジオが短期間で繰り返しの作業が安価でできるようにしている。同社のSaaSとAPIによりいろんな音声演技を作って試すことも簡単で、ストーリーの細かい変更や編集、そして監督も楽にできるようになる。

一方でSonanticは怒り、悲しみ、喜びなどさまざまな感情のこもった音声を作り出す同社の技術をいずれ一般公開したいと考えている。同社によるとそれは、本当に有能な本物の俳優や声優にしかできない技能だそうだ。

[原文へ]
(翻訳:iwatani、a.k.a. hiwa