自分の声で音声合成できる「CoeFont CLOUD」で多彩な感情表現が可能に

自分の声で音声合成できる「CoeFont CLOUD」で多彩な感情表現が可能に

東京工業大学発のAI音声合成スタートアップYellston(エールストン)は9月16日、自分や著名人の声を「フォント」化して音声合成ができるプラットフォーム「CoeFont Cloud」(コエフォント・クラウド)に、喜びや怒りなどの感情表現機能を追加したと発表した。

現在は、男性バーチャルキャラクターであるアベルーニに感情機能を実装。通常の声に加えて、喜怒哀楽の4種類の声のフォント(CoeFont)があり、それぞれの感情のこもったテキスト読み上げをしてくれる。これらのCoeFontを組み合わることで、表現豊かな音声合成を作ることができる。同様に、女性バーチャルキャラクターのアリアルにも感情のCoeFontをリリース。アリアルの感情CoeFontは、同社が提供するウェブ音声合成サービス「CoeFont Studio」でも、週替わりで一部公開している。

今後は、一般ユーザーも感情を込めた自分の声を収録することで、自分の感情CoeFontが作れる感情追加機能をリリースする予定とのことだ。

500円・約15分間の収録で自分の声によるAI音声合成を可能にする「CoeFont CLOUD」が先行公開を開始

500円・約15分間の収録で自分の声によるAI音声合成を可能にする「CoeFont CLOUD」が先行公開を開始

東京工業大学2年生で19歳の早川尚吾氏が設立し、社長を務めるAI音声合成スタートアップYellston(エールストン)は7月19日、1回の料金500円で約15分間の収録を行えば、AIが自分の声を音声合成用の声のフォント「CoeFont」(コエフォント)に変換してくれるサービス「CoeFont CLOUD」の先行リリース開始を発表した。

2020年11月設立のYellstonは、「CoeFont Studio」(コエフォントスタジオ)を2021年4月にリリースした。デジタルキャラクターや著名人の声でテキストの読み上げをさせることができるサービスだ。リリースから3日で5万人のユーザー数を獲得、月間ユーザー数は20万人に達したという。凪白みとのイラストで、浅木ゆめみが声を提供しているAllial(アリアル)とMillial(ミリアル)という双子キャラクターの声は無料で試すことができ、すでに二次創作などに多く利用されているそうだ。

CoeFont Cloudは、それを自分の声で行えるというもの。自分の声のフォントを公開できるが、「CoeFont Official」を利用すれば、気象予報士の森田正光、野球解説の藪恵壹などの著名人や声優の声フォントを自分の作品に使うこともできる。公開された声は、利用された場合に文字数に応じて本人に料金が支払われる。

このサービスの特徴は、文脈からアクセントを予測し、深層学習で自然な音声合成を行うところにある。ウェブサービスなので利用環境を選ばず、アクセントや速度の編集などすべてがウェブ上で行える。公開範囲は設定によって限定が可能。テキストを読み上げた音声はダウンロードして、オーディオブックや動画のナレーションなどに利用できる。さらに、APIが提供されるので、アプリに組み込んでコメントを読み上げるなどの活用が可能になる。自分の声が悪用される心配があるが、放送禁止用語や汚い言葉は合成できないように配慮されている。

音声作品の制作のみならず、声帯の切除手術を予定しているガン患者が、事前に自分のCoeFontを作っておき、後にそれを使って会話をするという利用法も、すでに実施されているという。

「CoeFont Cloud」は現在、先行体験期間中。先行利用には「CoeFont CLOUD先行利用申請」での申請が必要で、Yellstonが利用できる人を選考する仕組みになっている。

今後も、より自然に、精度の高い音声合成を目指して、これからも研究を重ねてゆくとのことだ。

関連記事
Twitterが音声ツイートに自動文字起こし機能追加、社内にアクセシビリティ専門チームを用意し取り組む
人と間違えるほど自然な合成音声を高速で作成するツールをWellSaid Labsが開発
質と量で世界初、工学院大学が約6360手話単語と10テーマ10件の対話を収録した高精度3D日本手話データベースを提供開始
生命保険の約款や学校教材における漢字の誤読を低減、正確なイントネーションで音声合成を自動生成するAIシステム
AIチャットボット「りんな」のrinnaとUneeQを日本展開するデジタルヒューマンが協業、顔・声・視聴覚を持つ雑談AI実現
日本語音声合成向けに東京式アクセントを自動推定する自然言語処理ソフト「tdmelodic」がオープンソース化

カテゴリー:ネットサービス
タグ:Yellston(企業)音読(用語)合成音声(用語)ディープラーニング / 深層学習(用語)東京工業大学(組織)日本(国・地域)