大日本印刷(DNP)とグループ会社のDNPコミュニケーションデザイン(DCP)は6月15日、人間の音声を人工的に作り出す「音声合成」の制作時に起きる読み間違いを減らし、人が読むナレーションのイントネーションやアクセント、間合いに近い自然な音声を自動生成できるAI(人工知能)活用音声合成システムを開発したと発表した。
今回開発したシステムは、音声合成の制作時に起きる漢字の「誤読」や、「橋/箸/端」(はし)など同じ読み仮名で異なる「イントネーションの違い」に関し、読み間違いを約50~70%削減したという(従来のDNPの音声合成の制作と比較)。これにより、高齢者や身体障がいの有無に関わらず、誰でも必要な情報に簡単にたどり着けるアクセシビリティの向上が期待される。また、音声合成が利用されている学校教材や電子書籍、生命保険・損害保険の約款や契約書、e-Learningや研修教材などへも広く活用できるとしている。
現在、多様な人々にわかりやすく情報を伝達する機器やサービスの開発が進み、その利用が拡大している。例えば、文字などを読むことが困難な人のための国際標準規格DAISY(デイジー。Digital Accessible Information System)に準拠したデジタル録音図書をはじめ、様々な手法で人間の音声を人工的に作り出す音声合成は、交通情報や施設のナビゲーション、電話の自動音声ガイダンスなどで幅広く利用されている。
ただ、音声合成の精度は年々向上しているものの、漢字の誤読や発音・イントネーションの間違いが依然として発生していることが課題となっているという。この課題に対してDNPとDCDは、多くの企業のマニュアルや約款、研修用コンテンツなどで音声合成を制作してきた技術・ノウハウを活かし、「単語の読みや発音で、間違いのない音声データ」を機械学習させて、誤読が少なくスムーズな発音の音声合成を自動生成できるDNP独自のAIシステムを開発した。
具体的には、DCDが保有する読み間違いのない音声データをAIに機械学習させることで、正確な読みを自動付与できるようになった。これにより、約款や契約書、自治体・行政機関等の公式文書、製品の解説書といった正しい情報提示が必要でテキスト量が多いものへの利用に適しているという。
また、イントネーションとアクセントについて文章の文脈を加味して自動生成するため、従来の方法と比較して、人が読むナレーションに近い自然な音声を生成できる。両社は、特に正しい読みやナレーションを重視する学校教材や電子書籍などに最適としている。
さらに、既存音声データに加え、追加学習によってデータを増やすほど、読みの正確性やイントネーション・アクセントの精度が向上するという。複数の生命保険会社の約款で汎用性の検証を実施したところ、「読み」「アクセント」「間」について約85%以上の正確性を確認したそうだ。
DNPとDCDは今後、AIの精度向上と適応分野の拡大に努めるとともに、AIを活用した音声合成の付加価値を高め、幅広い分野に向けてサービスを提供するとしている。
関連記事
・AIチャットボット「りんな」のrinnaとUneeQを日本展開するデジタルヒューマンが協業、顔・声・視聴覚を持つ雑談AI実現
・マイクロソフトはGPT-3を使い自然言語でコードを書けるようにする
・グーグルが手話認識技術を開発、日本財団らが手話とろう者への理解促進を目指した手話学習オンラインゲームをベータ公開
・AIチャットボット「りんな」を手がけるrinnaが日本語特化のGPT-2大規模言語モデルをオープンソース化
・日本語音声合成向けに東京式アクセントを自動推定する自然言語処理ソフト「tdmelodic」がオープンソース化