アイルランドのスタートアップであるSoapBox Labsは、自らが「世界で最も正確で使いやすい子供のための音声技術」と呼ぶ技術の開発に邁進している。その技術はサードパーティーのハードウェアならびにアプリ開発者たちに提供される予定だ。その応用範囲は、読みと言語発達を支援する教育アプリ、家庭内で子供の声で制御するIoT機器、スマートトイ、そしてAR/VR体験などに広がっている。
2013年にPatricia Scanlon博士(元ベル研究所の研究員で音声認識技術で約20年の経験を持つ)によって創業された、この若い会社は、現在 Amazon EchoやGoogle Homeなどに搭載されているような、大人のための音声認識技術は、子供たちのためにはあまり上手く動作しないという前提のもとに活動している。
これは子供たちが、より高い声と、異なる話し方のパターンを持っているからだ。決定的に重要なことは、大人と違って、幼い子供たちは話し方を機械に合わせようとしないということだ、大人たちは意識的あるいは無意識的に、音声UIといわゆるスマートアシスタントの使い勝手を向上させるために機械に合わせた話し方をしている。
電話での説明によれば、ScanlonとSoapBox Labsのチームがこの問題に取組始めたのは2013年で、そのときまでに理解していた音声技術の構築方法の多くを、捨て去る必要があったということだ。広範な研究フェーズを経て、「子供たちの発話の振舞は、大人のものと非常に異なる」ことが明らかになった。特に幼い子供の場合には顕著だった。大人の音声データを使って開発され、大人の振舞をモデル化した音声認識技術は、幼い子供に適用された場合に、あまり良い成績を出すことができない。
その代わりに、SoapBox Labsは独自の子供の音声データセット(数千時間に及ぶ子供たちの音声データで構成されている)を作成し、これをチームの持つ子供たちの声と振舞に関する知見と組み合わせた。この結果生まれたプラットフォームは、スタートアップの独自モデルとスコアリングアルゴリズムを活かすために深層学習(AI)技術を活用し、子供たちを対象にした遥かに優れた音声技術を提供している。
これは子供向け英語版音声認識APIとして、SoapBox Labsからサードパーティに向けてリリースされている。来月の初めにはより多くのパートナーシップが発表されるだろうということだ。
同社はまた更なる資金調達を発表した。210万ユーロに及ぶその資金はその音声認識プラットフォームに対して英語以外の言語サポートを加えるために用いられる予定だ。資金の内訳は、150万ユーロがEUからの助成金であり、残りの60万ユーロが既存の支援者からのものだ。これによりSoapBox Labsの総資金調達額は300万ユーロとなった。
子供のための音声認識技術についての議論の中で、Scanlonは私に、デバイスが話者が子供か大人かを識別して、裏側のデータセットとモデルをそれに合わせて切り替える状況があり得ると語った。これは、子供ための音声技術は、間違いなく開発は難しいものの、大人に対しては上手く働かないからだという。現時点では2つの分離した解が最適なのだ。
さらに、現在インタラクションをしている相手が、子供か大人かを知っているデバイスは、振舞やインタラクション上の許可を変えることができるだろう。とはいえ、それがいかに必要かは分かっていても、子供を管理されたくない場合もあるだろう。
[原文へ]
(翻訳:sako)