子どもの言うことを理解できない音声アシスタント、授業での使用は困難

著者紹介:Patricia Scanlon(パトリシア・スキャンロン)博士:SoapBox Labs(ソープボックス・ラボ)の創業者兼CEO。ダブリンに本拠を置く同社で、安全かつセキュアな子ども向けの音声認識テクノロジーを開発している。2018年、 Forbes Top 50 Women(フォーブス・女性トップ50)の1人に挙げられた。

ーーー

パンデミック発生前、新規のインターネットユーザーの40%以上は子どもたちだった。現在推定で子どもたちのスクリーンタイム(画面を見ている時間)は60%以上長くなっており、12歳以下の子どもについては、1日あたりのスクリーンタイムが5時間を超えている。(これにはメリットもあるが同時に危険性も伴う)。

デジタル・ネイティブたちの技術的な能力には本当に驚かされるが、幼い「リモート学習者たち」の多くは、Edtech(エドテック:教育とテクノロジーを融合させた造語)で必要なキーボード、メニュー、インターフェイスなどの操作に苦戦しており、教育者(と親たち)が頭を悩ませている。

そうした中、音声対応のデジタルアシスタントの登場によって、子どもたちとテクノロジーとのよりスムーズな対話の実現に期待が持てるようになったかに思える。確かに子どもたちはAlexa(アレクサ)やSiri(シリ)に、ビートボックスをやらせたり、ジョークを言わせたり、動物の鳴き真似をさせるのは大好きだ。だが、親や教師たちも認識しているとおり、こうしたデジタルアシスタントシステムは予測可能な範囲内でしか要求を理解できず、子どもたちの要求がそれを逸脱すると、お手上げとなってしまう。

このような問題が起こるのは、アレクサやシリ、Google(グーグル)などの人気の音声アシスタントを動かしている音声認識ソフトウェアが、子どもたちの利用を全く想定していないからである。子どもたちの声、言語、そして行動は、大人たちよりもはるかに複雑だ。

子どもの声は甲高いというだけではない。子どもの声道は細くて短く、声帯は小さく、喉頭も十分に発達していない。そのため、中学生以上の子どもや大人とは音声パターンが大きく異なっている。

下のグラフからすぐに分かるように、音声認識のトレーニングに使用する大人の声のピッチを単純に変更しただけでは、子どもの音声を理解するために必要な複雑な情報を再現することはできない。子どもたちの間でも言語構造とパターンには大きなばらつきがある。構文、発音、文法は年齢とともに飛躍的に進歩するため、音声認識システムの自然言語処理コンポーネントはその点を考慮に入れる必要がある。この複雑さに追い打ちをかけるのが、大人の音声では考慮する必要のない、さまざまな発達段階にある子どもたちに見られる話者間のばらつきである。

音声認識のトレーニングに使用する大人の声のピッチを変更しただけでは、子どもの音声を理解するために必要な複雑な情報を再現することはできない。画像クレジット:ソープボックス・ラボ

 

 

 

 

 

 

 

 

 

 

 

 

 

子どもの言語行動は大人より変化しやすいだけではなく、不規則で一貫性がない。単語を過度に明瞭に発音したり、特定の音節を伸ばしたり、独り言を言うときに単語に区切りを入れたり、単語を丸ごと省略したりする。子どもの音声パターンは、大人のユーザー向けに構築されたシステムが理解できる一般的なイントネーションには従わない。大人はこうした音声認識デバイスとの対話のしかた、つまり最善の答えを引き出す方法を経験から知っている。しゃんと背筋を伸ばして、頭の中で考えた要求を学習した行動に基づいて修正し、大きく息を吸い声に出して「アレクサ、何とか何とか」という具合に要求を言う。しかし、子どもは、まるで人間に話しかけるように、単純に思いついたままにアレクサやシリに話しかける。返ってくるのは大抵、間違った答えかお決まりの答えだ。

こうした問題は、教育の場ではさらに深刻になる。音声認識システムは、周辺の雑音や教室内の予測不能の出来事に対応するだけでなく、年間を通して変化する子どもたちの話し方や、一般的な小学校で見られるアクセントや方言の違いも考慮する必要がある。体、言語、そして行動による子どもと大人の違いは、子どもが幼いほど著しく大きくなる。つまり、音声認識から最も大きなメリットを受けるべき幼い学習者に対応するのが、開発者にとって最も難しいということなのだ。

子どもたちのさまざまな特異な言語行動を考慮し理解するには、意図的に子どもたちの話し方から学習するよう構築された音声認識システムが必要だ。子どもたちの話し方を、単純に、音声認識で対応すべきアクセントや方言の1つと見なすことはできない。アクセントや方言とは根本的かつ実質的に異なる問題だ。しかもこの特徴は、子どもたちが肉体的かつ言語能力的に成長するにしたがって変化する。

大半の消費者とは異なり、子どもたちにとって正確さは深い意味を持つ。子どもは、正しいのに間違っているとシステムから告げられると(偽陰性反応)、自信を喪失する。逆に、間違っているのに正しいと告げられると(偽陽性反応)、社会情緒的(かつ心理測定的)に害をもたらす危険性がある。アプリ、ゲーム、ロボット、スマートトイといったエンターテイメントの場では、偽陰性または偽陽性の反応が返ってくるとストレスがたまる。学校では、間違った反応や誤解を招く反応、あるいはお決まりの反応が返ってくると、教育的に、あるいは公平さという点で、極めて重大な影響がある。

例えば、音声認識にバイアス(偏見)が存在するという事実についてはさまざまな人が書いているが、こうしたバイアスは子どもたちに有害な影響を及ぼす可能性がある。人口統計的に特定の層に属する、あるいは特定の社会経済的背景を持つ子どもたちに不利にはたらく(偽陽性反応や偽陰性反応を返すような)正確性の低い製品を使うわけにはいかない。数々の調査により、音声が子どもたちにとって非常に効果的なインターフェイスになり得ることが分かってきているが、その音声によって学校特有の既存の偏見や不平等が増幅される危険を見過ごしたり無視することはできない。

音声認識は、家庭でも教室でも子どもたちの強力なツールになる可能性を秘めている。読み書きの能力や言語学習の段階に応じて子どもたちをサポートする際、重大な隔たりを音声認識ツールによって埋めることで、子どもたちは周囲の世界をより良く理解するようになり、周囲の世界からより良く理解されるようになる。これにより、リモートの設定においても確実に機能する、「目に見えない」観察的評価基準の確立という新しい時代を切り開くことができる。しかし、今日の大半の音声認識ツールはこの目標には適していない。シリ、アレクサ、その他の音声アシスタントで採用されているテクノロジーの任務は、明快かつ予測可能な話し方をする大人を理解することであり、基本的にはその役割をうまく果たしている。しかし、子どもたちの音声にも対応できる音声認識システムを実現するには、子どもたちの特殊な声、言語、そして行動に合わせてモデル化された、彼らに反応できるシステムが必要なのである。

関連記事:マイクロソフトやアマゾンが音声認識チップの新興メーカーSyntiantに出資

カテゴリー:人工知能・AI

タグ:音声認識 スマートスピーカー コラム

[原文へ]

(翻訳:Dragonfly)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。