アマゾン、Echo Show 10でより自然な「会話モード」を正式提供開始

Alexa(アレクサ)は、より自然な会話ができるように学習している。Amazon(アマゾン)は米国時間11月18日、Echo Show 10(第3世代)デバイスに新機能「Conversation Mode(会話モード)」を展開することを発表した。これにより「Alexa」というウェイクワードを言わずに、バーチャルアシスタントと自由な会話をすることができる。このモードは、ユーザーが音声コマンドで有効 / 無効を切り替えることができるため、必要に応じてオンにすることが可能だ。

同社は、2020年のハードウェアイベントで、Alexa Conversations(アレクサカンバセーション)を他のA.I.と一緒に紹介した。そこでAmazonの副社長兼ヘッドサイエンティストであるRohit Prasad(ロヒト・プラサド)氏は、よりパーソナライズされた回答、明確な質問をする機能、会話の中で自然な流れを作る機能など、Alexaの新しい機能をデモした。

このようなインタラクションは、人間にとっては簡単なことだが、AIにとっては大きな課題だ。

Amazonは、そのイベントで、2人の人間がピザの注文について話しているときに、会話モードがどのように機能するかを紹介した

「Alexa、会話に参加して」と言ってこの機能を有効にした後、2人は、時にはバーチャルアシスタントと会話をしながら、ピザの注文について話し合った。Alexaが好みのトッピングを選んだところで、ひとりが「それ!」というと、Alexaは注文を調整した。また、Alexaは、例えば「Mサイズで十分だと思う?」など、2人の会話なのか、それとも自分に向けられた質問なのかを理解しているようだった。そして、ある人が、それほどお腹が空いていないので、小さいピザが欲しいというと、Alexaは自動的に注文を変更した。

同社によると、視覚的な手がかりと音響的な手がかりを組み合わせて、カスタマーの発話がデバイスに向けられているかどうか、返事が期待されているかどうかを認識しているそうだ。これはAIにとって非常に難しい問題だ。Amazonが説明したように、どの映画をみるかについての会話の中で「コメディはどう?」というように、多くの質問はデバイスと人のどちらにも向けられている可能性があるからだ。

さらに、会話モードの機能は、Alexaに向けた発話の開始をより正確に検知するために、反応が早い必要がある(普段はウェイクワードがきっかけでAlexaが話を聞くようになる)。

画像クレジット:Amazon

Amazonによると、デバイスの視界に入っている各人の頭の向きを推定することで、デバイスの指向性を把握する方法を開発したという。

「私たちは、与えられた入力画像のテンプレートの係数を推論し、画像内の頭の向きを決定するために、ディープニューラルネットワークモデルを訓練しました」と、同社は、Amazon Scienceのブログ記事の中で、高いレベルのAI技術の見解を示した。「そして、実行時間を短縮するために、モデルの重さを量子化しました。実験では、このアプローチにより、視覚デバイスの指向性検出の誤認識率(FRR)を、標準的なアプローチと比較して、約80%低減しました」。

また、Amazonは、音声ベースのデバイス音声アクティビティ検出(DVAD)モデルを使用して、Alexaが聞いている音声に反応すべきかどうかを示す音声キューを処理する。これを視覚のみのモードに追加することで、Amazonは反応にかかる時間を増やすことなく、周囲の騒音による誤作動を80%削減し、Alexa自身の応答をきっかけとした誤作動を42%削減することができたという。

会話モードを使用するには、ユーザーは「Alexa、会話に参加して」と言えば良い。有効にすると、Echo Show 10の画面の周りには青いボーダーが表示され、画面下部には水色のバーが表示され、リクエストがクラウドに送信されるタイミングを知ることができる。終了するときは「会話をやめて」と言って終了できる。

また、Alexaは、短時間に対話がなくなった場合、自動的にモードを終了する。

同社は、この会話の開発に以前から取り組んできた。

2020年7月には、人々が好みのフレーズを使って「制約の少ない方法」でAlexaに話しかけることができる、より自然な感覚の会話を可能にする音声アプリの開発を支援するためにAlexa Skillsの開発者にAlexa Conversations機能のベータ版を提示した。これに先立ち、Amazonは「毎回『Alexa』と言わずに、人々がAlexaスマートデバイスに同時に複数のコマンドを与えることができる『会話継続モード』と呼ばれる機能を開発していた

新しい会話モード技術は2020年発表されたが、AmazonはTechCrunchに本日から正式に開始され、Echo Show 10がその機能を使える最初のデバイスになると伝えている。

画像クレジット:Amazon

原文へ

(文:Sarah Perez、翻訳:Yuta Kaminishi)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。