音声認識 / Voice Recognition（用語）

現場状況を遠隔地と共有可能な「コネクテッドワーカーソリューション」のフェアリーデバイセズが10.2億円調達

現場作業の内容・状況をリアルタイムに遠隔地と共有可能できる「コネクテッドワーカーソリューション」を手がけるFairy Devices（フェアリーデバイセズ）は2月24日、シリーズBラウンドにおいて、総額約10億2000万円の資金調達を発表した。引受先および借入先は、商工組合中央金庫、DG Daiwa Ventures、みずほ銀行、りそな銀行、信金キャピタル、ダイキン工業、ユナイテッド、横浜キャピタル。

調達した資金により、コネクテッドワーカーソリューションによる現場DXを加速する。日本および海外におけるソリューション提供体制をより一層強化し、国内産業現場に蓄積されてきた匠の技のデジタル化を加速化することで、「熟練工AI」を早期に実現する方針としている。

コネクテッドワーカーソリューションは、製造・サービス・保守メンテナンス・建設など様々な現場において、「遠隔支援による熟練工不足の解消」「現場ノウハウのデジタル化」「AIによる現場支援」を実現する現場DXのためのソリューション。

首かけ型ウェアラブルデバイス「THINKLET」と、現場データのデジタル化を司るクラウドプラットフォーム「THINKLET PLATFORM」により構成しており、既存の現場作業を邪魔することなく作業内容・状況を遠隔地とリアルタイムに共有可能できる。また作業データを蓄積・学習・解析することで、熟練作業者の技能やノウハウをデジタル化し再活用可能という。

現場状況を遠隔地と共有可能な「コネクテッドワーカーソリューション」のフェアリーデバイセズが10.2億円調達

2007年4月設立のFairy Devicesは、「使う人の心を温かくする一助となる技術開発」を目指し、VUI（Voice User Interface）やVPA（Voice Personal Assistant）関連技術や音声認識／音声翻訳関連技術とクラウド基盤、それらの性能を活かすエッジデバイスの開発を通して、音声技術を中心とした機械学習技術の実業務現場への適用を推進。

さらに、現場の人から生まれる各種のデータ解析や、最先端の応用研究を実装した業務ソリューションを、デバイスからクウドまで一気通貫で提供することによって、様々な業界のDXを支援している。

カテゴリー：ネットサービス

タグ：AI / 人工知能（用語）、音声認識 / Voice Recognition（用語）、資金調達（用語）、Fairy Devices（企業）、日本（国・地域）

Pindropとの連携でデジタルレコーダーのTiVoに音声認識機能が帰ってくる

TiVoのデバイスに新しい音声認識機能が搭載される。これはアトランタを拠点とするスタートアップで、コンシューマデバイス用の音声認識とパーソナライズ技術を提供するようになったPindropとの連携によるものだ。

TiVoは以前にAlexaの音声認識サービスを使用していたが、2020年にひっそりと廃止されていた。新しい音声認識機能がAlexaに代わって搭載されることになる。

TiVoは2年ほど前にはAlexaの統合に相当な力を入れていた。Pindropのサービスへの切り替えは、音声対応サービスには堅調な市場があり、Amazon（アマゾン）とGoogle（グーグル）の本拠地で戦うためにさまざまな市場からプロバイダーが参入していることを示している。

Pindropのサービスが統合されることで、TiVoの所有者は音声で番組の検索やデバイスのコントロールができるようになる。しかしPindropの技術はもともと金融サービス企業や大企業向けに不正防止技術として開発されたもので、基本的な音声認識にはとどまらない。

Pindropの技術で話者の違いを判別できるので、シンプルな音声コマンドで各ユーザーのNetflixやAmazonなどのアカウントを呼び出し、それぞれが観る番組をパーソナライズすることができる。

TiVoで製品＆会話サービス担当シニアディレクターを務めるJon Heim（ジョン・ハイム）氏は「話した内容を理解するだけでなく、状況を理解しその場に応じてインテリジェントに動作するようにしたいと考えています。音声によって家族それぞれを識別する機能はこの状況認識の一例で、一人ひとりに合わせたエクスペリエンスによってこれまでになかったレベルのパーソナライズを実現します」と述べた。

これはクールだ。

誰かが「おすすめの番組は？」と言ったときに、TiVoのデバイスはその人が観たくなりそうなコンテンツを紹介できるようになる。別の家族が同じコマンドをいうと、デバイスには別の結果が表示される。

この技術の利用にはユーザーの許可が必要で、Pindropの技術は話者の違いは認識するが話者の身元は匿名化される。

Pindropの共同創業者でCEOのVijay Balasubramanian（ビジェイ・バラスブラマニアン）氏によると、同社はすでに米国の銀行の上位10行のうち8行にサービスを提供しているという。そしてTiVoとの連携によりコンシューマデバイスに乗り出したところだ。

Pindropは、AndroidデバイスのホワイトラベルメーカーであるSEI Roboticsのデバイスとも統合されている。

Pindropはコンシューマデバイスの世界へ進出するための資金として十分な現金を銀行に保有している。同社の収益性は高く、バラスブラマニアン氏によれば年間ランレートは1億ドル（約104億円）ほどだという。

同社は今後、音声サービスを自動車やネットワークに接続されたコンシューマデバイスに展開していく意向だとバラスブラマニアン氏は述べている。

「（我々は）自動車向けのOEMに取り組んでいます。現在は概念実証の段階です」と同氏は語った。

カテゴリー：ソフトウェア

タグ：TiVo、Pindrop、音声認識

［原文へ］

（翻訳：Kaori Koyama）

コーディングは口述で行う時代へ、Serenadeが2.2億円のシード投資を調達

数年前、Serenade（セレネード）の共同創設者Matt Wiethoff（マット・ウィートホフ）氏がQuora（クオーラ）の開発者だったころ、手が反復性のストレス障害と診断され、プログラムコードのタイピングができなくなった。そこで彼ともう1人の共同創設者Tommy MacMilliam（トミー・マクミリアム）氏は、AIを使って手を使わずに口述でコードが書けるツールを開発しようと決意。そうしてSerenadeが誕生した。

米国時間11月24日、同社はAmplify PartnersとNeoの主導による210万ドル（約2億2000万円）のシード投資を発表した。同時に、初の市販版製品となるSerenade Pro（セレネード・プロ）の発表も行なった。

「Serenadeは、コンピューターにダウンロードして使用するアプリです。Visual Studio CodeやIntelliJといった既存のエディターに統合すれば、あとは口でコードをいうだけです」と共同創設者のマクミリアム氏は私に話した。そこからは同スタートアップのAIエンジンが主導権を握り、口でいったことを文法上正しいコードに変換してくれる。

汎用の音声テキスト変換エンジンはすでに数多く出回っているが、コード入力の必要性に的を絞ってチューンされたものは見たことがないと彼は話す。非常に狭い市場を狙った製品に見えるかもしれないが、この使用事例は、そうしたテクノロジーを怪我を負っていない開発者も利用する時代の出発点に過ぎないと創設者たちは語る。

「私たちのビジョンでは、これがまさにプログラミングの未来なのです。機械学習によって、コーディングはこれまでになく早く簡単になりました。そして私たちのAIは、プログラミングに付き物の機械的な手作業を大幅に減らします。キーボードのショートカットや言語の細かい文法を覚える手間もなく、アイデアを自然な形で表現することに専念できます。それを私たちの機械学習が、あなたに代わって実際のコードに仕上げるのです」とマクミリアム氏は説明してくれた。

このスタートアップの従業員は現在5人だが、新製品の発売と新規の資金調達の力を借りて、2021年中には15〜20人に増やしたいと考えている。この会社を立ち上げるとき、彼らは多様性を大変に重視したとマクミリアム氏はいう。

「私たちの多様化戦略は、起業プロセス全体に行き渡っています。多様性がまず第一にあるのだと私は思っています。そのため、外へ出て、素晴らしい人たちと会うよう心がけています。世間には、素晴らしい人たちがたくさんいます。私たちの仕事は、Serenadeで働くことの素晴しさを彼らにわかってもらうことです」と彼は話す。彼らは、個人的な人脈を超えたさまざまな人材源に働きかけて多様な候補者グループを掘り出す。その後、多様性の高い従業員構成を築くという目標に沿った候補者との面接方法やスキルセットの審査方法を考える。

同社は、自分たちがコーディングをキーボードから口述に移行させるための手段だと自認している。今回の投資は、ユーザーのためのコミュニティを構築しつつ製品の開発を続ける資金となる。「私たちは、声でコーディングすることの価値を、どうしたらうまく説明できるか、どのようにデモをまとめ、どのようにこの製品に長けた人たちのコミュニティを構築して、それ（声のほうが早くコーディングできること）を示すべきかを、これから考えていきます」と彼は話していた。

カテゴリー：ソフトウェア

タグ：Serenade、コーディング、音声認識、資金調達

画像クレジット：Ledi Nuge / Getty Images

［原文へ］

（翻訳：金井哲夫）

マイクロソフトがビジネス向けCortana新機能を発表、iOS版Outlookはメール音声読み上げや各種操作が可能に

Cortana（コルタナ）はコンシューマー向けの音声バーチャルｚアシスタントとしては失敗したかもしれないが、Microsoft（マイクロソフト）はMicrosoft 365の一部として「パーソナル・プロダクティビティ・アシスタント」として再ブランド化し、ビジネスの現場ではCortana、あるいは少なくともそのブランドが存続することになった。そんな中の米国時間9月22日、マイクロソフトはIgniteカンファレンスで、ビジネスユーザー向けのCortanaの新サービスを発表した。

その中には、同社が複数のハードウェアベンダーと提携して販売する、新しいMicrosoft Teamsのディスプレイ（MicrosoftTeamsリリース）でCortanaを利用できるようになることも含まれている。これらはTeams専用のスマートディスプレイで、いわばGoogleアシスタントに対応したスマートディスプレイのようなものだが、会議に特化したものだと考えていいだろう。最近では、このようなデバイスは音声アシスタントをサポートしていないと有用性を示すことは難しい。なおこのディスプレイは、米国で9月に発売され、オーストラリア、カナダ、英国、インドでは今後数カ月のうちに展開される予定だ。

同社はこれらの「Teams」デバイスに加え、近いうちに「Teams Rooms」デバイスにもCortanaが搭載される予定だ。オフィスや会議室に戻って共有ハードウェアに触れたいと思う人はほとんどいないと思われるので、タッチレス体験は必須だ。

さらにマイクロソフトは、しばらく前からメールを中心としたCortanaサービスも発表している。米国ではすでにiOSとAndroidで提供されている、メールを読み上げてくれるサービスであるPlay My Emailsは、オーストラリア、カナダ、英国、インドでも今後数カ月のうちに提供される。それ以上に注目なのは、iOS向けのOutlookユーザーは今月下旬に、音声で受信トレイと対話したり、メール送信者への通話を開始したり、特定の送信者からのメールを再生したりすることができるようになるということだろう。

またCortanaは、Microsoft 365 Enterpriseユーザーであれば、毎日のブリーフィングメールを送信できるようになった。この機能は現在一般に利用できるようになっており、今後数カ月のうちに会議の準備やMicrosoft To Doとの統合、その他の新機能が強化される予定だ。

そして、もしWindows 10でCortanaを使用している場合、このチャットベースのアプリでは、少なくともあなたが英語を話し、米国にいる場合は電子メールを作成することができるようにある。また、必要に応じて、ウェイクワードを使って起動することも可能になった。

画像クレジット：Justin Sullivan/Getty Images / Getty Images

［原文へ］

（翻訳：TechCrunch Japan）

アマゾンAlexaの「ルーチン」を家族や友人などと共有可能に、サードパーティーも共有可能ルーチンを提供

Amazon（アマゾン）はAlexa（アレクサ）デバイスのユーザーがもっとルーチンを使いやすくなる機能を提供する。ルーチンは数年前からある機能で（未訳記事）、Alexaユーザーは複数のタスクをまとめて自分で選んだコマンド1つで実行できる。例えば、明かりを消し、リラックスできる曲を流し、ドアに鍵をかける、という動作を「Alexa, goodnight」（アレクサ、おやすみなさい）のひと言で実行できる。朝のルーチンなら、ニュース見出しを読み、天気予報を見て、スマートコーヒーメーカーのスイッチを切るという具合だ。このほど同社は、ほかの人と好きなルーチンをシェアできるようにした（Amazonブログ）。

ルーチンはまだ、パワーユーザーの機能と考えられている。設定には時間ががかり、Alexaのモバイルアプタでも「その他」メニューの目立たないところにあるからで、Alexaデバイスのオーナーでも一度も使ったことのない人がいるはずだ。

米国のAlexaユーザーは、Alexaアプリのルーチンセクションへ行き、シェアしたいルーチンをクリックすると共有可能なURLを取得できるようになる。そのURLはSNSに投稿したり、テキストメッセージやメールなどでどこへでも送ることができる。

シェアされたルーチンを受け取ったユーザーは、AlexaアプリをインストールしてあるモバイルデバイスでURLをクリックする。あとは画面の指示に従って設定を完了するだけだ。黄色い文字の部分は、カスタマイズできるフィールドを表している。どのスマートライトを点灯・消灯したいか、などを指定するだ。

Alexaルーチンのオンライン保管場所のようなものができて、多くの人たちがルーチンを見つけて利用できるようになれば便利だろう。iOSのショートカットに（Mac Stories記事）は共有するためのディレクトリ（Shortcuts Directory記事）が、いくつか作られている（shortcutsgallery記事）。よく使われるルーチンをAlexaアプリの中で見つけられたらもっと便利だろう。ただし、こうしたアイデアは今回発表時点では実現されていない。

その代わりにAmazonは米国時間9月17日、Alexaスキルのパートナーが作った共有可能なルーチンをいくつか紹介した。NPR、iHeartRadio、Headspace、Fitness Day、History Channel、その他のデベロッパーが提供している。ユーザーはこれをテンプレートにしてカスタマイズすることで、独自のボイスアプリ体験を作り出すことができる。

画像クレジット：Chloe Collyer/Bloomberg / Getty Images

[原文へ]

（翻訳：Nob Takahashi / facebook ）

子どもの言うことを理解できない音声アシスタント、授業での使用は困難

著者紹介：Patricia Scanlon（パトリシア・スキャンロン）博士：SoapBox Labs（ソープボックス・ラボ）の創業者兼CEO。ダブリンに本拠を置く同社で、安全かつセキュアな子ども向けの音声認識テクノロジーを開発している。2018年、 Forbes Top 50 Women（フォーブス・女性トップ50）の1人に挙げられた。

ーーー

パンデミック発生前、新規のインターネットユーザーの40%以上は子どもたちだった。現在推定で子どもたちのスクリーンタイム（画面を見ている時間）は60%以上長くなっており、12歳以下の子どもについては、1日あたりのスクリーンタイムが5時間を超えている。（これにはメリットもあるが同時に危険性も伴う）。

デジタル・ネイティブたちの技術的な能力には本当に驚かされるが、幼い「リモート学習者たち」の多くは、Edtech（エドテック：教育とテクノロジーを融合させた造語）で必要なキーボード、メニュー、インターフェイスなどの操作に苦戦しており、教育者（と親たち）が頭を悩ませている。

そうした中、音声対応のデジタルアシスタントの登場によって、子どもたちとテクノロジーとのよりスムーズな対話の実現に期待が持てるようになったかに思える。確かに子どもたちはAlexa（アレクサ）やSiri（シリ）に、ビートボックスをやらせたり、ジョークを言わせたり、動物の鳴き真似をさせるのは大好きだ。だが、親や教師たちも認識しているとおり、こうしたデジタルアシスタントシステムは予測可能な範囲内でしか要求を理解できず、子どもたちの要求がそれを逸脱すると、お手上げとなってしまう。

このような問題が起こるのは、アレクサやシリ、Google（グーグル）などの人気の音声アシスタントを動かしている音声認識ソフトウェアが、子どもたちの利用を全く想定していないからである。子どもたちの声、言語、そして行動は、大人たちよりもはるかに複雑だ。

子どもの声は甲高いというだけではない。子どもの声道は細くて短く、声帯は小さく、喉頭も十分に発達していない。そのため、中学生以上の子どもや大人とは音声パターンが大きく異なっている。

下のグラフからすぐに分かるように、音声認識のトレーニングに使用する大人の声のピッチを単純に変更しただけでは、子どもの音声を理解するために必要な複雑な情報を再現することはできない。子どもたちの間でも言語構造とパターンには大きなばらつきがある。構文、発音、文法は年齢とともに飛躍的に進歩するため、音声認識システムの自然言語処理コンポーネントはその点を考慮に入れる必要がある。この複雑さに追い打ちをかけるのが、大人の音声では考慮する必要のない、さまざまな発達段階にある子どもたちに見られる話者間のばらつきである。

音声認識のトレーニングに使用する大人の声のピッチを変更しただけでは、子どもの音声を理解するために必要な複雑な情報を再現することはできない。画像クレジット：ソープボックス・ラボ

子どもの言語行動は大人より変化しやすいだけではなく、不規則で一貫性がない。単語を過度に明瞭に発音したり、特定の音節を伸ばしたり、独り言を言うときに単語に区切りを入れたり、単語を丸ごと省略したりする。子どもの音声パターンは、大人のユーザー向けに構築されたシステムが理解できる一般的なイントネーションには従わない。大人はこうした音声認識デバイスとの対話のしかた、つまり最善の答えを引き出す方法を経験から知っている。しゃんと背筋を伸ばして、頭の中で考えた要求を学習した行動に基づいて修正し、大きく息を吸い声に出して「アレクサ、何とか何とか」という具合に要求を言う。しかし、子どもは、まるで人間に話しかけるように、単純に思いついたままにアレクサやシリに話しかける。返ってくるのは大抵、間違った答えかお決まりの答えだ。

こうした問題は、教育の場ではさらに深刻になる。音声認識システムは、周辺の雑音や教室内の予測不能の出来事に対応するだけでなく、年間を通して変化する子どもたちの話し方や、一般的な小学校で見られるアクセントや方言の違いも考慮する必要がある。体、言語、そして行動による子どもと大人の違いは、子どもが幼いほど著しく大きくなる。つまり、音声認識から最も大きなメリットを受けるべき幼い学習者に対応するのが、開発者にとって最も難しいということなのだ。

子どもたちのさまざまな特異な言語行動を考慮し理解するには、意図的に子どもたちの話し方から学習するよう構築された音声認識システムが必要だ。子どもたちの話し方を、単純に、音声認識で対応すべきアクセントや方言の1つと見なすことはできない。アクセントや方言とは根本的かつ実質的に異なる問題だ。しかもこの特徴は、子どもたちが肉体的かつ言語能力的に成長するにしたがって変化する。

大半の消費者とは異なり、子どもたちにとって正確さは深い意味を持つ。子どもは、正しいのに間違っているとシステムから告げられると（偽陰性反応）、自信を喪失する。逆に、間違っているのに正しいと告げられると（偽陽性反応）、社会情緒的（かつ心理測定的）に害をもたらす危険性がある。アプリ、ゲーム、ロボット、スマートトイといったエンターテイメントの場では、偽陰性または偽陽性の反応が返ってくるとストレスがたまる。学校では、間違った反応や誤解を招く反応、あるいはお決まりの反応が返ってくると、教育的に、あるいは公平さという点で、極めて重大な影響がある。

例えば、音声認識にバイアス（偏見）が存在するという事実についてはさまざまな人が書いているが、こうしたバイアスは子どもたちに有害な影響を及ぼす可能性がある。人口統計的に特定の層に属する、あるいは特定の社会経済的背景を持つ子どもたちに不利にはたらく（偽陽性反応や偽陰性反応を返すような）正確性の低い製品を使うわけにはいかない。数々の調査により、音声が子どもたちにとって非常に効果的なインターフェイスになり得ることが分かってきているが、その音声によって学校特有の既存の偏見や不平等が増幅される危険を見過ごしたり無視することはできない。

音声認識は、家庭でも教室でも子どもたちの強力なツールになる可能性を秘めている。読み書きの能力や言語学習の段階に応じて子どもたちをサポートする際、重大な隔たりを音声認識ツールによって埋めることで、子どもたちは周囲の世界をより良く理解するようになり、周囲の世界からより良く理解されるようになる。これにより、リモートの設定においても確実に機能する、「目に見えない」観察的評価基準の確立という新しい時代を切り開くことができる。しかし、今日の大半の音声認識ツールはこの目標には適していない。シリ、アレクサ、その他の音声アシスタントで採用されているテクノロジーの任務は、明快かつ予測可能な話し方をする大人を理解することであり、基本的にはその役割をうまく果たしている。しかし、子どもたちの音声にも対応できる音声認識システムを実現するには、子どもたちの特殊な声、言語、そして行動に合わせてモデル化された、彼らに反応できるシステムが必要なのである。

カテゴリー：人工知能・AI

タグ：音声認識　スマートスピーカー　コラム

[原文へ]

（翻訳：Dragonfly）