Otter.aiがAIによる新しい会議サマリー機能とコラボツールの提供を開始

AIを活用した音声採録サービスOtter.ai(オッターエーアイ)は、コラボレーションを促進するための会議に特化した新機能群をリリースすると、米国時間3月29日に発表した。最も注目すべきは、Otter独自のAIを利用して会議の概要を自動的に作成する「Automatic Outline(自動アウトライン)」機能を新たに追加することだ。この新機能は、録音を聞いたり、議事録全体を読んだりすることなく、会議中に同僚が何を話したかを把握できるようにすることを目的としている。新しい会議サマリーは、プラットフォーム上の「Outline(アウトライン)」パネルに表示される。

また、Otter.aiは、会議のアクションアイテム、決定事項、重要な瞬間を記録するための新しい「Meeting Gems(ミーティング・ジェム)」パネルも導入している。このパネルを使って、項目の割り当て、コメントの追加、質問などを行うことができる。ユーザーは、ノート内の断片をハイライトすることで、ミーティングから直接Meeting Gemsを生成することができる。

また、Otter Assistant(オッター・アシスタント)を使って、バーチャルミーティング中に提示されたミーティングスライドやその他の画像をOtterノートに直接追加することもできるようになった。また、ホームフィードでは、会議と会議後の行動を優先的に表示するようになった。再設計されたホームフィードを使用して、共有された会話、ハイライトとコメント、タグ付けされたアクションアイテムにアクセスすることができる。最後に、Google(グーグル)やMicrosoft Outlook(マイクロソフト・アウトルック)のカレンダーをOtterに接続しているユーザーは、カレンダーパネルから直接ミーティングに参加できるようになった。

「私たちは、会議であまりにも多くの時間を費やしており、私は会議をより生産的にするためのAIの力に本当に興奮しています」と、Otter.aiの共同創設者兼CEOであるSam Liang(サム・リャン)氏は、声明の中で述べている。「新しいOtterは、会議のコラボレーションをより簡単かつ迅速にします。今日のハイブリッド、対面、バーチャル会議でのコミュニケーションを改善したいビジネスチームにとって、必須のツールになります」。

この新機能は、2021年8月に同サービスが発表した「Otter Assistant」機能をベースにしており、カレンダー上の会議に自動的に参加し、会話を書き起こし、そのメモを他の参加者と共有することができる。このアシスタント機能は、会議の開始時に有効にしたり、終了時に無効にしたりすることを常に覚えておく必要がないように設計されており、また、会議の進行中に参加者が質問や写真の共有など、コラボレーションを行う場所としても機能する。

アシスタントは、まずZoomで開始され、その後Microsoft Teams(マイクロソフト・チーム)、Google Meet(グーグル・ミート)、Cisco Webex(シスコ・ウェベックス)に拡大された。このツールを使用するには、ユーザーは自分のカレンダーを同サービスと同期させる必要がある。その後、アシスタントは自動的に今後のすべての会議に参加し、透明性を高めるために、別の参加者として会議に表示されるようになる。

画像クレジット:Otter.ai

原文へ

(文:Aisha Malik、翻訳:Yuta Kaminishi)

音声の文字起こし、要約、モデレートを行うオールインワンAPIのAssemblyAIが32.1億円を調達

ここ数年、音声や動画のコンテンツやインターフェースが爆発的に増えているのは明らかだが、それらのメディアを扱う方法はまだ発展途上だ。そんな中、AssemblyAIが2800万ドル(約32億1000万円)の新たな資金調達により、音声解析のための主要なソリューションとなることを目指す。同社の超シンプルなAPIを利用することで、一度に数千の音声ストリームの文字起こし、要約、その他何が起きているのかを把握することができる。

電話や会議がビデオ通話になり、ソーシャルメディアの投稿が10秒のクリップ動画になり、チャットボットが発話し、音声を理解するようになるなど、マルチメディアは信じられないほど短期間に多くのものの標準となった。数え切れないほどの新しいアプリケーションが登場してきているが、他の新しい成長産業と同様に、アプリケーションを適切に実行したり、アプリケーションの上に新しいものを構築したりするためには、アプリケーションが生成するデータを操作できる必要がある。

問題は、音声はもともと簡単に扱えるものではないことだ。音声ストリームの「検索」はどのように行えば良いだろう。波形を見たり、通して聴いたりすることもできるが、それよりもまずは文字に書き起こして、その結果得られたテキストを検索する方が良いだろう。そこでAssemblyAIの出番となる。音声文字起こしサービスは数多くあるものの、自社のアプリや業務プロセスには簡単に組み込めない場合が多い。

AssemblyAIのCEOで共同創業者のDylan Fox(ディラン・フォックス)氏は「音声コンテンツのモデレーションや検索、要約を行う場合には、データをより柔軟で、その上に機能やビジネスプロセスを構築できる形式に変換する必要があります」と語る。「そこで、Twilio(トゥイリオ)やStripe(ストライプ)のように、たとえハッカソンの場でも使えるような、誰でも使える超高精度の音声分析APIを作ろうということになったのです。こうした機能を組み上げるためには多くの支援が必要ですが、その際にあまりにも多くのサービスプロバイダーを組合せたくはありません」。

AssemblyAIは、極めてシンプルに(1、2行のコードで)呼び出せる数種類のAPIを提供しているが、そのAPIを利用することで「このポッドキャスト中に禁止されている内容がないかチェックする」「この会話の話者を特定する」「この会議を100文字以内に要約する」などのタスクを実行することができる。

コードして、コールして完了(画像クレジット:AssemblyAI)

だが、私もそうだったが、この仕事が一歩踏み込めばどれだけ複雑な作業になるかと考えると、果たして小さな会社がこれだけ多くのことを簡単にこなせる道具を作れるのかどうかと疑問に思うだろう。フォックス氏は、これが困難な課題であることを認めつつも「技術は短期間で大きく進歩したのです」と語った。

「特にここ数年で、こうしたモデルの精度が急速に向上しています。要約、勘定識別……どれも本当に良くなりました。そして、私たちは実際に最先端の技術を推進しています。私たちは大規模なディープラーニング研究を行っている数少ないスタートアップの1つですので、私たちのモデルは、世間一般のものよりも優れているのです。研究開発やトレーニングのためのGPUや計算資源には、今後数カ月間だけでも100万ドル(約1億1500万円)以上を投入します」。

簡単にはデモンストレーションできないので、直感的に理解するのは難しいかもしれないが、画像生成(「このXXは存在しません」の類)やコンピュータービジョン(顔認証、防犯カメラ)と同様に、言語モデルも進歩してきている。もちろん、GPT-3はその身近な例だが、フォックス氏は、書き言葉を理解し生成することと、会話やくだけた話し方を分析することは、実質的にまったく別の研究領域であると指摘する。よって機械学習技術の進歩(トランスフォーマーや新しい効率的なトレーニングのフレームワーク)は両者に貢献してきたが、多くの意味ではそれらはリンゴとオレンジの関係(同じ果物というだけで、それ以外の属性は異なっている)のようなものだ。

いずれにせよ、数秒から1時間程度の音声でも、APIを呼び出すだけで効果的なモデレーションや要約処理を行うことができるようになった。これは、ショートビデオのような機能を開発したり統合したりする際などにとても有効だ。たとえば1時間に10万件ものクリップがアップロードされることを想定した場合、それらがポルノや詐欺、パクリでないことを確認する最初のスクリーニングはどうすれば良いだろう?また、そのスクリーニングプロセスを構築するためにローンチがどれくらい遅れるだろう?

フォックス氏は、このような立場にある企業が、ちょうど決済プロセスの追加に直面したときと同様に、簡単で効果的な方法を選ぶことができるようになることを希望している。つまり機能をゼロから自分で構築することもできるし、15分で「Stripe」を追加することもできるということだ。これは、根本的に望ましいものだというだけでなく、Microsoft(マイクロソフト)やAmazon(アマゾン)などの大手プロバイダーが提供する、複雑でマルチサービスなパッケージの中の音声分析製品とは明らかに一線を画している。

インタビューに答えるフォックス氏(画像クレジット:Jens Panduro)

同社はすでに数百の有料顧客を数え、2021年1年間で売上を3倍に伸ばし、現在は1日100万件のオーディオストリームを処理している。フォックス氏はいう「100%ライブストリーム処理です。大きな市場と大きなニーズがあり、お客様からの支払いもあります」とフォックス氏はいう。

2800万ドル(約32億1000万円)のラウンドAは、Accelが主導し、Y Combinator、John(ジョン)とPatrick(パトリック・コリソン)氏 (Stripe)、Nat Friedman(ナット・フリードマン)氏 (GitHub)、そしてDaniel Gross(ダニエル・グロス)氏(Pioneer)が参加している。全額を、採用、研究開発インフラ、製品パイプラインの構築などに振り向ける計画だ。フォックス氏が指摘したように、同社は今後数カ月の間にGPUとサーバーに100万ドル(約1億1500万円)を投入する(大量のNVIDIA A100が、信じられないほど計算集約型の研究とトレーニングのプロセスを支えることになる)。もしそうしなければ、クラウドサービスにお金を払い続けることになるのだから、間借り生活から早めに脱却したほうが良いのだ。

採用に関しては、音声解析関連技術に力を入れているGoogleやFacebookと直接競合するため、苦労するのではないかと質問してみた。しかし、フォックス氏は楽観的だった。そうした大企業の文化が遅く窮屈なものであると感じているからだ。

「本当に優秀なAI研究者やエンジニアには、最先端で仕事をしたいという願望が間違いなくあると思います。そして同時に実用化の最先端にも関わりたいという願望です」と彼はいう。「革新的なことを思いついたら、数週間後には製品化できる…そんなことができるのはスタートアップ企業だけです」。

画像クレジット:AssemblyAI

原文へ

(文:Devin Coldewey、翻訳:sako)

RevCommの音声解析AI電話MiiTel、会話におけるネガティブ・ポジティブな感情を可視化する音声感情認識機能を採用

RevCommの音声解析AI電話MiiTel、会話におけるネガティブ・ポジティブな感情を可視化する音声感情認識機能を採用RevComm(レブコム)は2月9日、音声解析AI電話「MiiTel」において、話し手のポジティブ・ネガティブな感情を可視化する音声感情認識機能をリリースしたと発表した。これにより、会話の当事者以外でもクレームなどに気づけるようになるという。

MiiTelは、日本発の音声解析AI電話サービス。電話営業やコンタクトセンター業務などで、会話内容を解析するとともに高精度のフィードバックを行うことで、商談成功率・成約率の向上につなげるというもの。顧客と担当者が「なにを」「どのように」話しているのかわからないというブラックスボックス状態を解消するほか、アナログな議事録作成といった負荷も自動文字起こし機能により軽減できる。

RevCommは音声感情認識について以研究を重ねており、その成果の一部は、筑波大学との共同研究による音声感情認識関する論文として、2021年8月に音声処理トップカンファレンス「INTERSPEECH 2021」で発表している。今回追加された音声感情認識機能は、発話音声の音声特徴と音声認識器により得られる単語と単語信頼性を入力として、DNN(Deep Neural Network)を用いて発話音声の感情を推定する、音声感情認識アルゴリズムとしている。

具体的には「納得していない」「不満を覚えている」「乗り気ではない」「迷っている」「相手の過失や失礼な態度を攻めている」ような話し方の場合には「ネガティブ」と判定される。一方「喜んでいる」「感謝している」という話し方の場合は「ポジティブ」と判定される。結果はMiiTelの解析画面にオレンジとブルーのグラデーションで帯として表示さる。

クレーム電話を例に挙げると、会話の当事者(ユーザー)は、顧客側の感情の遷移を確認することで不満を解消できたかどうかを判断できる。また、ネガティブな感情を伴った顧客の発話を確認することで、顧客がどういったことに不満を持っているのかを素早く知ることが可能になるという。さらにMiiTelであれば、会話の当事者以外でも、ネガティブな内容の会話に早く気づけるとしている。

EU、マイクロソフトの音声認識技術企業Nuance買収を無条件で承認

欧州連合(EU)の競争当局は、Microsoft(マイクロソフト)が2021年初めに発表した音声認識(文字起こし)技術企業Nurance(ニュアンス)の197億ドル(約2兆2500億円)での買収を全面的に承認した。

EUは12月21日、買収実行にともなうEUでの競争上の懸念はないと結論づけ、条件を付さずに承認したと発表した

この買収は、11月16日に欧州委員会の規制当局に通知された。

関連記事
マイクロソフトが過去2番目規模で文字起こし大手Nuance Communications買収、ヘルスケア分野のクラウドを強化
英独禁監視当局がマイクロソフトのNuance買収を調査中

MicrosoftのNuance買収がEUの承認を得た一方で、英国の競争・市場庁は予備調査を開始したばかりだ。まだ精査が続く地域もあるということだ。

EU側では、欧州委員会の調査は、音声認識ソフトウェア市場におけるNuanceとMicrosoftの水平方向の重複を調査し、両社がまったく異なる製品(エンドユーザー向け既製ソフトと、アプリに音声認識技術を追加したい開発者向けのAPI)を提供していると判断した。

また、2社の統合後も、他のプレイヤーとの「強い」競争に引き続き直面することになるとも判断した。

EUは、MicrosoftのクラウドコンピューティングサービスとNuanceのヘルスケア向け下流音声認識ソフトとの垂直的な関連性にも注目したが、この分野で競合する音声認識サービスプロバイダーは、クラウドコンピューティングをMicrosoftに依存していないことがわかった。

また、欧州委員会によれば、この種の音声認識サービスプロバイダーは、クラウドコンピューティングの主要ユーザーでもないという。

同委員会の調査では、Nuanceのソフト(Windows版のみ)とMicrosoftの数多くの製品との複合的な関連性も検討されたが、統合後の企業は、(医療)音声認識ソフト、法人向け通信サービス、CRMソフト、生産性ソフト、PCオペレーティングシステムの市場において競合企業を排除する能力やインセンティブを持たないとの見解に至った。

そして、ここでもまたEUは、統合後の企業が依然として強い競争に直面することになると判断した。

おそらく最も興味深いのは、欧州委員会がNuanceのソフトによって書き起こされたデータの利用について調査したことだ。興味深い理由は、医療データの機密性が非常に高いからだ。Microsoftはアドテク分野では巨大プレイヤーではないが、同分野で事業を拡大する野心を持つ。ちょうど米国時間12月21日、同社はデジタル広告事業を強化するため、AT&Tからアドテク企業のXandr(旧AppNexus)を買収すると発表した

さらに、すでに大規模なデジタルマーケティング事業を展開している巨大テック企業のOracle(オラクル)が、電子カルテシステムを提供するCerner(サーナー)の買収を発表し、同社のヘルスケア分野への壮大な構想を示すことになった。

もちろん、アドテク企業が健康データを手中に収めるという見通しは、プライバシーに関して多くの人々を不安にさせる

しかし、MicrosoftによるNuance買収のデータ面に関する評価は、既存の「契約上の制約」とEU地域のデータ保護規制のおかげで、問題なしとされた。

その分析は主に競争の観点からなされたが、EUの反トラスト法評価で(さらに)データ保護に焦点が当たったことは注目に値する。(先例として、EUがGoogleのアドテクを現在も精査している件がある。欧州委員会は2020年、GoogleのFitbit買収を承認したが、プライバシー擁護派から多くの批判を受けた。このケースでは、承認にあたり、GoogleがFitbitの健康データを広告に利用することを制限するという条件を付した)。

「欧州委員会は、Nuanceが自身のサービスを提供するためにのみ健康データを使用することができると結論付けました」とEUはMicrosoftのNuance買収承認に関するプレスリリースに書いている。「データを他社が利用することはありませんし、契約上の制約やデータ保護法の関係で他の目的には使用できません」。

EUの反トラスト部門はまた、Nuanceのデータへのアクセスは、Microsoftに、競合する医療ソフトプロバイダーを締め出すことができるような優位性を与えることはないと結論付けた。「重要な音声認識情報は、Nuanceの断片的な音声データとは異なり、複数のソースからのデータを組み合わせた電子カルテシステムなどのサードパーティアプリケーションに通常格納されています」。

以上からだけでも、電子カルテシステムのプロバイダーであるCernerのOracleによる買収に関しては疑問が生じる。すなわち、EUの競争規制当局が、ハイテクヘルスケア分野の大型ディールを検討するようになれば、より厳しい質問をぶつけてくる可能性があるのではないかということだ。

ただし、Cernerは2020年欧州のポートフォリオの一部を売却しており、同地域の顧客が比較的少ないため、EUの懸念の範囲は縮小または限定されるかもしれない。

画像クレジット:Kena Betancur/VIEWpress/Corbis / Getty Images

原文へ

(文:Natasha Lomas、翻訳:Nariko Mizoguchi

オーディオを「パーソナライズ」するMimi、Skullcandyなどの本技術搭載ヘッドフォンを徹底検証

音声処理のスタートアップ企業Mimi(ミミ)は、個人に合わせてパーソナライズされた聴覚プロファイルを作ることができると公言している。つまり、音量を大きくすることなく音を聞こえやすくしてくれるというわけだ。難聴予防にもなる他、これによりすでに難聴になってしまった人でも聴力に新たなダメージを与えることなく、コンテンツを聞こえやすくしてくれるのだという。

科学プロジェクトとしての理論は非常にすばらしいのだが、企業としては明らかな問題点がある。その技術が私たちの普段使用する製品に搭載されなければ、単なる学術的なものとして終わってしまう。その技術が製品として普及しないことには人々を助けることはできないのである。Mimiはこの課題に飛躍的な前進をもたらすべく、複数のパートナーシップを発表した。Mimiの技術が有名オーディオ製品に搭載されれば、同社にとってもそして私たちの聴覚の健康にとっても大きな意味を持つことになるだろう。

2014年、TechCrunch Battlefieldのステージに登場したMimiのCEO兼創業者のフィリップ・スクリバノウィッツ氏

2014年にニューヨークで開催されたTechCrunch Distruptのステージに登場したMimi。7年前の当時、同社の製品が優れたアイデアだということは明確だったのだが、同社は以来長い道のりを歩んできた。そんな同社も最近では数々の成功を収める事業会社となっており、新たに発表されたSkullcandy(スカルキャンディー)、Cleer(クリア)、Beyerdynamic(ベイヤーダイナミック)とのパートナーシップにより、この技術がついに私たちの耳に届くことになる。

SkullcandyのCEOであるJason Hodell(ジェイソン・ホーデル)氏は次のように話している。「弊社のファンにとって有意義な技術を使った、手に取りやすい製品を作ることが私たちの使命です。ミミとともに、個人に合わせて調節できる健康的なリスニング習慣をサポートすることで、ファンのみなさまの楽しみと健康に、生涯にわたるポジティブな影響をもたらしたいと考えています。Mimiとのパートナーシップにより、弊社のコアミッションが最適な形で体現されました」。

Cleer Audioの社長であるPatrick Huang(パトリック・ファン)氏は「Cleer+アプリで販売している最新のイヤフォンとヘッドフォンにMimi Sound Personalizationを導入できることを大変うれしく思います。聴覚の最適化とウェルネス機能を製品に搭載することで、当社の製品とお客様に、確実に付加価値がもたらされるでしょう」とコメントしている。

その仕組みは?

Mimiの共同創設者で研究開発責任者のNick Clark(ニック・クラーク)氏による説明は次の通りだ。「聴覚システムには周波数の解像度があります。スクリーン上のピクセルのようなものだと考えてください。耳が良ければピクセル数は多いのですが、それでも2つの異なる情報が1つのピクセルに入ってしまうと、優勢な情報が支配的になってしまいます。健康な耳の解像度は限られているので、大量の情報を捨ててファイルサイズを大幅に削減するというのが、mp3の基本です。Mimiのユニークな点は個別のプロファイルにあります。例えば、聴力がやや劣っている人のピクセルは、大きくて数が少ないと例えられますが、ピクセル数はその人の実際の聴力に関係するのでMimiにはどうすることもできません。しかし、何が私たちにできるかというと、音を少しでもそれに合うように処理するのです。何かを選択的に増幅したり、何かを選択的に減少させたりすると、最多の情報を伝達することができます。これによって、人々に豊かな体験をもたらすことができるのです」。

記事に掲載する画像としてはいかにも地味だが、Mimiがとらえた筆者の聴覚データをこのようにして見るのはとても興味深い。アプリから誰でもCSV形式の出力をリクエストできる。どのくらいの音量および周波数のビープ音を聞き取れるのかといったデータが主に取得されているようだ

Mimiの技術を試すために、今回筆者が試用させてもらったのは、Skullcandyによる99ドル(約11000円)のGrind Fuel True Wireless Earbuds、Cleer Audioによる130ドル(約15000円)のAlly Plus II Wireless Earbuds、Beyerdynamicによる300ドル(約3万4000円)のLagoon ANCヘッドフォンの3つのデバイスだ。設定手順は3つのデバイスともほぼ同様で、それぞれのメーカーのアプリをダウンロードして、聴覚プロファイルを作成するプロセスを行うだけだ。

プロファイルの作成は非常に簡単で、生まれた年を伝えればすぐにテストを開始することができる。聴力検査自体は非常に奇妙で、電子コオロギの群れを箱に閉じ込めてその上からビープ音を鳴らしたような音が聞こえてくる。ビープ音は徐々に大きくなり、音が聞こえている間はボタンを押し続ける。やがてビープ音は再びフェードダウンし、ビープ音が聞こえなくなったらボタンを離すというものである。ビープ音はさまざまな周波数で発生する。入力された情報をもとに個人のプロファイルを作成し、プロファイルを作成し終えたらMimiのアカウントを作成して保存するという流れである。つまり、Mimiの技術に対応しているデバイスであれば、どのデバイスでも自分のプロファイルを使うことができるのだ。そのためありがたいことに「コオロギの箱」を繰り返し聞く必要はない。

Cleerアプリでのパーソナライズ結果(左)とSkullcandyアプリでのパーソナライズ結果(中、右)はかなり異なっていた。Skullcandyからの2つの結果はほぼ同じだったため、少なくとも測定値には一貫性があるということだろう

同製品の聴覚テストの構成要素は大成功を収め、広く使用されている。同社の聴力検査アプリはApp StoreでNo.1を獲得しており、毎月約5万人がこのアプリを使って聴力検査を行っているという。このアプリのレビューを見ると、プロによる聴覚テストと一致していると多くのユーザーが感じているようだ。

「当社の聴力検査アプリと同じ技術がSDK(ソフトウェア開発キット)として提供されており、当社のパートナーはコンパニオンアプリに組み込むことが可能です」とMimiのCEOであるPhilipp Skribanowitz(フィリップ・スクリバノウィッツ)氏は説明している。

聴覚テストの結果をパーソナライズされたプロファイルに適用し、これをユーザーの耳にできるだけ近いところでシグナルプロセッサーとして実行することにより、Mimiのマジックは開花する。

「弊社のソフトウェアは、デジタルオーディオが通過できる場所であればどこでも適用できます。聴覚IDを作成したら、耳に届く前にオーディオストリームを調整するため処理アルゴリズムに転送する必要があります。弊社には複数のコンポーネントと処理アルゴリズムがあり、ヘッドフォンの場合はBluetoothチップ上で、テレビの場合はオーディオチップ上で動作します。公共放送のテストやストリーミングアプリケーションのパートナー、科学関連のパートナーやスマートフォン関連のパートナーもいます」とスクリバノウィッツ氏は話す。

試聴体験はどうなのか?

重要なのは、実際の効果である。残念なことに効果を聴き分けるのは難しく、また試したデバイスによって大きな違いが出た。

Mimiのヒアリングテストを3つの製品で行ったところ、結果は大きく異なった。左からSkullcandyの「Grind Fuel」、Beyerdynamicの「Lagoon ANC」、Cleerの「Ally Plus II」(画像クレジット:Haje Kamps)

Cleerのイヤフォンは電源を入れて耳に入れると、音声が再生されていないときでも不思議なヒスノイズが発生していた。音楽の再生中、パーソナライズをオンにしたときとオフにしたときの音の違いはあまり分からなかった。良いニュースとしては、Cleerのイヤフォンを使ってプロファイルとMimiのアカウントを作成し、プロファイルを保存できたことくらいである。これで他のデバイスでもすぐに使用できるということだ。

Cleerの社長と話したところ、ヒスノイズや雑音は極めて異常なものだと断言してくれた。そこで2個目のイヤフォンを送ってもらったのだが、残念ながらこのイヤフォンにも同じ問題が発生した。筆者の運が驚くほど悪かった可能性もあるが、一般発売までにまだ課題が残っていると考えて間違いないだろう。

Skullcandyも不調だった。サウンド・パーソナライゼーションを設定した後、Skullcandyのアプリが毎回クラッシュして結果を保存することができなかったため、パーソナライゼーションの効果を聞くことができなかった。またなぜかSkullcandyではMimiにログインして、保存されたMimiプロファイルを使用するオプションが存在せず、新規に作成しなければならない。アプリが筆者のプロファイルを保存できなかった上、他のデバイスで作成したMimiプロファイルも使用できなかったため、結局Skullcandyのイヤフォンでパーソナライズされたオーディオを聞くことができなかった。このアプリの問題について、Skullcandyのチーフプロダクトオフィサーに話を聞いてみた。

SkullcandyのチーフプロダクトオフィサーであるJeff Hutchings(ジェフ・ハッチングス)氏の回答は次のとおりである。「Skullcandyでは、製品の品質を非常に重視しています。弊社のモバイルアプリは、当時入手可能だったあらゆるモバイルデバイスとOSの組み合わせを用いて厳密にテストされました。その結果、Android 12を搭載した新しいPixel 6/6 Proで問題が発生していることがわかりました。Skullcandyはこの問題を可能な限り早く解決するために、アップデートリリースに積極的に取り組んでおります」。

Beyerdynamicのヘッドフォン「Lagoon ANC」(画像クレジット:Haje Kamps)

Beyerdynamicのヘッドフォン、Lagoon ANCは別の話である。もちろん同ヘッドフォンはオーバーイヤー型で、価格も他2種よりかなり高価格のため当然とも言えなくないが、Beyerdynamicのヘッドフォンではパーソナライゼーションによる顕著な違いが聴き分けられた。特にアクティブ・ノイズキャンセリングをオンにすると、Mimiのパーソナライズ効果による変化が著しく感じられた。パーソナライゼーションをオフにしたときよりも音がより鮮明で、ディテールがより明確に聞こえ、なんというか…ステレオ感が増したような音と言えば良いのだろうか。説明するのは非常に難しいのだが、今後筆者のすべてのヘッドフォンにMimiの機能を付けたいと思うほどの違いである。

ただ、それが故にCleerやSkullcandyのイヤフォンには、なぜそこまで顕著な違いがないのかが気になるところである。Beyerdynamicのヘッドフォンで作ったプロファイルを、他のヘッドフォンで使ってみたら良いのではないかと思ったのだが、SkullcandyのアプリではMimiのアカウントにログインできないようなのでそれは叶わず、またCleerのアプリでは一度作成したら他のプロファイルを読み込むことはできなかった。結局、携帯電話からCleerアプリを削除し、再インストールしてからMimiのアカウントにログインし直す羽目になった。今回の筆者のような使い方をするユーザーが多くないことは承知しているが、Mimiの創業者が期待しているユースケースの1つであるにもかかわらず、Mimiのサーバーにすでにあるプロファイルをコピーできないというのはかなり残念である。

プロファイルのコピー騒動はさておき、Beyerdynamicのプロファイルを使用すると、Cleerのイヤフォンでも違いをわずかに感じることができた。ステレオチャンネルの分離が良くなったように聞こえるが、上述の「ステレオ感が増した」感覚ではなく、全体的に劇的な違いがあるとは言い難い。Beyerdynamicのヘッドフォンで感じた「すげぇ」という感動はなく、またこの分野での最も明白なライバルであるNuraphone(ヌラフォン)体験には遠く及ばない。

これらのヘッドフォンとNuraphoneのヘッドフォンを比較しないわけにはいかないだろう。Nuraphoneは399ドル(約45500円)と高価だが、聴力を測定する方法に明確な違いがある。聞こえる音と聞こえない音をユーザーに判断させるのではなく、ヘッドフォンが直接ユーザーの耳を測定するのである。このアプローチの欠点は、非常に特殊なヘッドフォンでしか機能しないことと、プロファイルがNura以外のヘッドフォンには移植できないことである。それでも効果は非常に素晴らしく、買ってから5年経った今でもNuraのNuraphoneヘッドフォンは筆者にとって音楽への没入感を高めるための必須アイテムとなっている。

全体として、こういったパートナーシップを築き、Mimiのテクノロジーを人々の手に届けるというのはMimiチームにとって非常にエキサイティングなことである。

結局のところ、パーソナライゼーション技術の評価というのは、ここでは筆者の個人的な体験に基づいてしかレビューを書くことができないため難しい。もしかしたら筆者の聴覚が人より優れていたり劣っていたりして、Mimiの技術が筆者にはあまり効果がない可能性もある。他の人はまったく違う感想を持つかもしれない。筆者にとってはハイエンドのヘッドフォンが非常に効果的なため、次に購入するハイエンドのヘッドフォンには、必ずMimiのテクノロジーが搭載できるものを選びたいと思う。イヤフォンについては、1つはまったく機能せず、もう1つも今1つだったこともあり、サンプル数としてはあまりにも少ない。筆者はあまり価値を見出せないが、Mimiテクノロジーによってヘッドフォンの価格が上がったり、オーディオ品質を低下させたりしないのであれば、あって損することはないだろう。

画像クレジット:Haje Kamps

原文へ

(文:Haje Jan Kamps、翻訳:Dragonfly)

NVIDIAが多機能でリアルなAIアバター・AIアシスタントが作れるプラットフォーム「Omniverse Avatar」を発表

NVIDIAは11月9日、仮想コラボレーションとリアルタイムシミュレーションのためのプラットフォーム「NVIDIA Omniverse」(オムニバース)上で使えるインタラクティブなAIアバターが作れる機能「Omniverse Avatar」(アバター)を発表した。

Omniverse Avatarは、単にインタラクティブに動かせるレンダリングされた3Dキャラクターを作るだけではなく、音声、AI、自然言語理解、レコメンデーションエンジン、シミュレーションといったNVIDIAのテクノロジーが駆使され、見たり、聞いたり、多言語で話したりができるAIアシスタントとして機能する。NVIDIAの創業者でCEOのジェンスン・フアン氏はこれを、「インテリジェントな仮想アシスタントの夜明け」と称している。

NVIDIA Omniverseの新機能として追加された「Omniverse Avatar」には、次の要素が盛り込まれている。

  • 音声認識:複数言語の音声を認識するソフトウェア開発キット「NVIDIA Riva」をベースに会話の応対を行う
  • 自然言語理解:「NVIDIA Megatron 530B大規模言語モデル(Large Language Model)」をベースに、複雑な文書の作成、幅広い分野の質問への回答、長いストーリーの要約、他言語への翻訳などを行う
  • レコメンデーション エンジン:大量のデータを処理し、賢明な提案を行うことを可能にするディープラーニング レコメンデーション システムを構築するためのフレームワーク「NVIDIA Merlin」を利用
  • 認知機能:ビデオ分析用のコンピュータービジョン・フレームワーク「NVIDIA Metropolis」を活用
  • アバターのアニメーション:2Dおよび3DのAIによるフェイシャルアニメーションとレンダリングの技術「NVIDIA Video2Face」と「NVIDIA Audio2Face」を使用
  • これらの技術がアプリケーションに組み込まれ、「NVIDIA Unified Compute Framework」を使ってリアルタイムで処理される

フアン氏のアバターを使ったデモでは、同僚とのリアルタイムの会話が披露され、生物学や気象科学などの話題について語った。また、別のデモでは、レストランの2人の客にカスタマーサービス担当アバターが対応し、ベジタブルバーガーとフライドポテトと飲み物の注文を受けることができた。さらに、騒々しいカフェでビデオ通話をする女性の音声を正確に聞き取り、その言葉をリアルタイムで書き写し、その女性と同じ声とイントネーションで、ドイツ語、フランス語、スペイン語に翻訳して見せたとのことだ。

グーグルが発話障がい者のための音声認識・合成アプリ「Project Relate」 をテスト中

Google(グーグル)が、発話障がいがある人たちにコミュニケーション手段を提供するAndroidアプリの開発で、テスターなどの協力者を求めている。Project Relateと名づけられたプロジェクトおよびアプリは、音声の書き起こしと合成を提供し、言葉の理解をサポートする。

Project Euphonia」がこのプロジェクトの始まりで、TechCrunchは2019年に発表されたときに取り上げ、その後の研究についても触れている。その研究開発努力のリーダーはGoogleの研究科学者Dimitri Kanevsky(ディミトリ・カネフスキー)氏で、彼自身も発話能力に障害があり、その体験者としての知識をAIを用いるソリューションに持ち込んだ。現在、このプロジェクトの主要パートナーでアプリのユーザーでもあるAubrie Lee(オーブリー・リー)氏はマーケティングのチームにも所属しておりアプリの命名者でもあるが、筋ジストロフィーのため自分の言葉を人やアプリに理解してもらうのが難しい。彼女の様子は動画で見ることができる。

シンプルな事実として、AIによる音声認識は、人の発話を正しく理解できるようになるために大量の録音された発話を必要とするが、しかしそれらのデータは多くの場合、健常者の発話パターンに偏っている。訛りや変わったアクセントのある発話はAI用の教材として使われていないことが多いから、それらの理解もできない。発話障がいの人びとの喋りが含まれていることは、さらに稀だ。そこで、通常の音声認識デバイスを彼らは使えない。

第三国などで特殊なアクセントで喋られる英語の理解は最近改善されているが、しかし障害などで個人によって強烈なクルのある発話パターンを集めて分析するのはとても難しい。声は人によってみな違うが、脳卒中や重度傷害などで相当特殊なパターンになってしまった発話を機械学習のシステムに正しく理解させるのは困難だ。

関連記事:インドやフィリピンなどアクセントが異なる英語の認識が向上した音声認識モデル「Speechmatics」

Project Relateの中核にあるのは、障がい者のための改良された音声書き起こしツールだ。その「Listen」ファンクションはユーザーの発話をテキストに変換する。それをどこかにペーストして、他の人が読むことができる。「Repeat」は、入力された発話を繰り返すが、2度目はやや聞き取りやすく加工されている。「Assistant」は書き起こしをGoogleアシスタントに転送して、音楽の再生や天気予報など単純なタスクをやらせる。

その能力を実現するためにGoogleはまず、できるかぎり多くのデータを集め、ボランティアによる100万以上の発話サンプルをデータベースに収めた。それらを使って、音声認識AIの基底的インテリジェンスとでも呼ぶべきものを訓練する。機械学習システムの例にもれず、これもまたデータは多ければ多いほど良いが、個々のユースケースに対応できるためには、特異なデータが多いほど良い。

 

Google ResearchのプロダクトマネージャーであるJulie Cattiau(ジュリー・カティアウ)氏は、TechCrunch宛のメールでこんな説明をしてくれた。

ターゲットのオーディエンスが必要とするものを事前に想定することを避けたかった。そのための最良の方法は、このプロダクトを利用すると思われる人たちと一緒になって作ることです。そうした人たちの最初の集団をテストに参加させることにより、アプリケーションが多くの人の日常生活の中でどのように役に立つかを、良く理解できました。どれほど正確であるべきか、どこを改良すべきかを理解してから、広範なオーディエンス向けに拡張しました」。

同社は、日常生活の中でこのアプリを試用してくれる、第一ラウンドのテスターを募集している。最初のステップではフレーズを集めて記録し、それを発話のモデルに組み入れて多様な発話パターンに対応する。このやり方なら自分の日常生活にも役に立ちそうだ、と思った方はボランティアに応募できる。あなたも、このアプリの改良に貢献できるだろう。

画像クレジット:incomible/iStock

原文へ

(文:Devin Coldewey、翻訳:Hiroshi Iwatani)

インドやフィリピンなどアクセントが異なる英語の認識が向上した音声認識モデル「Speechmatics」

ここ数年、スマートスピーカーや運転支援モードの普及に伴って、音声認識は便利なものから重要なものへと変化してきたが、誰の声でも同じようにきちんと認識できるわけではない。Speechmatics(スピーチマティック)は、最も包括的で正確なモデルを持っていると主張する。特に一般的な米国のアクセント以外のスピーチに関しては、Amazon(アマゾン)やGoogle(グーグル)などを凌駕しているという。


同社は、2019年にスタンフォード大学で行われた「Racial Disparities on Speech Recognition(音声認識における人種格差)」と題した研究の内容から精度の問題関心が向いたと説明している。たとえばAmazon、Apple(アップル)、Google、IBM、Microsoft(マイクロソフト)の音声エンジンは「人種による大きな格差が見られている。たとえば平均ワードエラー率(WER)をみると、白人話者に対しては0.19であったのに対し、黒人の話者の場合は0.35だった」とある。つまりイマイチってことだ!

この差の原因は、システムの学習に使用したデータセットに多様性がないことが一因であると考えられる。結局、データの中に黒人の話者が少なければ、モデルはそのようなスピーチパターンを学習することができない。これは、他のアクセントや方言を使う話者についても同じことがいえる。英国はいうまでもなく、米国にはさまざまなアクセントがあるので「すべての人たち」のためのサービスを提供すると主張する企業は、そのことを認識する必要がある。

ともあれ英国のSpeechmaticsは、その最新モデルでアクセント違いの英語を正確に聞き取ることを最優先にしており、他のモデルを圧倒できると主張している。スタンフォード大学の研究で使用されたのと同じデータセット(ただし、最新バージョンの音声ソフトウェアを使用)に基づいて「Speechmaticsは、アフリカ系米国人の声に対して、Googleの68.7%およびAmazonの68.6%と比較して、82.8%という総合的な正確性を達成できた」と同社はプレスリリースに記している

同社によれば、この成功は、音声認識モデルの作成に比較的新しいアプローチを採用したことによるものだという。従来、機械学習システムにはラベル付きのデータが提供されていた。これは、音声ファイルにメタデータやテキストファイルが付随したものだ、通常はそうした付随データの書き起こしは人間が行いチェックもしている。猫の検出アルゴリズムでは、画像とともに、どの画像に猫が写っているか、どこに猫が写っているかなどのデータが付随する。これが教師あり学習で、用意された2つの形式のデータの相関関係をモデルが学習する。

Speechmaticsはデータセット、学習効率、計算能力の向上にともない、近年注目されている自己教師あり学習を採用している。同学習法は、ラベル付きのデータに加えて、ラベルのない生のデータを大量に使用し、より少ないガイダンスで独自の音声「理解」力を構築していく。

関連記事:「常識」獲得に向け少しずつ進化するコンピュータービジョン、フェイスブックの最新研究

今回のモデルでは、基本的な理解力を得るために約3万時間のラベル付きデータで学習が行われた後、YouTubeやポッドキャストなどのコンテンツから得られた110万時間の公開音声が投入された。こうした収集方法は多少グレーゾーンだ、なぜなら他者の商用音声認識エンジンのトレーニングに自分のポッドキャストが使われることには、誰も明確に同意はしていないからだ。しかし、OpenAI(オープンAI)のGPT-3の訓練に「インターネット全体」が使われたように、多くの人によってそのような使い方が行われている(まあ、まだ私個人の声をマスターしてはいないが)。

Speechmaticsのモデルは、米国の黒人話者に対する精度を向上させただけでなく、子どもの聞き取り能力も向上させ(約92%の精度、これに対してGoogleやDeepgramでは約83%の精度)、インド人、フィリピン人、南部アフリカ人、そしてスコットランド人なども含めた世界中のアクセントの異なる英語に対して、小さいながらも大きな改善が見られたとしている。

このモデルは他にも何十もの言語をサポートしており、その多くで他のエンジンに対する競争力を誇っている。これは単なる英語認識モデルではなく、英語をリンガフランカ(「国際共通語」の意、今となっては失笑を買うほど不適当な慣用句だが)として使うことを考えると、アクセントは特に重要な意味を持つ。

Speechmaticsが挙げた数字は先進的なものだが、AIの世界は信じられないほどの速さで動いているため、2022年以降さらに飛躍することがあっても不思議ではない。たとえばGoogleは、発話の不自由な人でもエンジンを使えるようにするための努力をしている。最近では、インクルージョンはすべてのAIワークにおいて重要な役割を果たしており、企業が互いにしのぎを削るところを見られるのは良いことだ。

関連記事:GoogleがProject Euphoniaの包括的な音声認識を支えるAIの詳細を発表

画像クレジット:drafter123/Getty Images

原文へ

(文:Devin Coldewey、翻訳:sako)

安価なApple Music VoiceプランはSiriの改良を進める作戦である可能性が高い

Apple(アップル)は、先に開催したイベントで数多くの興味深い発表を行った。その中で私が特に注目した、かつあまり注目されていないように思えたのが、Apple Musicの新しい料金プランだった。新しい「Voice」プランでは、Apple Musicの全ライブラリを月額5ドル(日本では税込月額480円)という低価格で利用できる。ただし、Siriを使ってアクセスしなければならず、Apple Musicの標準的なビジュアルと入力しやすいアプリ内のユーザーインターフェイスは使用できない。

関連記事
アップル発表イベント「Unleashed(パワー全開)」に登場した新製品まとめ
アップルがSiriでのみ利用できる安価なApple Music Voiceプランを発表、月額480円

Appleは、このプランを開始する理由を明らかにしていないが、iPhoneメーカーとしては、音声アシスタントの学習と改良のために音声データをより多く収集したいため、価格の障壁を低くして、より多くの人にSiriを使ってもらおうとしているのではないかと推測するのが妥当だと思う。

AppleのCEOであるTim Cook(ティム・クック)氏は、このイベントで「より多くの人が、声だけでApple Musicを楽しめるようになることをうれしく思います」と述べていた。

このApple Music Voiceプランが存在する理由として、他に説得力のあるものが考えられない。特に、Apple Music上の曲目全体を提供するために、Appleはレーベルとのライセンス契約を変えていないため、標準プランよりもはるかに低いマージンでこの新サービスを提供していると思われる。

繰り返しになるが、これは単なる推測だ。ただ、AppleとSpotify(スポティファイ)間の厳しい競争を考えると、スウェーデンの会社がApple Musicを価格で打ち負かすために自社のストリーミングサービスを月額7~8ドル(月額税込980円)で提供できるのであれば、そうするのではないだろうか。そしてAppleは、どうしても膨大なデータを集めたいがために、新しいサブスクリプションプランであえて多少の損失を出しているのではないだろうか。私がこの説をツイートしたとき、同僚のAlex(アレックス)は、ではなぜAppleはサブスクリプションを無料にしないのかと疑問を抱いていた。2兆5000億ドル(約285兆円)規模の企業であるAppleは、技術的にはバランスシート上でそれだけの打撃を飲み込むことができると思うが、Spotifyのような独立した音楽ストリーミング企業からの批判をこれ以上集めたくはないのだろう。同社はすでに、さまざまな分野で反競争的な行為を行っているという批判を受けている。

テクノロジー企業は、AIモデルに膨大な量のデータを与え、サービスの機能を向上させている。Siriが長年にわたってかなり改良されてきたとしても、テック業界で働く多くの人々や大衆の間では、Amazon(アマゾン)のAlexaやGoogle Assistantの方がはるかに優れているというのが一般的な意見だ。

Appleはすでにこのような音声データを、Apple Musicの既存ユーザーから取得していると思われるが、ある友人が言ったように「要は、この機能はもともとあった。ただ、高い有料の壁を設置していただけだ。今回、彼らはその壁を低くしたということ」。新プランでMusicを音声操作のみにしたことで、参入障壁が下がっただけでなく、ユーザーはSiriを使わなくてはいけなくなった。SiriはApple Musicの標準加入者向けの機能だが、ほとんどのユーザーは基本的に、もしくは意図的にアプリのUIを使ってコンテンツにアクセスする可能性が高いと思われる。

音声アシスタントに「音声優先」や「音声のみ」のサービスを求めるとどうなるかわかる例として、AmazonのAlexaを見てみよう。Alexaは、最初から音声でアクセスしなければならなかった。これにより、AmazonはAlexaのアルゴリズムのために大量の学習データを収集することができただけでなく、Alexaを最大限に活用する方法についてユーザーをトレーニングすることもできた。

私の理論が正しいと思うもう1つの理由は、Appleがこの新しいサブスクリプションを最初に提供する予定の国についてだ。オーストラリア、オーストリア、カナダ、中国、フランス、ドイツ、香港、インド、アイルランド、イタリア、日本、メキシコ、ニュージーランド、スペイン、台湾、英国、米国だ。

インド、スペイン、アイルランド、フランスが第一陣に名を連ねているのは、Appleが世界中のさまざまな言葉を集めようとしていることを意味している。ところで、インドなどの発展途上国や、中国や日本など、テキスト入力が音声に比べて不必要に複雑になることがある市場では、音声検索が非常に人気がある(世界第2位のスマートフォン市場であり、約98%のパイをAndroidが占めているインドで、音声検索が驚くほど大量に採用されたことで、Googleアシスタントの改良や、音声分野での革新に向けたより積極的なアプローチが可能になったと、Googleの幹部が話してくれたことがある)。

Siriは、他の音声アシスタントと比較して、その能力の点でやや遅れをとっていると言われているが、Appleのサービスにおける新しい動きは、顧客に音楽ストリーミングサービスに参加するための割安な方法を提供するためのものでもある一方で、この認識されているギャップを埋めるための試みでもあると捉えられるだろう。

画像クレジット:Heng Qi / Visual China Group / Getty Images

原文へ

(文:Manish Singh、翻訳:Akihito Mizukoshi)

コンピュータービジョンにとどまらず企業の非構造化データを管理するClarifaiが68億円調達

Clarifai(クラリファイ)は、開発者、ビジネスオペレーター、データサイエンティストの日常に人工知能を導入し、モデル開発の自動化と高速化を実現を目指している。

Matt Zeiler(マット・ザイラー)氏は2013年、ニューヨークを拠点とし、コンピュータービジョンに特化した同社を創業した。2016年の3000万ドル(約34億円)のシリーズB以来、画像、ビデオ、テキスト、オーディオデータファイルといった企業の非構造化データを対象とした新機能や製品を展開している。

新機能には、自然言語処理、音声認識、スキャン、そして2020年発表した自動データラベリング機能「Scribe」などがある。また、高出力サーバーからカメラ、ドローンまで、さまざまなローカルハードウェアを使用して、データストリームの上にAIを重ねる「Edge AI」機能も展開している。同社は、10月20日に開催される深層学習の年次カンファレンス「Perceive 2021」で、さらに多くの情報を公開する予定だ。

こうした活動の中で、またこれらを継続すべく、Clarifaiは10月15日に6000万ドル(約68億4000万円)のシリーズCラウンドを発表した。New Enterprise Associatesが主導し、既存の投資家からMenlo Ventures、Union Square Ventures、Lux Capital、LDV Capital、Corazon Capital、NYU Innovation Venture Fund、新規の投資家としてCPP Investments、Next Equity Partners、SineWave Ventures、Trousdale Capitalが参加した。今回のラウンドで、同社の資金調達総額は1億ドル(約114億円)に達した。

「私たちは、追加の資金調達をせずに、なんとか長い間を過ごしてきました」とザイラー氏はTechCrunchに語った。「当社は、コストを抑えて効率的に運用しながら、収益を大きく伸ばしてきました。そして、チャンスを迎え、資金を調達しました」。

そのチャンスには、優れた法人向け販売チームを立ち上げることも含まれていた。会社設立当初は市場が未成熟だったため、中小企業や個人への販売から始めた。現在では、市場の成熟化に伴い、フォーチュン500の企業と取引を行っている。

同社にとって「非構造化データ」とは、画像や動画、テキストなど、人間の脳は得意とするが、コンピューターは苦手とするデータのことだ。実際、企業のデータの95%は非構造化データであり、Clarifaiに「大きなチャンス」をもたらしているとザイラー氏は話す。

そうしたシグナルを大企業が市場に発するようになったタイミングで、シリーズCを実現した。また、同社はSnowflakeと提携し、Snowflakeが最近リリースした非構造化データ支援とClarifaiを連携させるための統合を行った。

「Snowflakeは、構造化データに関して1000億ドル(約11兆円)規模のビジネスを展開していますが、今は非構造化データにも取り組んでいます」とザイラー氏は付け加えた。「顧客がSnowflakeでデータを保存している場合、そこから価値を得ることができますが、それを意味のあるものにするためにはClarifaiのAIが必要です」。

Clarifaiの製品パイプライン。画像クレジット:Clarifai

一方、同社は2020年1年間で収益を2倍以上に伸ばし、ユーザー数も13万人を突破した。今回のシリーズCの資金調達により、現在100人のグローバルチームの規模を来年までに倍増させる計画だ。

また、営業やマーケティング、国際的な事業拡大にも投資する。同社は、すでにエストニアにオフィスを構えているが、ザイラー氏は多くの顧客を獲得しているオーストラリア、インド、トルコも視野に入れている。また、最初の顧客を獲得したばかりのEdge AI製品にも引き続き取り組む。

今回の投資の一環として、NEAのパートナーであるAndrew Schoen(アンドリュー・ショーン)氏がClarifaiの取締役会に加わる。同社は数年前から注目されていたが、ショーン氏は当時、投資には早すぎると感じていた。

「最初の頃、AIの風は構造化データを中心に吹いていました。データの90%は非構造化でしたから、これはすぐに手に入る果実だと言えました」とショーン氏は語った。「エコシステムが成熟した今、企業は構造化データからできる限りのことを絞り出したことがボトルネックになっていることに気づきました。今、企業の手元には使えない非構造化データが残り、それがきちんと整理されていません。Clarifaiは、この問題を解決することを目的としています」。

ショーン氏は、ClarifaiがAIと機械学習を解明し、民主化すると考えている。同社は早くから非構造化データに着目していたため、アーリーアダプターを獲得することができた。現在ではこの分野をリードしている。

さらにショーン氏は、同社の収益予測は過去12カ月の間に変曲点を迎え、ビジネスは「順調に成長している」という。

「Clarifaiはこれまで、顧客を獲得し、市場を教育しなければなりませんでした。今では市場に対して自社の製品をプッシュするのではなく、プル型になっています。企業側がソリューションを探し、Clarifaiが適切な製品だと見ているのです」と付け加えた。

画像クレジット:Yuichiro Chino / Getty Images

原文へ

(文:Christine Hall、翻訳:Nariko Mizoguchi

【コラム】音声認識が子供のために使えるようになった、今こそ活用する時だ

音声認識テクノロジーが、ようやく子どもたちのためにも使えるようになった。

1999年に私がScholastic Education(スカラスティック・エデュケーション)で同僚たちと音読支援プログラムのREAD 180(リード・ワンエイティー)を作ったときは違っていた。当時私たちは音声対応アプリの導入を考えていた。子どもがコンピュータープログラムに向かって読むと、流暢さと識字能力をリアルタイムでフィードバックする。そして教員は生徒の進歩状況を受け取る。

残念ながら私たちのアイデアはテクノロジーの20年先を行っていたので、音声認識機能を省いたREAD 180の開発を進めることになった。ドットコムバブルの絶頂期でさえ、教室向け音声認識はまだSF世界の産物だった。

人工知能や機械学習を使っても、騒がしい教室の周囲雑音を遮断するために必要なテラバイトのデータを作ることはできなかった。また、大人よりも声の高さやしゃべるパターンの多い子どもたちの複雑な音声を把握したり、さまざまな方言や訛りを認識し、何よりも、システムを使う子どもたちの予測不可能な行動を操るまでには進化していなかった。

Scholasticでは、子どもたちに彼らの知らない何かを習得しているとは言いたくなかったし、実際には正しいのに何かを間違えたと幼い生徒たちに感じさせてしまうことの奥深い意味を私たちは理解していた。

時は過ぎて今。音声認識は子どもたちの発話を認識、理解して、異なる訛りや方言にも対応できるところまで進歩している。たとえばダブリン拠点のSoapBox Labs(ソープボックス・ラボ)は、にぎやかな校庭や教室で聞こえてくる子どもたちの多様な声をモデルにした音声認識技術を開発した。テクノロジーの高い精度と性能のおかげで、小学校教員はこれを使って生徒の進歩を高い規則性をもって測ることが可能になり、個人にあわせた指導方法をとれるようになった。

こうした進歩は、この上なく重要な時期にやってきた。

パンデミック前においてさえ、経済的に恵まれない家族の子どもたちの80%以上が、小学4年生の読み方習熟度に達していなかった。熟練した教育者から1年間切り離され、大人向けに作られたテクノロジーやデジタル格差と戦いながら、生徒たちは例年の87%しか読み方を習得できていない、とMcKinsey & Co.(マッキンゼー・アンド・カンパニー)は報告している。春季の学校閉鎖によって、彼らは平均3カ月分の学習機会を失った。

想像できるように、読み方能力の欠如は有色人種生徒の多い学校で顕著であり、読み方スコアは過去の平均の77%でしかない。

生徒たちが教室に戻ってきた時、音声認識は教育に革命を起こせる。リモート学習や家庭でのエンターテインメントも含めて、子どもたちがテクノロジーとやり取りする方法を転換することによって変わる。音声を利用した読解、さらには数学、言語のプログラムが、子どもたちの習熟度の測定や基本知識の習得における事務的作業を肩代わりすることによって、現場は専門的作業に専念できるようになる。

例えば音声認識を使って生徒の読み方の進歩に関する有益な観察を定期的に生成し、パターンを見つけたり改善の必要な部分を特定したりできる。教師は音声対応ツールが生成した進捗や評価データを見て、それぞれの生徒にあった学習方法を適用し、失読症などの障害を見つけたり、必要な時に介助できるようにスケジュールを組むことができる。

音声利用読書ツールを使うと、授業時間中にすべての生徒が音読してフィードバックを受けることができる。こんなことは教師1人では実現不可能だった。例えば25人のクラスで生徒1人につき15分を費やすと、1人の教師の時間を6時間以上占める、毎日。この種の個人観察と評価は、新型コロナウイルス(以前から)教師にとって永遠の課題だった。自宅学習が導入され、生徒たちが教育的にも情緒的にも過去に類を見ない問題を抱えて学校に戻ってくることで、問題はいっそう深刻化している。

音声認識技術には、教室の公平性を高める可能性もある。人間による読み方能力の評価は、結局のところ極めて主観的であり、評価者の偏見によって最大18%の偏差が見られたという最近の研究報告もある。現在利用可能な子ども中心で精度の高い音声認識は、訛りや方言によらずどの子どもの声も理解することで、人間の必然的な偏見を排除することができる。

今後数年のうちには、このテクノロジーがあらゆる教室で授業の一部となり、年少者の読み方(および数学や言語)能力を高めるようになるだろう。教育者は、この技術をより戦略的に自らの授業に取り入れられることに気づくだろう。そしてこれは、新型コロナ時代に切実に求められているものへの期待を大きく高める。それは読解能力を著しく改善し、世界的な読み書き能力問題に、深く本格的に取り込むことのできるテクノロジーだ。

編集部注:本稿の執筆者Mergery Mayer(マージェリー・メイヤー)氏は、Scholasticで教育担当プレジデントを25年間務めている。

画像クレジット:Flashpop / Getty Images

原文へ

(文:Margery Mayer、翻訳:Nob Takahashi / facebook

Zoom商談を書き起こしSalesforceに自動入力するオンライン商談自動化ツール「アンプトーク」が発売開始

Zoom商談を書き起こしSalesforceに自動入力するオンライン商談自動化ツール「アンプトーク」が発売開始

amptalkは9月6日、オンライン商談自動化ツール「アンプトーク」の発売を9月1日より開始したと発表した。また2021年5月、ジェネシア・ベンチャーズ、モバイル・インターネットキャピタルより、シードラウンドにおいて約1億円の資金調達を実施したと明らかにした。調達した資金は、今後のプロダクト開発・販売の為の人材の採用に活用する予定。

2020年5月設立のamptalkは、「データによって価値あるアドバイスを」作り出すことをミッションとし、「昨日まで世界になかったチャンスを」作り出すことをビジョンに、「人」だけではできなかったことを成しとげ「人」がより効率的に働ける世の中を作ることを目指すスタートアップ企業。

Zoom商談を書き起こしSalesforceに自動入力するオンライン商談自動化ツール「アンプトーク」が発売開始

アンプトークは、Zoom商談の録画を自動で取得して書き起こし、Salesforceに自動入力するというツール。営業担当者は商談の記録などの付加業務の負担が減り、商談に集中できるようになるという。

また、アンプトーク独自のシステムで商談内容を自動解析することで、誰が・何を・どれくらい話したのかを可視化可能。これにより営業のトッププレーヤーと他プレーヤーの差を明らかにすることで、育成指導やナレッジシェアの工数を減らしながらスキルを改善、受注率の向上につなげられるとしている。Zoom商談を書き起こしSalesforceに自動入力するオンライン商談自動化ツール「アンプトーク」が発売開始

円滑なカスタマーサービスのために、あるアクセントをリアルタイムで別のアクセントに変換させるSanas

カスタマーサービス産業では、アクセントが仕事のさまざまな側面を左右する。本来アクセントには「良い」も「悪い」もないはずだが、現在のグローバル経済(とはいえ明日のことは誰にもわからないが)では、米国人や英国人のアクセントのように聞こえることには価値がある。多くの人がアクセントを補正するトレーニングを受けていいるが、Sanas(サナス)はそれとは違うアプローチを採用するスタートアップだ。同社は音声認識と音声合成を利用して、ほぼリアルタイムで話し手のアクセントを変える。同社はまた550万ドル(約6億1000万円)のシード資金を調達している。

同社は、機械学習アルゴリズムに訓練を施し、人間の発話をすばやくローカルに(つまりクラウドを使わずに)認識し、同時にその同じ単語をリストから指定したアクセントで(または相手の会話から自動的に検出したアクセントで)出力する。

画像クレジット:Sanas.ai

このツールはOSのサウンドスタックに直接組み込むことができるので、ほとんどのオーディオ / ビデオ通話ツールですぐに使用することができる。現在同社は、米国、英国、フィリピン、インド、ラテンアメリカなどの拠点で、数千人規模のパイロットプログラムを運用している。年内には米国、スペイン、英国、インド、フィリピン、オーストラリアのアクセントに対応する予定だ。

正直なところ、最初はSanasのようなアイデアには賛成できなかった。それは、自分のアクセントが優れていて他の人を下に見ているような偏狭なな人たちに譲歩しているように感じたからだ。偏狭な人たちを許容する方向で、技術が問題を解決する……。いいだろう!

だが、まだその気持ちは少し残っているものの、やがてそれだけではないことに私は気づいた。基本的には、自分と同じようなアクセントで話している人の方が、理解しやすいということだ。しかし、カスタマーサービスやテクニカルサポートは巨大な産業であり、実際には顧客がいる国以外の人びとによって行われていることが多い。この基本的な断絶を改善するには、初級レベルの労働者に責任を負わせる方法か、テクノロジーに責任を負わせる方法がある。どちらの手段をとるにせよ、自分を理解してもらうことの難しさは変わらず、なんとか解決しなければならない。自動化されたシステムはそうした仕事をより簡単に実現し、より多くの人が自分の仕事をできるように手助けしてくれるだけのことだ。

もちろんこれは魔法ではない。以下のクリップからわかるように、話者の特徴や調子は部分的にしか保持されておらず、結果としてかなり人工的な音になっている。

しかし、技術は進歩を続けているので、他のスピーチエンジンと同様、使えば使うほど良くなっていくだろう。また、元の話者のアクセントに慣れていない人にとっては、米国人のアクセントの方が理解しやすいかもしれない。つまりサポート役の人にとっては、自分の電話がより良い結果をもたらすことになり、誰もが得をすることになる。Sanasによると、パイロット版はまだ始まったばかりなので、この運用によるちゃんとした数字はまだ出ていないものの、試験運用によっても、エラー率が大幅に減少し、対話効率が向上していることが示唆された。

いずれにせよ、Human Capital、General Catalyst、Quiet Capital、DN Capitalが参加した550万ドル(約6億1000万円)のシードラウンドを獲得できたことは喜ばしい。

今回の資金調達を発表したプレスリリースで、CEOのMaxim Serebryakov(マキシム・セレブリャコフ)氏は「Sanasは、コミュニケーションを簡単で摩擦のないものにするために努力しています。これにより人びとは、どこにいても、誰とコミュニケーションをとろうとしても、自信を持って話しお互いを理解することができるのです」と語っている。そのミッションに反対することはできない。

アクセントや力の差といった文化的・倫理的な課題がなくなることはないだろうが、Sanasが提供する新しい試みは、プロとしてコミュニケーションをとらなければならないのに、自分の話し方がその妨げになっていると感じている多くの人にとって、強力なツールになるだろう。これは、たとえ完璧な世界であったとしても、お互いをよりよく理解するために、探求し議論する価値のあるアプローチだ。

関連記事
LINEの論文6本が世界最大規模の音声処理関連国際学会「INTERSPEECH 2021」で採択
東京大学齊藤研究室とバベルがAIエンジニアコミュニティ設立、wav2vec 2.0利用し日本語関連OSSプロジェクト開始
異音検知プラットフォームや議事録自動作成システムを手がける音声認識AIスタートアップ「Hmcomm」が4.2億円調達
画像クレジット:Bryce Durbin / TechCrunch

原文へ

(文:Devin Coldewey、翻訳:sako)

LINEの論文6本が世界最大規模の音声処理関連国際学会「INTERSPEECH 2021」で採択

LINEの論文6本が世界最大規模の音声処理関連国際学会「INTERSPEECH 2021」で採択

LINEは8月30日、世界最大規模の音声処理に関する国際会議「INTERSPEECH 2021」において、国内トップクラスとなる6本の論文が採択されたことを発表した。これらの論文は、8月30日より9月3日にかけてオンライン開催される「INTERSPEECH 2021」で発表される。

INTERSPEECHは、International Speech Communication Association(ISCA)が主催する国際会議で、2021年は22回目の開催となる。約2000件の投稿から約1000件の論文が採択されている。

採択されたのは、高速な音声認識を実現する手法として注目されている非自己回帰型音声認識の性能向上に関するもの、音声の適切な位置に無音区間(ポーズ)を挿入することで合成音声の品質を向上させる句境界予測の研究に関するもの、NAVERと共同で進めているParallel WaveGAN(PWG)をより高品質にするための取り組みとなるMulti-band harmonic-plus-noise PWGの研究に関するものなどとなっている。

LINEは、AI事業を戦略事業の1と位置付け、NAVERとの連携も行いながら、AI関連サービスや新機能の創出を支える技術の基礎研究に力を入れているという。データ基礎開発、データ分析、機械学習、AI技術開発、基礎研究の各チームが事業や担当領域を超えて連携し、研究、開発、事業化のサイクルのスピードアップを目指しているとのことだ。

「INTERSPEECH 2021」に採択された6本の論文は以下のとおり。

  • Relaxing the Conditional Independence Assumption of CTC-based ASR by Conditioning on Intermediate Predictions」(中間予測の条件付けによるCTCベースの自動音声認識における条件付き独立性仮定の緩和)。Jumon Nozaki、Tatsuya Komatsu
  • 「Acoustic Event Detection with Classifier Chains」(分類子チェーンによる音響イベントの検出)。T.Komatsu、S.Watanabe、K.Miyazaki、T.Hayashi
  • Phrase break prediction with bidirectional encoder representations in Japanese text-to-speech synthesis」(日本語の文章読み上げ合成における双方向エンコード表現を使用した句境界予測)。Kosuke Futamata、Byeongseon Park、Ryuichi Yamamoto、Kentaro Tachibana
  • 「High-fidelity Parallel WaveGAN with Multi-band Harmonic-plus-Noise Model」(マルチバンド高調波ノイズモデルを使用した高忠実度並行WaveGAN)。Min-Jae Hwang、Ryuichi Yamamoto、Eunwoo Song、Jae-Min Kim
  • 「Efficient and Stable Adversarial Learning Using Unpaired Data for Unsupervised Multichannel Speech Separation」(教師なしマルチチャンネル音声分離のための対応のないデータを用いた効率的で安定的な敵対的学習)。Yu Nakagome、Masahito Togami、Tetsuji Ogawa、Tetsunori Kobayashi
  • 「Sound Source Localization with Majorization Minimization」(メジャー化最小化による音源定位)。Masahito Togami、Robin Scheibler

東京大学齊藤研究室とバベルがAIエンジニアコミュニティ設立、wav2vec 2.0利用し日本語関連OSSプロジェクト開始

東京大学齊藤研究室とバベルがAIエンジニアコミュニティ設立、wav2vec 2.0利用し日本語関連OSSプロジェクト開始

AIオートメーション技術を軸にグローバルで事業展開を行うバベルは8月24日、東京大学大学院工学系研究科齊藤研究室(東京大学 齊藤研究室)と、誰でも参加可能なAIエンジニアコミュニティ「AI Automation Lab」(AIオートメーション・ラボ)を設立。日本語学習済みAIモデルのオープンソースソフトウェア(OSS)化を前提とする日本語音声書き起こし・会話の解析技術の共同研究を開始したと発表した。ベースとなるモデルとして、音声認識フレームワーク「wav2vec 2.0」を利用し、日本語に合わせて調整する。

wav2vec 2.0と呼ばれる書き起こしのモデルは、大規模なラベルなしデータを利用した事前学習を行うことで、少数のラベル付きデータセットでも高精度の書き起こしが可能という。日本語のような少数派の言語では、大規模なラベル付きデータを学習に利用することが困難な状況なものの、wav2vec 2.0はまさにそのような状況にある言語に適しているとした。

AI Automation Labには、connpass上の「AI Automation Lab(AI オートメーション・ラボ)」より参加できる。

昨今「音声書き起こし」に関する技術は全世界で著しく発展しており、英語や中国語を中心とした各国の言語に対して、wav2vec 2.0などの最新の学習済みAIモデルがOSSで公開され、それらを活用した最新のAIプロダクトが数多く開発されている。

一方日本においては、言語の壁の影響により関連するAI技術発展に乗り遅れ、最新のAI技術の恩恵を享受できていないという課題が存在しているという。情報処理推進機構(IPA)「AI白書2020」によると、すでにAIを導入している企業は4.2%、AI導入に興味はあるがまだ導入していない企業は78.3%という。

今後、最新のディープラーニング・モデルを日本語で扱うためには、莫大なGPUコストと時間のかかる日本語の追加学習が必要となり、その開発には一定の研究規模や開発環境が求められる。

そこで今回、東京大学 齊藤研究室とバベルが共同でAIエンジニアコミュニティAI Automation Lab(AIオートメーション・ラボ)で研究開発を行うことで、その開発の知見を日本で活躍するAIエンジニア・AI技術開発に携わる方々と共有し、さらにその成果となる日本語学習済みモデルをOSSとして無料公開することで、広く日本語ユーザーが最新AIモデルの恩恵を受けられる環境作りに貢献する。学術研究を含めて日本のAI分野の発展に寄与するとしている。

東京大学 齊藤研究室は、物理学と応用物理学の両者にまたがる量子物性の最先端の開拓を標榜し、次世代電子技術の基本物理原理を築く先端研究と世界で活躍する人材の輩出で科学技術と社会に貢献。スピントロニクス、量子ナノ系の研究に加え、最近では量子物理と情報物理を応用した新しいAI科学領域の研究を行っている。

バベルは、「世界中の人々の役に立つ事業を創り続ける」というミッションのもと、AI オートメーションを軸にユーザーエンゲージメントを最大化させ、ステークホルダー全員に感動を届ける事で世界をより良くするためにグローバルに事業展開している。

異音検知プラットフォームや議事録自動作成システムを手がける音声認識AIスタートアップ「Hmcomm」が4.2億円調達

異音検知プラットフォームや議事録自動作成システムを手がける音声認識AIスタートアップ「Hmcomm」が4.2億円調達

Hmcomm(エイチエムコム)は8月10日、シリーズC追加ラウンドとしての第三者割当増資と金融機関からの融資による合計4億2000万円の資金調達を発表した。引受先は、J&TC Frontier、協和、芙蓉総合リース。

Hmcommは、「音から価値を創出し、革新的なサービスを提供することにより社会に貢献する」との企業理念の下「音のIoTソリューションの社会実装」を目指す、産業技術総合研究所(産総研)発のスタートアップ。その社名は、「Human Machine Communication」(人と機械のコミュニケーション)に由来する。主なサービスに、音で異常を検知する異音検知プラットフォーム「FAST-D」、AI音声による自動応答を行う「Terry」、議事録自動作成システム「ZMEETING」などがある。また、通話内容を自動的に要約してオペレーター業務の可視化し、AIが対応の分析を行うコールセンター業務の効率化や高度化を実現するサービスも行っている。

今回調達した資金は、業容拡大に向けたAI人材の確保、開発環境の充実、研究開発の推進、さらには基盤技術の深耕、新サービス開発のための先行投資にあてるとのこと。

関連記事
マイクロソフトが過去2番目規模で文字起こし大手Nuance Communications買収、ヘルスケア分野のクラウドを強化
AI翻訳機「ポケトーク」が音声を翻訳し本体とウェブブラウザーに文字表示を行う「ハンズフリー翻訳(β版)」を新搭載
AI利用のリアルタイム英語音声文字起こし「Otter. ai」とNTTドコモが日本向け法人プラン独占販売契約
議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開

日本語に特化したAI文字起こしサービス「Rimo Voice」が登場、1時間の保存音声を最短5分でテキスト化
会議や講演の音声をAIで自動的に文字起こしする「Smart書記」が8500万円を調達
“音”を元にスマホで3分で設備機器の異常を診断、スカイディスクの「スマート聴診棒」ベータ版

カテゴリー:人工知能・AI
タグ:音声認識 / Voice Recognition(用語)産総研 / AIST(組織)Hmcomm(企業)文字起こし / Transcribe(用語)資金調達(用語)日本(国・地域)

アマゾンがAlexaで利用できる子供向けの「読書仲間」と音声プロフィールを公開

米国時間6月29日、Amazon(アマゾン)はAlexaを子どもの読書仲間にする新機能と、家中の全Echoデバイスで子どものAlexaエクスペリエンスをパーソナライズする音声プロフィールのサポートを発表した。この2つの機能は連携して動作する。音声プロフィールによってAlexaは話者を特定するので、デバイスは「Alexa、読書をしよう」というようなリクエストに適切に対応できるようになるのだ。Alexaはリクエストを受けて、Amazonが「Reading Sidekick」と呼んでいる読書仲間エクスペリエンスを開始する。

この機能はAmazon Kids+サブスクリプションが必要であるため、Alexaデバイスの全ユーザーが利用できるわけではない、このサブスクリプションサービスは月額2.99ドル(約330円)で、多くの子ども向けの本、テレビ番組、映画、教育アプリ、ゲームの他、広告なしのラジオステーションとプレイリスト、Audibleのブック、限定のAlexaスキルといったEchoデバイス向けプレミアムコンテンツも利用できる(Amazon Kids+は、日本ではプライム会員は月額480円、一般会員は月額980円。ただしFireやKindleのキッズモデルを購入すると1年間無料)。

画像クレジット:Amazon

サブスクリプションを購入したら、子どもはAlexaに一緒に読書をしようと話しかけ、互換性のある紙の書籍または電子書籍を選んで読み始める。Alexaは何の本を読んでいるかを尋ねる。また、たくさん読みたいか、少しだけか、順番に読むかも尋ねる。この機能を使えるのはAmazon Kids+サブスクリプションに含まれる6〜9歳向けの数百冊の書籍で、紙の書籍も電子書籍も対象となっている。子どもが読む番になったらAlexaはそれを聞いて、上手く読めていればほめ、つまづいたら助ける。

子ども向けAlexa音声プロフィールも米国時間6月29日から公開が開始される。この機能をオンにすると、保護者は家族内の子ども、最大4人の音声プロフィールをそれぞれ作成でき、Alexaのエクスペリエンスが各人に応じてパーソナライズされる。つまり、Alexaはあらかじめ構成された適切なペアレンタルコントロールを自動で適用して、不適切な音楽を自動でフィルタリングし、通話やメッセージの送信先を承認された連絡先のみに制限し、保護者が前もって承認したAlexaスキルしか使えないようにする。また、子ども向けのゲーム、スキル、音楽、動画が利用できるようになり、子どもからの問いかけにはそれに応じた対応をする。

このような機能によりAlexaのエクスペリエンスは家族にとってこれまで以上に楽しく便利になるが、その一方で保護者は子どもの声が録音され、分析され、一定の期間保管されることを考慮しなくてはならない。現在、Amazonは子どもの質問やリクエストに対するAlexaの理解を向上させるために、子どもの声の録音を使って音声認識と自然言語理解システムをトレーニングしている。録音を人間が検討することもある。このように使われたくない保護者は、Alexaアプリの設定から子どもの履歴に関連する録音を1つずつ、または全部いっぺんに削除できる。3カ月または18カ月で録音を自動で削除する設定にしたり、音声によるリクエストで録音を削除したりすることもできる。

ただし、保護者が子どもの声の録音を保存しない設定にした場合、ペアレントダッシュボードから子どもがこれまでにリクエストした内容の履歴をたどることはできない。

Reading Sidekickや音声プロフィールなどの機能を有効にする前に、あるいはもっと広く考えるとスマートスピーカーのようなものを家庭に持ち込むかどうかについて、保護者は自分の家庭に適した判断を下す必要がある。

Amazonによれば、子ども向けAlexa音声プロフィールは7月2日(金)までにAmazonの全顧客に提供されるという。Reading Sidekickは米国時間6月29日から提供が開始されている。

関連記事
【レビュー】新「Fire HD 10 Plus」は純正キーボードカバーでPCっぽく使える10.1型フルHDタブレット
【レビュー】アマゾンの新Echo Budsはまずまずのアップグレード、ただし依然として卓越性は感じない
アマゾンがAppleに対抗して無料でロスレス音楽配信サービスにアップグレード、まずは北米などから
アマゾンのEcho Showシリーズがアップデート、Echo Show 8のカメラに自動フレーミング機能搭載
AmazonがFireタブレットの新ラインアップとキッズモデルを発表、ワイヤレス充電対応版も

カテゴリー:ネットサービス
タグ:AmazonAlexa子ども音声認識音声操作読書

原文へ

(文:Sarah Perez、翻訳:Kaori Koyama)

iOS版Outlookの音声操作がMicrosoft Graphにより強化、口述筆記や音声でスケジュール追加などが可能に

iOS版Outlookの音声操作がMicrosoft Graphにより強化、口述筆記や音声でスケジュール追加などが可能に

Microsoft

マイクロソフトのメール・情報管理アプリOutlookは2019年に音声AIアシスタントCortanaに対応し、音声で着信箱の新着メールチェックができるようになりました。それから遅れること2年、マイクロソフトはiOS版のOutlookに、音声操作で電子メールの読み上げや会議予約機能または検索機能などを追加しました。

音声操作機能をオンにすると、Cortanaに次の会議の時間をたずねたり翌週の予定を記入するよう指示ができます。予定を入れる際は招待する人を指名することも可能。また音声でメールに添付ファイルを指定したり、音声からテキストへの変換機能を使用して新しいメールを作成したりできます。

マイクロソフトはこれまでにもOutlookモバイルアプリにPlay My Emails機能を搭載するなど徐々に音声機能を強化していました。今回のアップデートで、Outlook mobileのほぼすべての部分に音声機能が搭載されたと言えそうです。

なお、この音声操作機能を支えるのはMicrosoft 365や関連するクラウドサービスにおいてそれぞれを一体として連携させるAPI​を提供するMicrosoft Graphというツール。このAPIが音声アシスタントが必要とするコンテキストを提供することで、Cortanaがスケジュールに添付する人名のスペルなどを住所録から引っ張ってくるといった細かい便利さを提供します。

ただ、マイクロソフトは今年3月にiOSおよびAndroid版の、音声AIアシスタント単体でのCortanaの提供は終了しています。今回の動きは、マイクロソフトがCortanaをSiriやAlexaなどのようにあらゆる操作に対応するものとせず、ユーザーの生産性向上に特化したツールとして提供していこうという考えを反映したものと言えそうです。

(Source: MicrosoftEngadget日本版より転載)

関連記事
マイクロソフトがビジネス向けCortana新機能を発表、iOS版Outlookはメール音声読み上げや各種操作が可能に
MicrosoftのCortanaが多くの一般向けスキルを廃止しビジネスユースに注力
Microsoft、iOS版Outlookアプリを公開するも誰も使いそうにない

カテゴリー:ソフトウェア
タグ:音声認識 / Voice Recognition(用語)Cortana(製品・サービス)Microsoft / マイクロソフト(企業)Microsoft Outlook(製品・サービス)Microsoft 365(製品・サービス)Microsoft Graph(サービス)日本(国・地域)

AI翻訳機「ポケトーク」が音声を翻訳し本体とウェブブラウザーに文字表示を行う「ハンズフリー翻訳(β版)」を新搭載

AI翻訳機「ポケトーク」が音声を翻訳し本体とウェブブラウザーに文字表示を行う「ハンズフリー翻訳(β版)」を新搭載

©SOURCENEXT CORPORATION

AI(人工知能)翻訳機の「ポケトーク」を手がけるソースネクストは、「ポケトーク W」、「ポケトーク S」、「ポケトーク S Plus」に「ハンズフリー翻訳(β版)」を追加しました。

ハンズフリー翻訳(β版)は、リアルタイムでポケトークから音声をクラウドサーバに送り、クラウドサーバから翻訳結果をポケトーク本体や専用サイトに配信する仕組みです。専用サイトのURLやパスワードなどを相手に伝えることで、翻訳内容を共有することも可能です。

同社によると、技術的な内容の詳細については非公開とのことですが、Web会議やスピーチだけでなく、外国語のテレビやラジオなどを聞きながら日本語で意味を確認したりといったことにも活用できるそうです。

記者が実際に使用してみたところ、発話が終わってから翻訳結果が表示されるまでのタイムラグが短く感じられました。

注意点としては保存形式が限られること。現時点ではCSV形式でのみ保存できますが、個人的にはテキスト形式での保存にも対応してほしかったです。とはいえ、専用サイトに表示される翻訳結果をコピーして、パソコン向けのテキストエディタに貼り付けて保存できるため、この点についてはユーザー側の工夫次第といえそうです。

なお、ハンズフリー翻訳(β版)の利用にはWi-Fi環境が必要です。利用料は無料で、対象端末をアップデートするだけで利用できるようになります。対応言語は日本語や英語、中国語などを含む82言語。ちなみにこれは、音声認識が可能な言語数で、現在、ポケトークで対応している全言語になります。

名刺大の翻訳機「POCKETALK S」が12月発売、カメラでテキスト翻訳も
約3万円の大型通訳機 POCKETALK S Plus 発表。eSIM内蔵でどこでも訳す

(Source:ソースネクストEngadget日本版より転載)

関連記事

JapanTaxiのタブレット端末に世界74言語の通訳機能が追加、ソースネクストと業務提携
AI利用のリアルタイム英語音声文字起こし「Otter. ai」とNTTドコモが日本向け法人プラン独占販売契約
議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開
マイクロソフトが会議で文字起こしや翻訳を行うアプリ「Group Transcribe」を発表
プロの翻訳者に匹敵するAI翻訳サービスを提供するLengoo、新ラウンドで約21億円を獲得
アマゾンがEchoデバイスを使った「ライブ翻訳」機能をローンチ
翻訳アプリのReversoがデスクトップ版をリリース、文書翻訳や企業内サイト翻訳など事業も拡大中
双方向同時通訳可能な新型ウェアラブル翻訳機が4月に約2.2万円で発売へ
グーグルのリアルタイム翻訳ツールがスマホにも登場

カテゴリー:人工知能・AI
タグ:音声認識 / Voice Recognition(用語)ガジェット(用語)機械翻訳(用語)ソースネクスト(企業)ポケトーク(製品・サービス)日本(国・地域)

議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開

議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開

人工知能(AI)を搭載したサービスの資料請求ができるAIポータルメディア「AIsmiley」を運営するアイスマイリーは3月8日、議事録自動作成用AIツールをまとめた「議事録作成AIカオスマップ」を公開した。掲載数は合計26サービス。

議事録自動作成用AIツールは、時間と労力がかかる議事録の文字起こしを、AIが代行してくれるというもの。AIが人の声を認識してテキストデータ化したり、複数の言語間を自動的に翻訳しテキスト化するといった技術の導入が進んでいる。

録音された音声を聞きながら文章として構成するのは楽な作業ではなく、場合によっては聞き間違いや聞き漏らしなどのミスも発生する。

間違いの修正など時間のロスを最小限に留め、より効率的に議事録を作成するための方法として最近注目されているのが、音声認識機能を活用した議事録自動作成のAIツールという。

ただ議事録作成AIには、ツールによって機能や実現できる内容に違いがあり、自社の課題は何か、どんな結果を実現したいのかという観点から、ツールごとの違いを比較検討することが重要としている。

また、議事録作成AIは、録音した音声から文字起こしを行うものと、リアルタイムで音声の文字起こしをするもの、日本語のみ対応・多言語対応といった違いもある。活用シーンによって選択すべきツールも異なるそうだ。

議事録作成AIカオスマップは、「議事録作成AIを試したい」企業や「議事録作成を行う最新のAIツールを探している」企業に向け、26の製品サービスを取りまとめ、マッピングしたもの。「大サイズの議事録作成AIカオスマップ(PDF)」と「議事録作成AIベンダー一覧(Excel)」が必要な場合は、問い合わせフォームから連絡することで入手できる。

関連記事
マイクロソフトが会議で文字起こしや翻訳を行うアプリ「Group Transcribe」を発表
現場状況を遠隔地と共有可能な「コネクテッドワーカーソリューション」のフェアリーデバイセズが10.2億円調達
アマゾンがEchoデバイスを使った「ライブ翻訳」機能をローンチ
LINEがOpenAI「GPT」・Google「T5」同様の超巨大汎用言語モデルをNAVERと共同開発、世界初の日本語特化
日本語に特化したAI文字起こしサービス「Rimo Voice」が登場、1時間の保存音声を最短5分でテキスト化
発言者ごとの文字起こし・議事録作成可能な「Sloos」がマイクロソフトの法人向けアプリストアで提供開始
マイクロソフトやアマゾンが音声認識チップの新興メーカーSyntiantに出資
会議や講演の音声をAIで自動的に文字起こしする「Smart書記」が8500万円を調達
AIを使った音声テキスト変換アプリOtterがNTTドコモなどから戦略的投資10億円獲得

カテゴリー:人工知能・AI
タグ:アクセシビリティ(用語)AI / 人工知能(用語)音声認識 / Voice Recognition(用語)カオスマップ(用語)機械翻訳(用語)自然言語処理(用語)文字起こし / Transcribe(用語)日本(国・地域)