Google Pixel、最新アップデートで通話中に返事を入力できる機能など搭載

Google Pixelで、通話中に文字入力して話すことができるようになる機能を含むアップデートが配信される。このアップデートは、Pixel 3a~Pixel 5a 5G端末には本日、米国時間3月7日から、Pixel 6とPixel 6 Pro端末には2022年3月末から配信される予定だ。

最も注目すべき新機能は、通話中に話すことができない、あるいは話したくないという人に向けたものだとGoogleはいう。通話中に、相手が話していることの文字になったキャプションを見ることができ、相手側で読み上げられる返事を文字入力で行うことができるようになる。またこの際、独自のメッセージを入力するだけでなく、あらかじめ用意された返事を選ぶこともできる。このアップデートは、Googleのライブキャプション機能を拡張したもので、デバイス上の音声に自動的にキャプションを付けることができる。

画像クレジット:Google

またアップデートで、Snapchat向けの「Night Sight」という夜間撮影モードもPixelに追加される。この新モードは、フラッシュを使わなくても、光量の少ない写真や動画を簡単かつクリアに撮影できるようにするためのものだ。

Googleはさらに、これまでPixel 6専用だった「Direct My Call」と「Wait Times」機能を、Pixel 3a以降の機種でも利用できるようにすることも発表ている。Direct My Call機能は、企業に電話をかける際に複雑な電話網を切り抜けられるようにする機能だ。提示された多くの選択肢(例えば「営業時間と場所は1を押してください」など)を聞いておぼえなくても、Googleアシスタントが自動メッセージを翻訳してくれる。一方、Wait Times機能は、フリーダイヤルに電話をかけたときに、相手につながるまでの予測時間を表示する機能だ。

2022年2月に発売されたGalaxy S22に続き、Google Duoの共同視聴とライブ共有機能がPixel端末にも搭載される。この新機能により、友人や家族とビデオ通話でつながりやすくなり、YouTubeの視聴会を開いたり、アプリを共有したりといったことができるようになるという。

そして、Gboardは、言語が米国英語に設定されている場合、カスタムテキストを含むステッカーが提供されるようになる。

GoogleのプロダクトマネージャーChris Breithaupt氏はブログで「百聞は一見に如かず、です。ユーザーはメッセージングアプリで入力すると、Gboardはあなたの言葉を正確なテキストで構築されたカラフルなステッカーに変換することができます。絵文字やemoji kitchen、カスタムステッカーの提案をPixelに入力すると、自分の気持ちを正確に表現できます」と述べている。

画像クレジット:Google

またGoogleは、スマートフォンやPixel Budsなどの接続デバイスに関する最新情報を表示するためのPixelバッテリーウィジェットも新たに導入する。

Googleの通訳モードは対面での会話を翻訳するように設計されているが、スペイン語、イタリア語、フランス語もサポートするようになる。さらにPixel 6とPixel 6 Pro端末であれば、Recorderアプリがイタリア語とスペイン語を書き起こせるようになったことも発表している。アシスタントのクイックフレーズのサポートも、Pixel 6と6 Proでスペイン語、イタリア語、フランス語に対応する。

Pixelの最新機能は、大画面デバイス用に設計されたAndroid 12Lと同時にリリースされた。このソフトウェアは、2022年後半からSamsung(サムスン)、Lenovo(レノボ)、Microsoft(マイクロソフト)の対応デバイスで提供開始される予定だ。

画像クレジット:Google

原文へ

(文:Aisha Malik、翻訳:Katsuyuki Yasui)

音声の文字起こし、要約、モデレートを行うオールインワンAPIのAssemblyAIが32.1億円を調達

ここ数年、音声や動画のコンテンツやインターフェースが爆発的に増えているのは明らかだが、それらのメディアを扱う方法はまだ発展途上だ。そんな中、AssemblyAIが2800万ドル(約32億1000万円)の新たな資金調達により、音声解析のための主要なソリューションとなることを目指す。同社の超シンプルなAPIを利用することで、一度に数千の音声ストリームの文字起こし、要約、その他何が起きているのかを把握することができる。

電話や会議がビデオ通話になり、ソーシャルメディアの投稿が10秒のクリップ動画になり、チャットボットが発話し、音声を理解するようになるなど、マルチメディアは信じられないほど短期間に多くのものの標準となった。数え切れないほどの新しいアプリケーションが登場してきているが、他の新しい成長産業と同様に、アプリケーションを適切に実行したり、アプリケーションの上に新しいものを構築したりするためには、アプリケーションが生成するデータを操作できる必要がある。

問題は、音声はもともと簡単に扱えるものではないことだ。音声ストリームの「検索」はどのように行えば良いだろう。波形を見たり、通して聴いたりすることもできるが、それよりもまずは文字に書き起こして、その結果得られたテキストを検索する方が良いだろう。そこでAssemblyAIの出番となる。音声文字起こしサービスは数多くあるものの、自社のアプリや業務プロセスには簡単に組み込めない場合が多い。

AssemblyAIのCEOで共同創業者のDylan Fox(ディラン・フォックス)氏は「音声コンテンツのモデレーションや検索、要約を行う場合には、データをより柔軟で、その上に機能やビジネスプロセスを構築できる形式に変換する必要があります」と語る。「そこで、Twilio(トゥイリオ)やStripe(ストライプ)のように、たとえハッカソンの場でも使えるような、誰でも使える超高精度の音声分析APIを作ろうということになったのです。こうした機能を組み上げるためには多くの支援が必要ですが、その際にあまりにも多くのサービスプロバイダーを組合せたくはありません」。

AssemblyAIは、極めてシンプルに(1、2行のコードで)呼び出せる数種類のAPIを提供しているが、そのAPIを利用することで「このポッドキャスト中に禁止されている内容がないかチェックする」「この会話の話者を特定する」「この会議を100文字以内に要約する」などのタスクを実行することができる。

コードして、コールして完了(画像クレジット:AssemblyAI)

だが、私もそうだったが、この仕事が一歩踏み込めばどれだけ複雑な作業になるかと考えると、果たして小さな会社がこれだけ多くのことを簡単にこなせる道具を作れるのかどうかと疑問に思うだろう。フォックス氏は、これが困難な課題であることを認めつつも「技術は短期間で大きく進歩したのです」と語った。

「特にここ数年で、こうしたモデルの精度が急速に向上しています。要約、勘定識別……どれも本当に良くなりました。そして、私たちは実際に最先端の技術を推進しています。私たちは大規模なディープラーニング研究を行っている数少ないスタートアップの1つですので、私たちのモデルは、世間一般のものよりも優れているのです。研究開発やトレーニングのためのGPUや計算資源には、今後数カ月間だけでも100万ドル(約1億1500万円)以上を投入します」。

簡単にはデモンストレーションできないので、直感的に理解するのは難しいかもしれないが、画像生成(「このXXは存在しません」の類)やコンピュータービジョン(顔認証、防犯カメラ)と同様に、言語モデルも進歩してきている。もちろん、GPT-3はその身近な例だが、フォックス氏は、書き言葉を理解し生成することと、会話やくだけた話し方を分析することは、実質的にまったく別の研究領域であると指摘する。よって機械学習技術の進歩(トランスフォーマーや新しい効率的なトレーニングのフレームワーク)は両者に貢献してきたが、多くの意味ではそれらはリンゴとオレンジの関係(同じ果物というだけで、それ以外の属性は異なっている)のようなものだ。

いずれにせよ、数秒から1時間程度の音声でも、APIを呼び出すだけで効果的なモデレーションや要約処理を行うことができるようになった。これは、ショートビデオのような機能を開発したり統合したりする際などにとても有効だ。たとえば1時間に10万件ものクリップがアップロードされることを想定した場合、それらがポルノや詐欺、パクリでないことを確認する最初のスクリーニングはどうすれば良いだろう?また、そのスクリーニングプロセスを構築するためにローンチがどれくらい遅れるだろう?

フォックス氏は、このような立場にある企業が、ちょうど決済プロセスの追加に直面したときと同様に、簡単で効果的な方法を選ぶことができるようになることを希望している。つまり機能をゼロから自分で構築することもできるし、15分で「Stripe」を追加することもできるということだ。これは、根本的に望ましいものだというだけでなく、Microsoft(マイクロソフト)やAmazon(アマゾン)などの大手プロバイダーが提供する、複雑でマルチサービスなパッケージの中の音声分析製品とは明らかに一線を画している。

インタビューに答えるフォックス氏(画像クレジット:Jens Panduro)

同社はすでに数百の有料顧客を数え、2021年1年間で売上を3倍に伸ばし、現在は1日100万件のオーディオストリームを処理している。フォックス氏はいう「100%ライブストリーム処理です。大きな市場と大きなニーズがあり、お客様からの支払いもあります」とフォックス氏はいう。

2800万ドル(約32億1000万円)のラウンドAは、Accelが主導し、Y Combinator、John(ジョン)とPatrick(パトリック・コリソン)氏 (Stripe)、Nat Friedman(ナット・フリードマン)氏 (GitHub)、そしてDaniel Gross(ダニエル・グロス)氏(Pioneer)が参加している。全額を、採用、研究開発インフラ、製品パイプラインの構築などに振り向ける計画だ。フォックス氏が指摘したように、同社は今後数カ月の間にGPUとサーバーに100万ドル(約1億1500万円)を投入する(大量のNVIDIA A100が、信じられないほど計算集約型の研究とトレーニングのプロセスを支えることになる)。もしそうしなければ、クラウドサービスにお金を払い続けることになるのだから、間借り生活から早めに脱却したほうが良いのだ。

採用に関しては、音声解析関連技術に力を入れているGoogleやFacebookと直接競合するため、苦労するのではないかと質問してみた。しかし、フォックス氏は楽観的だった。そうした大企業の文化が遅く窮屈なものであると感じているからだ。

「本当に優秀なAI研究者やエンジニアには、最先端で仕事をしたいという願望が間違いなくあると思います。そして同時に実用化の最先端にも関わりたいという願望です」と彼はいう。「革新的なことを思いついたら、数週間後には製品化できる…そんなことができるのはスタートアップ企業だけです」。

画像クレジット:AssemblyAI

原文へ

(文:Devin Coldewey、翻訳:sako)

医師を退屈なデータ入力から解放、AI駆動の転写プラットフォームDeepScribeが約34億円調達

AIを活用した医療用転写プラットフォームのDeepScribe(ディープスクライブ)は、Index VenturesのNina Achadjian(ニーナ・アチャドジアン)氏がリードし、Scale.aiのCEOのAlex Wang(アレックス・ワン)氏、FigmaのCEOのDylan Field(ディラン・フィールド)氏、既存投資家のBee Partners、Stage 2 Capital、1984 Venturesが参加したシリーズAラウンドで3000万ドル(約34億円)を調達した。DeepScribeの今回の資金調達は、2021年5月に発表された520万ドル(約6億円)のシードラウンドに続くものだ。DeepScribeは、医師を退屈なデータ入力から解放し、患者にフォーカスできるようにすることを目的に、Akilesh Bapu(アキレッシュ・バプ)氏、Matthew Ko(マシュー・コー)氏、Kairui Zeng(カイリュー・ゼン)氏によって2017年に設立された。

2019年、DeepScribeは患者と医師の自然な会話を要約するアンビエント音声AI技術を発表した。DeepScribeのアイデアは、バプ氏とコー氏の体験が発端だ。バプ氏の父親はがん専門医で、文書作成が父親のワークライフバランスに与える負担を目の当たりにした。一方、コー氏は、乳がんと診断された母親のケアを管理していたとき、診療記録の負担が患者のケアに対する認識にどのような影響を及ぼしているかを目の当たりにした。

母親が受けていたケアに不満を感じたコー氏は、バプ氏とその父親に助けを求めた。そして、診察記録の重要性を理解し始めた2人は、近年の人工知能や自然言語処理の飛躍的な進歩が、この状況を改善するために活用されていないことに気づいた。そこで、この問題を解決するプラットフォームを構築すること決意した。

「この分野の製品を調査した後、75%以上の医療従事者がこの分野の文書作成ツールを使っているのに、それでもなぜ彼らが半日近くをメモ書きに費やしているのか疑問に思いました」と、コー氏は電子メールでTechCrunchに述べた。「製品をテストした後、私たちの結論は、この分野の既存の製品では医師が会話を要約する必要があるために問題を解決していない、というものでした。音声テキスト化ソリューションは、あなたがが話した内容を正確にコンピュータの画面上のテキストに変換することしかできませんでした。医師が求めていたのは、患者との自然な会話を理解し、要約することができるアンビエントAIでした。この洞察をもとに、私たちは世界初のアンビエントAIスクライブ、つまり現在のDeepScribeの構築に着手しました」。

医師がアプリケーションを起動すると、DeepScribeは会話を録音し、要約して、医師が選択した医療記録システムに統合する。アプリは、聞きながら患者の診察を録音し、診察記録を準備する。その後DeepScribeは、電子カルテ (EHR) のフィールドにメモを直接アップロードし、医師は適切なEHRフィールドに完全に準備されたメモを確認し、署名することができる。

このアプリケーションはおしゃべりに対応していて、会話には医学的に関連する情報のみが含まれる。また、医師の会話スタイル、好みの言い回し、文章の好みなどを聞き、学習することで、AIスクライブは継続的に賢くなるという。

過去1年半の間に全米で医師400人超がDeepScribeを利用し、50万件以上の患者・医師間の会話を処理してきた。DeepScribeによると、同社のプラットフォームを活用することで医師は1日平均3時間を節約でき、コストは人間による記録の約6分の1だ。これまでに、同社は医師の文書作成にかかる時間、250万分以上を節約した。信頼性に関しては、20日間の使用後、医師はメモ1枚につき平均1回以下の修正しか行わなかった、とDeepScribeは話す。

DeepScribeは、今回の資金調達によりDeepScribeの成長が加速し、今後も医療文書作成ワークフローとヘルスケア全体の改善と変革に取り組んでいくと話す。自社の技術を複数の大規模医療システムに展開し、エンジニアリングチームを成長させ、自社のAIをより多くの医師の手に渡すことを目指している。

「当社のロードマップには多くのものがありますが、最もワクワクさせるのは、純粋な要約以外の可能性です」とコー氏は話す。「音声が未来の医療の構成要素になると信じていて、お馴染みのケアの診断と治療を変換する能力を持っています。サービスの提供を通じて収集したデータを活用し、医師に効率化を提供するにとどまらず、患者の転帰を改善したいと考えています」。

画像クレジット:DeepScribe

原文へ

(文:Aisha Malik、翻訳:Nariko Mizoguchi

EU、マイクロソフトの音声認識技術企業Nuance買収を無条件で承認

欧州連合(EU)の競争当局は、Microsoft(マイクロソフト)が2021年初めに発表した音声認識(文字起こし)技術企業Nurance(ニュアンス)の197億ドル(約2兆2500億円)での買収を全面的に承認した。

EUは12月21日、買収実行にともなうEUでの競争上の懸念はないと結論づけ、条件を付さずに承認したと発表した

この買収は、11月16日に欧州委員会の規制当局に通知された。

関連記事
マイクロソフトが過去2番目規模で文字起こし大手Nuance Communications買収、ヘルスケア分野のクラウドを強化
英独禁監視当局がマイクロソフトのNuance買収を調査中

MicrosoftのNuance買収がEUの承認を得た一方で、英国の競争・市場庁は予備調査を開始したばかりだ。まだ精査が続く地域もあるということだ。

EU側では、欧州委員会の調査は、音声認識ソフトウェア市場におけるNuanceとMicrosoftの水平方向の重複を調査し、両社がまったく異なる製品(エンドユーザー向け既製ソフトと、アプリに音声認識技術を追加したい開発者向けのAPI)を提供していると判断した。

また、2社の統合後も、他のプレイヤーとの「強い」競争に引き続き直面することになるとも判断した。

EUは、MicrosoftのクラウドコンピューティングサービスとNuanceのヘルスケア向け下流音声認識ソフトとの垂直的な関連性にも注目したが、この分野で競合する音声認識サービスプロバイダーは、クラウドコンピューティングをMicrosoftに依存していないことがわかった。

また、欧州委員会によれば、この種の音声認識サービスプロバイダーは、クラウドコンピューティングの主要ユーザーでもないという。

同委員会の調査では、Nuanceのソフト(Windows版のみ)とMicrosoftの数多くの製品との複合的な関連性も検討されたが、統合後の企業は、(医療)音声認識ソフト、法人向け通信サービス、CRMソフト、生産性ソフト、PCオペレーティングシステムの市場において競合企業を排除する能力やインセンティブを持たないとの見解に至った。

そして、ここでもまたEUは、統合後の企業が依然として強い競争に直面することになると判断した。

おそらく最も興味深いのは、欧州委員会がNuanceのソフトによって書き起こされたデータの利用について調査したことだ。興味深い理由は、医療データの機密性が非常に高いからだ。Microsoftはアドテク分野では巨大プレイヤーではないが、同分野で事業を拡大する野心を持つ。ちょうど米国時間12月21日、同社はデジタル広告事業を強化するため、AT&Tからアドテク企業のXandr(旧AppNexus)を買収すると発表した

さらに、すでに大規模なデジタルマーケティング事業を展開している巨大テック企業のOracle(オラクル)が、電子カルテシステムを提供するCerner(サーナー)の買収を発表し、同社のヘルスケア分野への壮大な構想を示すことになった。

もちろん、アドテク企業が健康データを手中に収めるという見通しは、プライバシーに関して多くの人々を不安にさせる

しかし、MicrosoftによるNuance買収のデータ面に関する評価は、既存の「契約上の制約」とEU地域のデータ保護規制のおかげで、問題なしとされた。

その分析は主に競争の観点からなされたが、EUの反トラスト法評価で(さらに)データ保護に焦点が当たったことは注目に値する。(先例として、EUがGoogleのアドテクを現在も精査している件がある。欧州委員会は2020年、GoogleのFitbit買収を承認したが、プライバシー擁護派から多くの批判を受けた。このケースでは、承認にあたり、GoogleがFitbitの健康データを広告に利用することを制限するという条件を付した)。

「欧州委員会は、Nuanceが自身のサービスを提供するためにのみ健康データを使用することができると結論付けました」とEUはMicrosoftのNuance買収承認に関するプレスリリースに書いている。「データを他社が利用することはありませんし、契約上の制約やデータ保護法の関係で他の目的には使用できません」。

EUの反トラスト部門はまた、Nuanceのデータへのアクセスは、Microsoftに、競合する医療ソフトプロバイダーを締め出すことができるような優位性を与えることはないと結論付けた。「重要な音声認識情報は、Nuanceの断片的な音声データとは異なり、複数のソースからのデータを組み合わせた電子カルテシステムなどのサードパーティアプリケーションに通常格納されています」。

以上からだけでも、電子カルテシステムのプロバイダーであるCernerのOracleによる買収に関しては疑問が生じる。すなわち、EUの競争規制当局が、ハイテクヘルスケア分野の大型ディールを検討するようになれば、より厳しい質問をぶつけてくる可能性があるのではないかということだ。

ただし、Cernerは2020年欧州のポートフォリオの一部を売却しており、同地域の顧客が比較的少ないため、EUの懸念の範囲は縮小または限定されるかもしれない。

画像クレジット:Kena Betancur/VIEWpress/Corbis / Getty Images

原文へ

(文:Natasha Lomas、翻訳:Nariko Mizoguchi

Verbitの文字起こしプラットフォームは人工知能と人間の知能を組み合わせて高い精度と早い納期を実現

1億5700万ドル(約178億6000万円)を調達したシリーズDラウンドからまだ半年足らずにもかかわらず、AIを活用したトランスクリプション&キャプションのプラットフォームであるVerbit(ヴァービット)は、同社を20億ドル(約2275億円)と評価するシリーズE投資ラウンドを、2億5000万ドル(約284億3000万円)でクローズしたと発表した。今回の資金調達により、同社の資金総額は5億5000万ドル(約625億6000万円)を超えた。

この新たな投資ラウンドは、Third Point Ventures(サード・ポイント・ベンチャーズ)が主導し、既存投資家であるSapphire Ventures(サファイヤ・ベンチャーズ)、More Capital(モア・キャピタル)、Disruptive AI(ディスラプティブAI)、Vertex Growtht(ヴァーテックス・グロース)、40North(フォーティノース)、Samsung Next(サムスン・ネクスト)、TCPが参加した。

VerbitのCEO兼創業者であるTom Livne(トム・リブン)氏は、この資金を製品開発への投資と、垂直方向および地理的な拡大の継続に使用すると述べ、買収戦略も倍増させると付け加えた。

シリーズEをクローズしたことで、Verbitは近い将来に予定されているIPOに一歩近づいたと、上場計画について訊かれたリブン氏は答えた。

Verbitは、それまで法律の分野でキャリアを積んでいたリブン氏によって2017年に設立された。リブン氏は、テープ起こしの納期の遅さに不満を感じることが多かったが、弁護士としてその問題に正面から取り組むためのツールを持っていなかった。そこで同氏は、AIを活用したトランスクリプションとキャプションのプラットフォームを提供するスタートアップを設立し、AI駆動の自動トランスクリプションサービスとプロのトランスクリプターを結合させた。

約300億ドルと推定されるトランスクリプション業界は、非常に細分化されており、小さな家族経営の会社がたくさんある。この市場は統合の準備ができていると、リブン氏はTechCrunchにメールで語り、Verbitは5月に、2番目の買収先であるVITACを5000万ドル(約56億7000万円)で買収完了したと付け加えた。

Verbitのプラットフォームの特徴は、人工知能と人間の知能の両方の力を利用して、業種に特化したトランスクリプションやキャプションを提供し、各業界に適したソリューションを構築していることだと、リブン氏はいう。

「当社のAIは、特定の業種や顧客に基づいてトレーニングされているので、当社のプラットフォームは、時間の経過とともに改善されるカスタムモデルを構築することができます。つまり、Verbitの顧客は、法律、教育、メディア、企業などの分野にいて、それぞれに、HIPAA(医療保険の相互運用性と説明責任に関する法律)やSOC IIコンプライアンスなど、独自の業界固有の規制や基準に準拠したトランスクリプションやキャプションを提供することができるということです」と、リブン氏は述べている。

さらに、機械学習と自然言語処理(NPL)を用いたモデルにより、99%以上の精度と、業界標準より10倍も早い納期を実現していることも、同社の大きな差別化要因であると、リブン氏は語った。

Verbitは、メディア、教育、企業、法律、政府機関など、2000社以上の顧客にサービスを提供している。リブン氏によれば、その顧客の中には、CNN、Fox(フォックス)、Disney(ディズニー)、Coursera(コーセラ)、Stanford(スタンフォード)、Harvard University(ハーバード大学)、Amazon(アマゾン)、Microsoft(マイクロソフト)、AT&Tなどが含まれるという。

同社は急速に成長しており、前年同期比で6倍の収益成長を遂げ、年間の経常収益は1億ドル(約113億円)を超えていると、リブン氏は続けた。また、同社はキャッシュ効率に優れ、163%という高い顧客維持率を誇っており、これらは顧客からの信頼を示す重要な指標であると、同氏は付け加えた。

同社がトランスクリプションの分野で競合する企業として、リブン氏はRev.com(レブ)や3Play Media(スリープレイ・メディア)の名前を挙げた。

英国とオーストラリアで強い存在感を示しているVerbitは、ドイツ、フランス、スペインなど、欧州へのさらなる拡大を計画していると、リブン氏は述べている。これらの国々は、かなりのインバウンド関心が見られるため魅力的であると、リブン氏は付け加えた。

「市場機会は非常に大きく、業界リーダーとしての当社の立場を考えれば、我々はこれらの市場に迅速に参入することができます」と、リブン氏はいう。

Verbitは、ニューヨーク、コロラド、ピッツバーグ、パロアルト、カナダ、テルアビブ、キエフの470人を超える従業員と、世界中に3万5000人のフリーランスのトランスクリプターと600人のプロのキャプション担当者を擁している。

「今回の資金調達は、トランスクリプション分野におけるマーケットリーダーとしての地位を確固たるものにする当社の能力に対する信頼の証です」と、リブン氏は語る。「この業界を近代化するための強力な技術プラットフォームを構築し、垂直統合された音声AIソリューションを構築する当社の戦略は、私たちのお客様に多大な価値をもたらし、お客様のビジネスをよりわかりやすいものにしてきました」。

「Verbitは、トランスクリプション市場において卓越した技術によるオーガニックとインオーガニックの成長を兼ね備えた特別な企業です」と、Verbitの取締役会に加わるThird Point Venturesのマネージングパートナー、Rober Schwartz(ローバー・シュワルツ)氏は述べている。「このような大規模で断片化された市場で、デジタルトランスフォーメーションと同時進行の統合の機が熟している時に遭遇できるチャンスは、滅多にありません」。

画像クレジット:Verbit

原文へ

(文:Kate Park、翻訳:Hirokazu Kusakabe)

レブコム、Zoom面談のAI文字起こしとトーク分析が可能な「MiiTel for Zoom(ベータ版)」提供開始

レブコムがオンライン商談の会話をAIが解析・可視化する新サービス「MiiTel Live」開始

RevComm(レブコム)は11月10日、AIによる文字起こしとトーク分析機能によりZoom面談の可視化・社内共有を可能にする「MiiTel for Zoom(ベータ版)」の提供を開始した。音声解析AI電話「MiiTel」ブランドの新サービスにあたり、MiiTelとZoomとの連携により、電話だけではなくZoomでのオンライン会議も含めた会話を一元管理し、社内資産としてストック化できるようになる。

レブコム、Zoom面談のAI文字起こしとトーク分析が可能な「MiiTel for Zoom(ベータ版)」提供開始

MiiTel for Zoom(ベータ版)の特徴

  • 自動文字起こし・話者特定:Zoom面談の内容を自動で文字起こし可能。声紋を事前に登録すると、3人以上が参加する面談・会議でも話者を特定できる
  • 録画の共有:Zoom録画を「MiiTel」のダッシュボード上で管理することで、必要な動画を検索・再生でき、またURLをコピー&ペーストで共有できる
  • トークのスコアリング:AIが音声を解析し、「話す速度」「顧客との被り回数」「沈黙回数」などを定量評価

録画データについては、Zoomでクラウド録画した場合、会議終了時に自動的に録画データがMiiTel管理画面に保存され、録画データとともに音声認識結果、会議中のチャット履歴などが表示される。Zoomのクラウド録画を利用していない場合でも、録画ファイル(MP4形式)があれば、手動でアップロードできる。これにより、Zoom以外での録画や過去の録画データを社内共有に活用できるとしている。

MiiTel for Zoom(ベータ版)は、「MiiTel」を利用していない場合でも単体で利用可能。MiiTelとのセット価格の場合、利用料金は、月40時間までのトライアルプラン(税別1980円/ID/月)と、月100時間までのスタンダードプラン(税別3980円/ID/月)となる。単体契約の場合は別途、閲覧専用 ID利用料980円/月がかかる。また月次契約で10ID以下の契約の場合は、別途事務手数料がかかる。

MiiTelは、電話営業やコンタクトセンター業務における、会話の内容を解析し、高精度のフィードバックを行うことで商談獲得率・成約率を向上させる、日本発の音声解析AI電話サービス。顧客と担当者が「何を」「どのように」話しているか分からないというブラックボックス化問題を解消し、アナログな議事録作成も自動文字起こし機能により軽減するという。また、MiiTelにより蓄積された顧客とのリアルな音声データは、自社の教育研修、サービス開発、機能改善などに活用できるとしている。

グーグルが発話障がい者のための音声認識・合成アプリ「Project Relate」 をテスト中

Google(グーグル)が、発話障がいがある人たちにコミュニケーション手段を提供するAndroidアプリの開発で、テスターなどの協力者を求めている。Project Relateと名づけられたプロジェクトおよびアプリは、音声の書き起こしと合成を提供し、言葉の理解をサポートする。

Project Euphonia」がこのプロジェクトの始まりで、TechCrunchは2019年に発表されたときに取り上げ、その後の研究についても触れている。その研究開発努力のリーダーはGoogleの研究科学者Dimitri Kanevsky(ディミトリ・カネフスキー)氏で、彼自身も発話能力に障害があり、その体験者としての知識をAIを用いるソリューションに持ち込んだ。現在、このプロジェクトの主要パートナーでアプリのユーザーでもあるAubrie Lee(オーブリー・リー)氏はマーケティングのチームにも所属しておりアプリの命名者でもあるが、筋ジストロフィーのため自分の言葉を人やアプリに理解してもらうのが難しい。彼女の様子は動画で見ることができる。

シンプルな事実として、AIによる音声認識は、人の発話を正しく理解できるようになるために大量の録音された発話を必要とするが、しかしそれらのデータは多くの場合、健常者の発話パターンに偏っている。訛りや変わったアクセントのある発話はAI用の教材として使われていないことが多いから、それらの理解もできない。発話障がいの人びとの喋りが含まれていることは、さらに稀だ。そこで、通常の音声認識デバイスを彼らは使えない。

第三国などで特殊なアクセントで喋られる英語の理解は最近改善されているが、しかし障害などで個人によって強烈なクルのある発話パターンを集めて分析するのはとても難しい。声は人によってみな違うが、脳卒中や重度傷害などで相当特殊なパターンになってしまった発話を機械学習のシステムに正しく理解させるのは困難だ。

関連記事:インドやフィリピンなどアクセントが異なる英語の認識が向上した音声認識モデル「Speechmatics」

Project Relateの中核にあるのは、障がい者のための改良された音声書き起こしツールだ。その「Listen」ファンクションはユーザーの発話をテキストに変換する。それをどこかにペーストして、他の人が読むことができる。「Repeat」は、入力された発話を繰り返すが、2度目はやや聞き取りやすく加工されている。「Assistant」は書き起こしをGoogleアシスタントに転送して、音楽の再生や天気予報など単純なタスクをやらせる。

その能力を実現するためにGoogleはまず、できるかぎり多くのデータを集め、ボランティアによる100万以上の発話サンプルをデータベースに収めた。それらを使って、音声認識AIの基底的インテリジェンスとでも呼ぶべきものを訓練する。機械学習システムの例にもれず、これもまたデータは多ければ多いほど良いが、個々のユースケースに対応できるためには、特異なデータが多いほど良い。

 

Google ResearchのプロダクトマネージャーであるJulie Cattiau(ジュリー・カティアウ)氏は、TechCrunch宛のメールでこんな説明をしてくれた。

ターゲットのオーディエンスが必要とするものを事前に想定することを避けたかった。そのための最良の方法は、このプロダクトを利用すると思われる人たちと一緒になって作ることです。そうした人たちの最初の集団をテストに参加させることにより、アプリケーションが多くの人の日常生活の中でどのように役に立つかを、良く理解できました。どれほど正確であるべきか、どこを改良すべきかを理解してから、広範なオーディエンス向けに拡張しました」。

同社は、日常生活の中でこのアプリを試用してくれる、第一ラウンドのテスターを募集している。最初のステップではフレーズを集めて記録し、それを発話のモデルに組み入れて多様な発話パターンに対応する。このやり方なら自分の日常生活にも役に立ちそうだ、と思った方はボランティアに応募できる。あなたも、このアプリの改良に貢献できるだろう。

画像クレジット:incomible/iStock

原文へ

(文:Devin Coldewey、翻訳:Hiroshi Iwatani)

Amazon Music、米国でポッドキャストに「文字起こし」機能を搭載

Amazon Music(アマゾンミュージック)は米国時間11月2日より、米国のユーザーを対象に、一部のポッドキャストで自動生成された同期トランスクリプト(文字起こし)の提供を開始する。iOSおよびAndroidのAmazon Musicアプリの最新版では、Amazon Originals(アマゾンオリジナル)とAmazonが所有するネットワークのWondery(ワンダリー)が提供する一部のポッドキャストの最新エピソードの文字起こしが提供される。また、American Public Media(アメリカンパブリックメディア)、audiochuck(オーディオチャック)、Cadence13(ケイデンス13)、The New York Times(ニューヨークタイムズ)、Stitcher(スティッチャー)、TED(テッド)が提供する「My Favorite Murder(マイフェイバリットマーダー)」「Crime Junkie(クライムジャンキー)」「Modern Love(モダンラブ)」「This American Life(ディスアメリカンライフ)」などの一部の番組でも文字起こしが利用できるようになる。

2020年9月にAmazon Musicにポッドキャストを追加して以降、この文字起こしは同アプリが実装した初めての大きなポッドキャスト機能だ。Spotify(スポティファイ)は、5月にSpotify Exclusive and Original(エクスクルーシブアンドオリジナル)の番組に対して同様の機能をベータテストした。Apple Podcastのクリエイターは、番組ノートに文字起こしを記載することができ、それをアプリ内で検索することができるが、今回のAmazon Musicのように音声と同期していなかった。

画像クレジット:Amazon Music

リスナーはアプリ内でパラグラフ形式の文字起こしを読むことができ、ホストがいう言葉がハイライトされているのをみながら一緒に聞くこともできる。この機能は、ポッドキャストの特定の場所を探すのにも役立つ。カーソルをドラッグすると、ビデオのサムネイルのプレビューを見るように、話されている言葉のプレビューを見ることができる。

音声のみのメディアであるポッドキャストにとって、聴覚に障害のある視聴者にも楽しんでもらうために、文字起こしは不可欠なものだ。多くのポッドキャストは、すでにウェブサイトに文字起こしを掲載しているが、この機能は、番組を体験するための別の方法を提供する。ライブオーディオの場合、ライブキャプションはアクセシビリティに不可欠な機能だ。Twitter Spaces(スペース)はこの機能を提供しているが、Clubhouse(クラブハウス)はまだこの機能を実装していない。

画像クレジット:Amazon Music

原文へ

(文:Amanda Silberling、翻訳:Yuta Kaminishi)

Otter.aiの自動文字起こし機能がMicrosoft Teams、Google Meet、Cisco Webexにも対応

AIを利用して音声の書き起こしをするサービスOtter.aiが、そのOtter Assistantプロダクトの機能をMicrosoft TeamsとGoogle Meet、そしてCisco Webex向けに拡張する。当初、5月にはZoomのユーザー向けのプロダクトだったが、今後はいろいろなプラットフォームに参加して会議の書き起こしができる。会議にOtterのユーザーがいなくてもよい。

関連記事:Zoomの会議を自動で文字起こしできるOtter.aiの新しいアシスタント機能

Otter Assistantはカレンダー上の会議に自動的に参加して書き起こしを行い、会議の参加者に共有する。会議に出られなかった人も、後でその内容がわかる。複数の会議が重なっているときや、長い会議のごく一部を知りたいときなどにも、Otter Assistantは便利だ。

この最新のツールを利用するためには、まず自分のカレンダーとOtter Assistantのサービスを同期させる。そうするとAssistantは自動的に今後のすべての会議に参加する。透明性を確保するために、会議ではAssistantも1人の参加者として記録される。

Otter.aiの共同創業者でCEOのSam Liang(サム・リャン)氏が声明で「自宅やモバイルなどのリモートを併用するハイブリッドの仕事スタイルがますます普及しているため、Otterはチームのコミュニケーションとコラボレーションを改善するツールとして重宝されています。しかもこれからは、いろいろな人がいろいろなやり方で会議に参加していてもOtterは簡単確実に対応できるため、すごく便利になったと思います」と述べている。

今回の統合により、1つの会議にいろいろな人がさまざまなプラットフォームから参加していても、Otter Assistantは1カ所で十分に内容を記録できる。Otter Assistantを使えるのは、Otter.ai Businessのユーザーだ。その料金は月額20ドル(約2200円)からで、二要素認証や高度な検索、音声のインポート、ボキャブラリーのカスタム化、共有している発話者の識別などの機能がある。

関連記事
Zoomの会議を自動で文字起こしできるOtter.aiの新しいアシスタント機能
AI利用のリアルタイム英語音声文字起こし「Otter. ai」とNTTドコモが日本向け法人プラン独占販売契約
画像クレジット:Otter

原文へ

(文:Aisha Malik、翻訳:Hiroshi Iwatani)

異音検知プラットフォームや議事録自動作成システムを手がける音声認識AIスタートアップ「Hmcomm」が4.2億円調達

異音検知プラットフォームや議事録自動作成システムを手がける音声認識AIスタートアップ「Hmcomm」が4.2億円調達

Hmcomm(エイチエムコム)は8月10日、シリーズC追加ラウンドとしての第三者割当増資と金融機関からの融資による合計4億2000万円の資金調達を発表した。引受先は、J&TC Frontier、協和、芙蓉総合リース。

Hmcommは、「音から価値を創出し、革新的なサービスを提供することにより社会に貢献する」との企業理念の下「音のIoTソリューションの社会実装」を目指す、産業技術総合研究所(産総研)発のスタートアップ。その社名は、「Human Machine Communication」(人と機械のコミュニケーション)に由来する。主なサービスに、音で異常を検知する異音検知プラットフォーム「FAST-D」、AI音声による自動応答を行う「Terry」、議事録自動作成システム「ZMEETING」などがある。また、通話内容を自動的に要約してオペレーター業務の可視化し、AIが対応の分析を行うコールセンター業務の効率化や高度化を実現するサービスも行っている。

今回調達した資金は、業容拡大に向けたAI人材の確保、開発環境の充実、研究開発の推進、さらには基盤技術の深耕、新サービス開発のための先行投資にあてるとのこと。

関連記事
マイクロソフトが過去2番目規模で文字起こし大手Nuance Communications買収、ヘルスケア分野のクラウドを強化
AI翻訳機「ポケトーク」が音声を翻訳し本体とウェブブラウザーに文字表示を行う「ハンズフリー翻訳(β版)」を新搭載
AI利用のリアルタイム英語音声文字起こし「Otter. ai」とNTTドコモが日本向け法人プラン独占販売契約
議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開

日本語に特化したAI文字起こしサービス「Rimo Voice」が登場、1時間の保存音声を最短5分でテキスト化
会議や講演の音声をAIで自動的に文字起こしする「Smart書記」が8500万円を調達
“音”を元にスマホで3分で設備機器の異常を診断、スカイディスクの「スマート聴診棒」ベータ版

カテゴリー:人工知能・AI
タグ:音声認識 / Voice Recognition(用語)産総研 / AIST(組織)Hmcomm(企業)文字起こし / Transcribe(用語)資金調達(用語)日本(国・地域)

Twitter Spacesがウェブでも利用可能に、アクセシビリティ機能も搭載

米国時間5月26日夜、Twitter(ツイッター)はClubhouseのライバルである同社のSpacesをウェブでも利用できるようになると発表した。5月はじめにフォロワー600人以上のユーザーなら誰でもiOSかAndroidのアプリ上でSpacesを利用できるようになった。ほぼ同時に、Clubhouseはついに待望のAndroidアプリを公開した。ただ、Clubhouseはまだウェブでは利用できない。ライブソーシャルオーディオ市場でTwitterが一歩先行するかたちだ。

Instagramも自身をClubhouseのライバルと位置づけ、ユーザーがオーディオとビデオをミュートする機能を活用してライブができるようにしている。それぞれのアプリはどう差別化していくのだろうか?TwitterのNed Segal(ネッド・シーガル)CEOは、毎年恒例で2021年が49回目となる5月25日のJPモルガンのグローバルテクノロジー/メディア/コミュニケーションカンファレンスでこの点を明らかにしようと試みた。

関連記事
ツイッターが音声会議「スペース」をフォロワー600人以上のユーザーに公開、チケット、リマインダーなども追加
ClubhouseがついにAndroidアプリを発表、急激にインストール数が減少する中まずは米国のみ
Instagram Liveに音声ミュートやビデオをオフにする新機能追加、Clubhouseに対抗

シーガル氏は次のように述べている。「Twitterは世界で何が起きているか、人々が何について話しているかを知る場です。Twitterを開いてホーム画面のタイムラインを見たときにSpaceがあれば、おそらくあなたの知らない人であってもそこで話されている話題はあなたに大いに関連のあることです。ビットコインのこと、あるいはグラミー賞の余韻やNFLのドラフトについて話されているかもしれません」。

Spacesのウェブ版に関してTwitterが重視している部分には、ユーザーの画面サイズに対応するUIとSpacesの予定をリマインドする機能などがある。Spaceに参加する前に、誰がそこにいるか、何が話されているかのプレビューが表示される。ユーザーはSpaceを画面の右側に開きつつ、同時にタイムラインをスクロールすることもできる。

画像クレジット:Twitter

特筆すべきは、このアップデートではアクセシビリティと文字起こしが重点項目に挙げられていることだ。オーディオのみのプラットフォームでは聴覚に障がいのある人が会話に参加するためにライブの文字起こしが欠かせない。新機能に関してTwitterが共有したスクリーンショットで、Spacesにライブキャプションが表示される様子を見ることができる。文字起こしの精度がどうなるかは、まだわからない。

2020年にTwitterは音声ツイートにキャプション機能をつけなかったことで当然の批判を受けた。Twitterのサポートは謝罪のツイートで「アクセシビリティは決して後回しにしてはいけないことです」と記した。2020年9月までに同社は2つのアクセシビリティチームを発足させた。

ライブオーディオが台頭する中、今でもアクセシビリティは後回しにされてしまうことがある。Clubhouseはまだライブキャプションに対応していない。

関連記事:どういうわけかTwitterにはアクセシビリティ専門チームがない

カテゴリー:ネットサービス
タグ:TwitterTwitter SpaceアクセシビリティClubhouse音声ソーシャルネットワーク文字起こし

画像クレジット:Twitter

原文へ

(文:Amanda Silberling、翻訳:Kaori Koyama)

Zoomの会議を自動で文字起こしできるOtter.aiの新しいアシスタント機能

AIを利用した音声文字起こしサービスのOtter.aiは、企業ユーザーが会議を簡単に記録できるようにすることを目指している。米国時間5月19日、同社は新機能のOtter Assistantを発表した。これはカレンダーに入力されているZoomミーティングに自動で参加し、会話を文字に起こし、他の参加者とメモを共有できるようにする機能だ。Otter.aiはすでにZoomと統合しているが、アシスタントは毎回自分で会議の開始時に文字起こしを有効にしたり終了時に止めたりしなくても済むように設計されている。また、会議中に参加者が質問をしたり写真などを共有するなどの共同作業もできるようになっている。

この機能は、Otter.aiの統合を直接利用できるのはZoomミーティングの主催者だけというZoomの以前の制限に引っかからずに動作する。

会議の文字起こしを自動化しようというアイデアは、コロナ禍により発生したリモートワーク環境を考えれば納得がいく。この環境で人々は仕事や育児、在宅授業などに時間を割り振ってきた。このような状況では、会議から離れ、言われたことを聞き逃してしまうこともある。これはOtter.aiが役に立つケースの1つだ。他には会議が重なっている場合、あるいは長い会議の中で自分に直接関係するトピックはごくわずかだが他のトピックをリアルタイムではなく後で確認したいといった場合にも有効だ。

関連記事:パンデミックに後押しされて会議の文字起こしサービスOtter.aiが約53億円を調達

新しいOtter Assistantを使うには、まずGoogleカレンダーまたはMicrosoftカレンダーをOtterのサービスと同期する。するとアシスタントが自動で今後のすべてZoomミーティングに参加する。透明性のため、アシスタントは1人のミーティング参加者として表示される。

文字起こしにアクセスするためのリンクがアシスタントからZoomのチャットで全員に投稿される。つまりこれは上司に知られずに会議をパスするための機能ではない。会議を文字起こしすることに全員が同意した場合に使う機能だ。

会議中に参加者はOtterのライブ文字起こしで重要な部分をハイライトしたり写真を追加したりメモをとったりすることができる。参加者は発言するのではなくコメント機能で質問をすることもできる。自分が騒がしい場所にいるときに便利だろう。

いったんアシスタントを有効にしたら、会議のたびにOtter.aiをオンにする必要はなく、会議をヘッドフォンでで聴いてもかまわない。Otter Assistantは会話の双方を録音する。

ただし、Otterのウェブサイトの「My Agenda」からOtter Assistantを会議ごとにオフにすることもできる。「My Agenda」には予定されている会議ごとにスイッチが表示される。

会議が終わったらOtter.aiの設定で参加者全員に自動で会議のメモを共有する機能もある。

Otter Assistantは1カ月20ドル(約2170円)からのアップグレードプランであるBusinessユーザーが対象で、2ファクタ認証、SOC2コンプライアンス、高度な検索、書き出し、カスタムの語彙、共有話者識別、データと支払いの一元管理などに対応している。

Otter.aiは2021年初頭に1億回の会議を文字に起こしたと述べていたが、そこからさらに増えてこれまでに1億5000万回以上になったという。同社はサブスクリプション利用者数の詳細を公開していないが、2020年に売上が8倍と大幅に増加し、2021年2月に発表された5000万ドル(約54億3500万円)のシリーズBにつながった。

関連記事
AIを利用したリアルタイム音声文字起こしサービスOtter.aiがGoogle Meetでも利用可能に
AI利用のリアルタイム英語音声文字起こし「Otter. ai」とNTTドコモが日本向け法人プラン独占販売契約
TikTokが耳が悪い人のための自動キャプション機能導入、まずは英語と日本語で
Spotifyが独占公開とオリジナルのポッドキャストに自動文字起こし機能を追加

カテゴリー:ネットサービス
タグ:Otter.ai文字起こしZoomビデオ会議アクセシビリティ

画像クレジット:Otter

原文へ

(文:Sarah Perez、翻訳:Kaori Koyama)

Spotifyが独占公開とオリジナルのポッドキャストに自動文字起こし機能を追加

Spotifyが同社サービス上のポッドキャストを文字起こしする第一歩を踏み出す。米国時間5月18日、同社はSpotify独占とオリジナルの番組で自動文字起こしをする機能の限定ベータ版をまもなく公開すると発表した。将来的には同社プラットフォームで公開されている全ポッドキャストで文字起こしができるようにすることを目指す。同社はこの発表と同時に、リーダビリティや文字サイズ変更などアクセシビリティ機能の向上もいくつか発表した。

この新しい機能によりSpotify独自の番組に自動で文字起こしが生成され、ユーザーはiOSとAndroidデバイスで音を出していてもいなくてもポッドキャストのテキストを読むことができる。

文字起こし機能はアクセシビリティの観点から有用だろう。聴覚障がい者も含めてこれまでより幅広いオーディエンスがオーディオのプログラムを利用しやすくなるからだ。そしてすべてのリスナーにとって、早送りや早戻しで探さなくても話の特定の箇所にこれまでより簡単にジャンプできるようになる。

画像クレジット:Spotify

文字起こしをスクロールし、任意のパラグラフをタップしてそのカ所からストリーミングを開始できるとSpotifyは説明している。

Spotifyが言っているようにポッドキャストライブラリすべてで文字起こし機能を利用できるようになれば、ポッドキャスターが番組の文字起こしをして自分のウェブサイトで公開する作業が必要なくなる。代わりに、Spotifyで文字起こしを利用できるとリスナーに知らせるだけでいい。しかも他社製の文字起こしアプリを使う必要がなくなり、Appleのポッドキャスト文字起こし検索にも対抗できる(Appleは最近Podcastアプリに投資して再デザインしサブスクリプションも発表したことから、文字起こしに関しても近い将来のアップデートを準備しているかもしれないと見られる)。

関連記事:アップルがポッドキャストの有料定額サービス開始を発表、米国では番組あたり約53円から

Spotifyによると、文字起こし機能は「今後数週間」以内に公開される。

Spotifyは文字起こし機能のベータ版とともに、リーダビリティの改善についても発表した。これはボタンの色やテキストの書式と大きさを調整して、ロービジョンなどの視覚障がいを持つユーザーが再生開始やシャッフル再生などアプリ内のさまざまなボタンを見やすくするための改善だ。

また、SpotifyはDynamic Typeというシステム全体のテキストサイズの変更にすでに対応しているが、今後はiOSの「設定」でテキストをさらに大きくできるようになる(「設定」→「アクセシビリティ」→「画面表示とテキストサイズ」をタップし「さらに大きな文字」を有効にしてスライダをドラッグする)。

関連記事
Spotifyがポッドキャストのタイムスタンプ付き共有など新しいソーシャルシェア機能を追加
Spotifyが米国で有料ポッドキャスト開始、2年間クリエイターの取り分は100%
フェイスブックがアプリ内でSpotifyをストリーミングできる新機能を導入、日本でも提供

カテゴリー:ネットサービス
タグ:Spotifyポッドキャスト文字起こしベータ版アクセシビリティ

画像クレジット:Getty Images

原文へ

(文:Sarah Perez、翻訳:Kaori Koyama)

マイクロソフトが2.16兆円もの巨額でNuanceを買収し医療分野に邁進

Microsoft(マイクロソフト)が米国時間4月12日朝、Nuance Communications(ニュアンス・コミュニケーションズ)を197億ドル(約2兆1600億円)で買収したとの知らせを受け、朝っぱらからこんな数字を見せられて思わず二度見してしまったとしても無理なからぬことだ。

ランレート140億ドル(約1500億円)の企業にしては、たしかに巨額ではあるが、すでにここ数年間、いくつもの製品で音声文字起こし市場のリーダーである同社と提携関係にあったMicrosoftは、Nuanceが医療分野にしっかり根を張っていることを見極め、大きく出ることを決意した。

たしかに、Microsoftほどの大企業であっても、200億ドル(約2兆1950億円)は大きい数字だ。しかし2020年、レストランから小売店から病院に至るまで、ビジネスのやり方を真剣に考え直すことが強いられた。中でも実際、パンデミックによって我々の医療機関の利用方法は大きく変わった。早々に気づいたのは、わざわざ病院までクルマを走らせ、待合室で待って、診察室に呼ばれ、結局数分間の診察で終わり、なんていう行動は不要だったということだ。

オンラインで接続して、ささっとチャットをすればすべて済む。もちろん、それでは済まない症状もある。医師の診断を直接受けなければならない状況は常に存在するわけだが、検査結果や会話療法などは遠隔で十分だ。

MicrosoftのCEOであるSatya Nadella(サティア・ナデラ)氏は、Nuanceはこの変化の、特にクラウドと人工知能の活用法の中心にあり、だからこそ、大枚を叩いてこの企業を買収したのだと話している。

「AIは、非常に重要な最優先技術であり、その活用を最も緊急に必要としているのが医療です。私たちは力を合わせ、このパートナーエコシステムを活かし、Microsoft Cloud in Healthcare(医療用クラウド)とNuanceの成長を加速させつつ、あらゆる場所の医療専門家が、よりよい意志決定ができるよう、またより有意義なつながりが構築されるよう、高度なAIソリューションを提供していきます」とナディア氏は、今回の契約発表の記事の中で述べている。

Constellation Research(コンステレーション・リサーチ)のアナリストHolger Mueller(ホルガー・ミュラー)氏は、そうかもしれないが、Cortana(コルタナ)のチャンスを逸してしまったMicrosoftは、その極めて重要なテクノロジーに追いつくための一助にこれを利用しようと考えていると話す。「NuanceはMicrosoftに、ニューラルネットワークによる音声認識のための技術的なテコ入れを行うだけでなく、垂直機能、コールセンター機能、音声に関するMSFTのIPポジションを大幅に改善させます」と彼はいう。

Microsoftは今回の提携により、すでに5000億ドル(約54兆7800億円)に達しようという途方もないTAM(獲得可能な最大市場規模)が確実になると見ている。TAMは大きめに出る傾向があるとは言え、それでも相当な数字だ。

これはGartner(ガートナー)のデータとも一致する。同社は2022年までに、医療機関の75パーセントが公式なクラウド戦略を持つようになると予測している。AIが加わればその数字はさらに増えることになり、Nuanceは現在の1万件の顧客をMicrosoftにもたらす。その中には世界最大級の医療機関も含まれている。

CRM Essentials(CRMエッセンシャルズ)の創設者で主任アナリストのBrent Leary(ブレント・リアリー)氏は、この提携により、Microsoftには大量の医療データが提供され、それが同社の根底をなす機械学習モデルにフィードされ、やがてその精度を高めていく可能性があると語っている。

「遠隔医療のやりとりで、大量の医療データが収集可能となり、それがまったく新しいレベルの医療情報を生み出すことになります」とリアリー氏は私に話した。

医療データが関係するところでは、当然、プライバシーの問題が多発するだろう。極めてプライベートな医療データをしっかり守ると世間に確約するのは、2021年3月、Exchange(エクスチェンジ)メールサーバーでの大量のデータ流出を起こしたMicrosoftの責任にかかってくる。

関連記事:ハッカーたちが脆弱なExchangeサーバーを悪用してランサムウェアをばらまいている

今回の提携の成功を決める鍵は、データのプライバシー保護が握っているとリアリー氏はいう。「この動きのポテンシャルは極めて高いのですが、そこからもたらされるデータや知見が安全に保護されて初めて成功します。ハッカーだけではなく、非倫理的な利用からも守らなければなりません。そのどちらにも、ゲームチェンジにつながる可能性のあるこの動きを脱線させてしまう恐れがあります」と彼は話す。

Microsoftも「NuanceとMicrosoftは、パートナーエコシステムを拡大させるという両社の以前からの約束とデータのプライバシー、セキュリティ、コンプライアンスに関する最高水準の基準をさらに深めます」と書いている時点で、それは認識しているようだ。

Forrester Research(フォレスター・リサーチ)のKate Leggett(ケイト・レゲット)氏は、医療は第一歩に過ぎず、Nuanceがひとたびそこに足場を作れば、さらに奥深くに進んで行く可能性があると考えている。

「しかし、今回の買収による恩恵は医療にとどまりません。Nuanceも、深い専門性に支えられ、金融サービスなどの垂直部門にフォーカスした、市場をリードする顧客エンゲージメント技術を提供します。MSFTが業務用から他の垂直市場に移行するにつれ、他の業界に恩恵をもたらすようになります。MSFTが業務用はまた、Dynamics(ダイナミクス)ソリューションとNuanceの顧客エンゲージメント技術との隙間を埋める方向に進むでしょう」とレゲット氏はいう。

今後の医療機関の診療のかたちがどう変化するか、私たちはまさにその潮の変わり目に立ち会っている。2020年、新型コロナウイルスによって医療はデジタル世界に大きく踏み込むこととなった。それは、1つの簡単な理由から起きた。本当に必要でない限り、病院へ行くのは危ないという考えだ。

Nuanceの買収は、2021年後半に完了するものと見られるが、これによりMicrosoftの医療市場への参入が大きく進むことになる。Teams(ティームズ)も面接ツールとして導入される可能性があるが、それはこのアプローチを人々がどれほど信頼するかにかかっている。そしてそれは、Microsoftが医療提供者とその利用者の両方からの信頼をいかに獲得するかにかかっている。

関連記事:マイクロソフトが過去2番目規模で文字起こし大手Nuance Communications買収、ヘルスケア分野のクラウドを強化

カテゴリー:ヘルステック
タグ:MicrosoftNuance Communications買収文字起こし医療遠隔医療

画像クレジット:nadia_bormotova / Getty Images

原文へ

(文:Ron Miller、翻訳:金井哲夫)

マイクロソフトが過去2番目規模で文字起こし大手Nuance Communications買収、ヘルスケア分野のクラウドを強化

Microsoft(マイクロソフト)は米国4月12日、文字起こしソフト大手Nuance Communications(ニュアンス・コミュニケーションズ)を197億ドル(約2兆1500億円)で買収すると発表した。両社が交渉中だとBloombergが週末に報じていた

取引を発表した投稿の中で、Microsoftはこの買収によりNuanceが近年業績を上げているあげているヘルスケア分野で存在感を高める、と述べている。実際、Microsoftはヘルスケア分野のクラウド事業を2020年発表しており、今回の買収で加速させる。この分野におけるNuanceのプロダクトにはDragon Ambient eXperience、Dragon Medical One、放射線レポート用のPowerScribe Oneなどがある。

「本日の買収の発表はMicrosoftの特定産業のクラウド戦略における最新のステップです」と同社は述べている。買収はまた、ここ数年の両社の統合と提携の結果でもある。

ウェブサイトにある情報によると、Nuanceは1万ものヘルスケアの顧客を抱えている。いくつか挙げると、AthenaHealth、Johns Hopkins、Mass General Brigham、Cleveland Clinicなどだ。そうした顧客ベースに惹かれ、MicrosoftはNuanceを取り込もうと上記の額を払った。

NuanceのCEOであるMark Benjamin(マーク・ベンジャミン)氏は社に残り、Microsoftのクラウド・AIグループ担当エグゼクティブバイスプレジデントであるScott Guthrie(スコット・ガスリー)氏の下に就く。

Nuanceは複雑な過去を持っている。2000年に上場し、2001年にLernout HauspieのDragon Dictateなど音声認識プロダクトの買収を開始した。そして2005年にScanSoftという企業と合併した。ScanSoftはVisioneerという社名で1992年にスキャニングの会社として始まった。

本日、Nuanceは1990年代初めから提供してきた消費者・事業者向けのテキスト読み上げ製品であるDragon Dictateを含め、数多くのプロダクトを展開している。音声認識、チャットボット、そしてヘルスケア分野などに特化した自然言語処理も扱っている。

同社は27カ国に従業員6000人を抱える。2020年11月に発表した2020年第4四半期の決算では、売上高は3億5290万ドル(約386億円)で、前年同期の3億8760万ドル(約424億円)から微減だった。それは同社が望む方向性ではなかったが、それでもランレートは14億ドル(約1531億円)超だ。

決算発表時に、同社は医学記録転写と電子カルテ(EHR)のGo-LiveサービスをAssured Healthcare PartnersとAeries Technology Groupに売却すると発表した。ベンジャミン氏は、売却することで主力のスピーチサービスに専念できると述べた。

「この売却で、当社の自然言語の理解と環境知性ソリューションであるConversational AIを高度化する戦略にこれまで以上に注力するという取り組みにおける重要なマイルストーンを達成します」とベンジャミン氏は声明で述べていた。

Microsoftがすでに、WindowsとAzureでのデスクトップ文字起こしサービスを含む数多くの音声認識とチャットボットのプロダクトを持っていることは特筆に値する。しかし同社はマーケットリーダーであるNuanceを買収し、ヘルスケア分野をさらに強化することに賭けた。

買収はすでに両社の取締役会に承認されていて、2021年末までの取引完了を見込んでいるとMicrosoftは話している。ただし、当局の審査とNuanceの株主の承認次第だ。

今回の買収はMicrosoftにとってこれまでで2番目に大きなもので、過去最大の取引は2016年の262億ドル(約2兆8657億円)でのLinkedIn買収だ。

カテゴリー:ソフトウェア
タグ:MicrosoftNuance Communications買収文字起こし

画像クレジット:Ron Miller/TechCrunch

原文へ

(文:Ron Miller、翻訳:Nariko Mizoguchi

TikTokが耳が悪い人のための自動キャプション機能導入、まずは英語と日本語で

TikTok(ティクトック)は米国時間4月6日、難聴あるいは耳が聞こえない人がアプリを利用しやすいようにする新たな機能の導入を発表した。自動キャプションだ。この新機能を立ち上げると、動画の話し言葉を自動で文字起こしを行い、視聴者は動画の音声を聴く代わりに読むことができる。さしあたって自動キャプションはアメリカ英語と日本語で提供され、今後数カ月以内に他の言語にも対応すると同社はいう。

自動キャプションを使うには、クリエイターは動画をアップロードあるいは撮影した後に編集ページでオプションを選択する。すると、動画が公開される前に間違いを修正するために生成されるテキストを編集することができる。

画像クレジット:TikTok

自動キャプションは主にアクセシビリティのためにデザインされているが、TikTokの動画を音声なしに視聴したい人の役にも立つ。たとえば邪魔をしたくない人が近くにいるが、ヘッドフォンがない場合などだ。また、動画内で話されている言語がよくわからない場合にも活用でき、話されている言葉が読めるようになることで内容を理解しやすくなる。

TikTokコミュニティの多くがすでに動画にテキストを加えたり、サードパーティーのサブタイトルツールを使ったりしてキャプショニングを行っている。スクリーンのテキストをSiriのような声で読み上げるテキスト音声化もクリエイターの間で人気のテクニックだ。

しかし自動キャプションツールは既存のオプションとは動作が異なる。というのも、視聴者がオンにしたりオフにしたりできるからだ。つまり、もしあなたが望まなければ動画のキャプションを見なくてもよいことを意味する。キャプションなしにするには、シェアパネルを開き、キャプションボタンをタップしてオフにする。

画像クレジット:TikTok

自動キャプションの立ち上げでTikTokは、クリエイターが簡単にそして自動的にキャプションを動画に加えられるツールをすでに提供しているYouTubeFacebookそしてInstagramといった他のソーシャルアプリの仲間入りする。

幅広いオーディエンスにアクセスできる動画制作を推進するための新しいツールがクリエイターコミュニティの間でクチコミで広がるように取り組むとTikTokは話す。

自動キャプションは、TikTokが立ち上げたいくつかのアクセシビリティ機能の1つだ。その他のものとしては、クリエイターが光過敏性てんかんを引き起こし得る動画を制作したときのクリエイターへの警告や、ユーザーが光に反応するコンテンツをスキップできるようにするフォトセンシティビティ機能がある。TikTokはまたテキスト音声化機能と、アニメーションサムネイルを静止画に置き換える機能も提供している。

TikTokは、耳が聞こえない人、そして耳が聞こえない人のコミュニティで行われている会話に対する意識を高めるためにThe Deaf Collective(聴覚障害者団体)と協力してきた。そして現在、改善すべき他のエリアがないか、アクセシビリティ評価を実施していると話している。

関連記事:TikTokにてんかん発作につながる動画を避ける新機能追加

カテゴリー:ネットサービス
タグ:TikTokアクセシビリティ文字起こし聴覚

画像クレジット:Lionel Bonaventure / Getty Images

原文へ

(文:Sarah Perez、翻訳:Nariko Mizoguchi

AI利用のリアルタイム英語音声文字起こし「Otter. ai」とNTTドコモが日本向け法人プラン独占販売契約

AI利用のリアルタイム英語音声文字起こし「Otter.ai」が日本上陸、NTTドコモが法人向けプラン独占販売

NTTドコモ(ドコモ)は、英語音声を自動で文字起こしをする音声認識AIサービス「Otter」(Android版iOS版)のBusinessプラン販売について、日本における2年間の独占販売契約をOtter.aiと締結し、販売を開始したと発表した。Otter Businessプランを利用したい企業は、ドコモを通じて契約することで日本円での請求書払いが選択可能となる。利用料金は、1アカウント税込3万3000円/年(年間契約のみ)。

また同社は、100%子会社NTTドコモ・ベンチャーズを通じ、Otter.aiに2021年3月に追加出資すると明らかにした。

Otter Businessプランでは、無料プランで提供する主要機能に加え、機能を使用できる。

  • Zoomミーティング/ウェビナーではアプリ間連携により、参加者全員の音声文字起こしが可能(Zoomミーティング/ウェビナーでアプリ連携をする場合、Zoom Proプラン以上の契約が必須)
  • 会話録音データの一元管理が可能
  • チーム内での固有名詞/人名単語登録、およびその共有が可能
  • チーム内でユーザーの音声識別情報を相互共有、およびその情報に基づく話者分類が可能
  • 使用状況に関する統計レポートの確認が可能
  • SSO認証の適応が可能(適応条件:使用者数100名以上)

今後は、自動翻訳アプリ「はなして翻訳」で培った音声翻訳のノウハウを持つドコモ、精度の高い文字起こし技術を持つOtter.aiに加え、TOEIC960点相当の機械翻訳サービス「Mirai Translator」を提供するみらい翻訳の3社で連携し、より高度なサービス提供に向けた検討を進めるとしている。

ドコモとドコモ・ベンチャーズは、今回の契約を足がかりに、Otter.aiと協力して日本市場における文字起こしの新規マーケット開拓、サービス開発、様々なパートナーとの連携強化を推進する。

AI利用のリアルタイム英語音声文字起こし「Otter.ai」が日本上陸、NTTドコモが法人向けプラン独占販売

Otterは、AI技術を活用し、PCやスマートフォンで録音した英語音声をリアルタイムでテキスト化するサービス。前後の文脈に合わせて文章を自動修正しながらリアルタイムかつ精度の高い文字起こしを行えるほか、発話者の音声識別、複数の発話者と内容をセットでデータ化することなども可能。

英語での会議や講演会、インタビューなどの議事録やレポートの作成時間を大幅に削減でき、さらに録音した会話やそのテキストを用いた振り返りなども行える。

主な機能

  • 前後の文脈に合わせて文章を自動修正しながらリアルタイムに精度の高い文字起こしが可能
  • リッチノート機能により、画像挿入、文字編集、ハイライト操作が可能
  • ユーザーの音声をAIが学習して話し手を明確に識別し、ラベリングして記録
  • 直感的な操作による議事録(会話音声)データの共有が可能

関連記事
パンデミックに後押しされて会議の文字起こしサービスOtter.aiが約53億円を調達
AIを利用したリアルタイム音声文字起こしサービスOtter.aiがGoogle Meetでも利用可能に
Zoom会議のリアルタイム文字起こし機能をOtter.aiが提供
AIを使った音声テキスト変換アプリOtterがNTTドコモなどから戦略的投資10億円獲得

カテゴリー:ソフトウェア
タグ:AI / 人工知能(用語)NTTドコモ(企業)NTTドコモ・ベンチャーズ(企業)Otter.ai(企業・サービス)音声認識 / Voice Recognition(用語)みらい翻訳(企業)文字起こし / Transcribe(用語)自然言語処理(用語)日本(国・地域)

議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開

議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開

人工知能(AI)を搭載したサービスの資料請求ができるAIポータルメディア「AIsmiley」を運営するアイスマイリーは3月8日、議事録自動作成用AIツールをまとめた「議事録作成AIカオスマップ」を公開した。掲載数は合計26サービス。

議事録自動作成用AIツールは、時間と労力がかかる議事録の文字起こしを、AIが代行してくれるというもの。AIが人の声を認識してテキストデータ化したり、複数の言語間を自動的に翻訳しテキスト化するといった技術の導入が進んでいる。

録音された音声を聞きながら文章として構成するのは楽な作業ではなく、場合によっては聞き間違いや聞き漏らしなどのミスも発生する。

間違いの修正など時間のロスを最小限に留め、より効率的に議事録を作成するための方法として最近注目されているのが、音声認識機能を活用した議事録自動作成のAIツールという。

ただ議事録作成AIには、ツールによって機能や実現できる内容に違いがあり、自社の課題は何か、どんな結果を実現したいのかという観点から、ツールごとの違いを比較検討することが重要としている。

また、議事録作成AIは、録音した音声から文字起こしを行うものと、リアルタイムで音声の文字起こしをするもの、日本語のみ対応・多言語対応といった違いもある。活用シーンによって選択すべきツールも異なるそうだ。

議事録作成AIカオスマップは、「議事録作成AIを試したい」企業や「議事録作成を行う最新のAIツールを探している」企業に向け、26の製品サービスを取りまとめ、マッピングしたもの。「大サイズの議事録作成AIカオスマップ(PDF)」と「議事録作成AIベンダー一覧(Excel)」が必要な場合は、問い合わせフォームから連絡することで入手できる。

関連記事
マイクロソフトが会議で文字起こしや翻訳を行うアプリ「Group Transcribe」を発表
現場状況を遠隔地と共有可能な「コネクテッドワーカーソリューション」のフェアリーデバイセズが10.2億円調達
アマゾンがEchoデバイスを使った「ライブ翻訳」機能をローンチ
LINEがOpenAI「GPT」・Google「T5」同様の超巨大汎用言語モデルをNAVERと共同開発、世界初の日本語特化
日本語に特化したAI文字起こしサービス「Rimo Voice」が登場、1時間の保存音声を最短5分でテキスト化
発言者ごとの文字起こし・議事録作成可能な「Sloos」がマイクロソフトの法人向けアプリストアで提供開始
マイクロソフトやアマゾンが音声認識チップの新興メーカーSyntiantに出資
会議や講演の音声をAIで自動的に文字起こしする「Smart書記」が8500万円を調達
AIを使った音声テキスト変換アプリOtterがNTTドコモなどから戦略的投資10億円獲得

カテゴリー:人工知能・AI
タグ:アクセシビリティ(用語)AI / 人工知能(用語)音声認識 / Voice Recognition(用語)カオスマップ(用語)機械翻訳(用語)自然言語処理(用語)文字起こし / Transcribe(用語)日本(国・地域)

Zoomでの会話を自動で文字起こしする難聴者の新しいスタートアップ「Scribe」

Optimizely(オプティマイズリー)の共同創業者Dan Siroker(ダン・シロカー)氏は、自身の新しいスタートアップScribe(スクライブ)のアイデアはいくつかの個人的な体験に端を発していると話した。そして、Scribeの初のプロダクトはZoom(ズーム)にフォーカスしているが、そうした個人的な体験はまったくZoomに関連していなかったとも述べた。

シロカー氏は、耳が聞こえなくなり始め、補聴器を装着した時に初めて「ひらめき」を得て、失うだろうと思っていた聴覚が回復したことを回想した。

「それは本当に、体が自然に失うものを増強するための機会について考えさせる閃光でした」と話した。

また同氏は、特に自身がアファンタジア(頭の中に視覚的イメージを描けないこと)を抱えていて、それは「特定の物事を記憶しておくことを難しく」するため、記憶は明らかな増強するものの候補だったと付け加えた。

シロカー氏が2010年にPete Koomen(ピート・クーメン)氏とOptimizelyを設立し、2017年にCEO職から退き、そして同スタートアップが2020年Episerverに買収されたと書くと、思い出す人もいるかもいるかもしれない(そしていまEpiserverそのものがOptimizelyにブランド変更されている)。

関連記事
A/Bテストで一世を風靡したOptimizelyをマーケター向けコンテンツ管理ツールのEpiserverが買収
Episerverはより有名な買収したOptimizelyの名称を会社全体で使用すると発表

早送りして現在に目を向けると、シロカー氏はいまScribeのCEOだ。同社は初のプロダクトのサインアップを受け付けている。そのプロダクトをZoomミーティングに統合すると、ミーティングを検索可能なものに、そして筆記録をシェアできるものに変える。

シロカー氏は筆者とのZoomコールの際にそれをデモンストレートしてみせてくれた。Scribeはミーティングに追加の参加者として現れ、リアルタイムの筆記録を作成しながら録画と録音をする。ミーティングの間、あるいは終了後にユーザーは筆記録を編集したり、録画の関連する部分を視聴したり、重要な箇所にハイライトをつけたりできる。

テクノロジー的な視点からいうと、これらはすべて飛躍的な前進ではなさそうだ。しかし筆者はエクスペリエンスのシームレスさに感激した。追加の参加者を加えるだけで、フル録画でき、後にそしてこの記事を書く間にも確認するのに使える検索可能な会話の筆記録を手にすることができた。

画像クレジット:Scribe

Scribeはミーティングを録画するが、テープレコーダーというよりノート取りの代わりであって欲しいとシロカー氏は話した。

「あなたと私がミーティングにいて、私がペンと紙を持ってそのミーティングに参加し、あなたが言っていることを紙に書きます。それは完全に社会的に受け入れられることです。ある意味、相手を喜ばせるものでもあります。その代わり、テープレコーダーを持ち込んであなたの前にどすっと置いて録音を始めると、もしかするとこうした経験を持っているかもしれませんが、それはかなり異なるもののように感じます」。

シロカー氏の主張の要点は、Scribeのレコーディングと筆記録は編集でき、いつでも個々の構成要素をオンにしたりオフにしたりできるということだ。

「これは永久記録ではありません。ミーティングを持つ時のように作る、ちょうどGoogle Docのような共有アーティファクトで、いつでも戻って変更を加えられます」。

とはいえ、Scribeが恥ずかしいコメントを録音することは可能で、録音はミーティング参加者をトラブルに陥れる事態を引き起こすかもしれない(結局、リークされた企業のミーティング録音は数多くの刺激的なニュースになってきた)。シロカー氏はそれが「一般的ではない」ことを望んでいるが、もし時々起こるとすればある種のさらなる透明性と責任を生み出すかもしれないと主張する。

ScribeはOpenAIのCEO、Sam Altman(サム・アルトマン)氏がリードしたラウンド、そしてFirst Round Capitalがリードしたラウンドで計500万ドル(約5億4000万円)を調達した。

画像クレジット:Scribe

シロカー氏は、ZoomをScribeにとって単に「上陸拠点」としてとらえていると筆者に語った。次に同社はGoogle MeetやMicrosoft Teamsのようなプロダクトのサポートを追加する。ゆくゆくは、組織のための新たな「集合精神」の構築を同氏は望んでいる。そこでは、会話や知識が検索可能なためにみんなが「よりスマートで向上している」。

「どこで考えるかに本当に左右されるものを追求するところでは、我々は最大のポジティブな影響を人々の暮らしにもたらすことができます」と同氏は述べた。「配偶者と交わす個人的な会話に適用するのは難しいですが、価値とプライバシーとコントロールの正しいバランスを求めれば、実際にはウィンウィンの方法でこれを人々に浸透させることができるかもしれません」。

そしてもしScribeが幅広いコンテクストにある情報を我々が記録したり思い起こしたりするのをサポートするというミッションを実際に達成すれば、我々の物事を記憶するという自然な能力に影響を及ぼすのではないか。

「イエスというのが答えで、それはオーケーだと思います」とシロカー氏は答えた。「あなたの脳のエネルギーは限られています。何週間か前に誰かが言ったことを覚えておくことは、コンピューターでもできることです。それを行うのになぜあなたの大事な脳のサイクルを無駄遣いするのでしょうか」。

カテゴリー:ソフトウェア
タグ:Scribeビデオ会議Zoom文字起こし資金調達

画像クレジット:P Getty Images

原文へ

(文:Anthony Ha、翻訳:Nariko Mizoguchi

マイクロソフトが会議で文字起こしや翻訳を行うアプリ「Group Transcribe」を発表

Microsoft(マイクロソフト)の社内インキュベーターであるMicrosoft Garage(マイクロソフト ガレージ)から、会議の文字起こしに使える新たなプロジェクトが発表された。

現在、リアルタイムで文字起こしが行えるスマートフォン用アプリはいくつかある。例えば「Otter.ai(オッターエーアイ)」や、Google(グーグル)のPixel(ピクセル)デバイス向け「Recorder(レコーダー)」などだ。だが、Microsoftが新たに発表した「Group Transcribe(グループ トランスクライブ)」は、会議の文字起こしを共同作業的なプロセスとして再構築し、全員が同時に自分のデバイスで会議を記録することで、精度を高めるというものだ。このアプリは、80以上の異なる地域で話されている言語をリアルタイムで翻訳する機能も備わる。

アプリを使用するには、まず1人が自分のデバイスで会議を開始する。続いてBluetooth、スキャン可能なQRコード、またはリンクを共有することで、他の出席者に参加を呼びかける。他の出席者が参加して会議が始まると、各人はリアルタイムで文字起こしされる会議の記録を自分のデバイスで見ることができる。

画像クレジット:Microsoft

AI音声言語技術を搭載したこのアプリは、会議で使用されている各人の携帯電話のマイクが捉えた話し手の声量に基づいて、より精度の高い書き起こしと話し手の識別を行うことができるという。

各出席者の声量レベルを比較することで、どの端末が話し手に最も近いか、そしてその話し手が好む言語を、クラウドサービスが判断する。つまり、このアプリでは、誰が話したのかというラベルづけも正確に行うことができる。これは1人しか記録していない他の文字起こしアプリが不得意とすることだ。

さらに、会議の参加者が自分の母国語で話したい場合は、このアプリが他の参加者のデバイスに、各人の言語に翻訳して文字化したものを提供することも可能だ。

画像クレジット:Microsoft

Microsoftによると、このアプリはアクセシビリティも考慮して設計されており、聴覚障害者や難聴者、非ネイティブスピーカーの人でも、リアルタイムの文字化や翻訳を通して、より積極的に会議に参加することが容易になるという。

このプロジェクト自体が、全員合わせると十数種類のさまざまな言語や方言を話すMicrosoftの従業員たちによって構築されたものだ。

「これはコミュニケーションのためのすばらしいツールになり得ます。私が是非とも確かめたいことは、このアプリが異なる言語を話す人々の間にある壁を打ち破るためのものであるということです」と、主任開発責任者のFranklin Munoz(フランクリン・ムノス)氏は、このプロジェクトを発表する際に語っている。

多くのクラウドベースの文字起こしサービスと同様、このアプリは機密性の高い会議には使用するべきではない。しかし、Microsoftはこのデータとプライバシーコントロールをグラニュラ(粒状)化し、ユーザーは会話データを共有したい相手や時間を決めることができる。

画像クレジット:Microsoft

収集された音声とテキストの入力データは、機能を実行するためにMicrosoftのオンライン音声認識および翻訳技術に送られるが、本名ではなくランダムに生成された識別子が使用される。

Microsoftが会議の文字起こしデータや音声記録を保存することはないが(ユーザーのデバイスに保存される)、サービス改善のために参加者が会議の記録をMicrosoftに「寄与」することを、このアプリは奨励している。

会議の参加者全員が同意した場合、Microsoftは音声と音声認識で生成されたテキストの文字起こしを保持することができる。Microsoftはこのデータを見直すことで、音声認識と話者属性の機能を時間をかけて改善していくことを目指していると言っている。ユーザーデータはその後、Microsoftの従業員やMicrosoft社に勤務する他社の契約社員が、秘密保持契約の下でアクセスできるようになるが、発言者のアカウント情報は一切含まれない。

レビュアーがアクセスできるのはランダムな音声の断片のみで、完全な録音ではない。また、Microsoftによると、例えばクレジットカード番号や電話番号などを表す長い数字の文字列は削除することで、会議の録音を「非識別化」しているとのこと。ユーザーは過去に共有した録音をいつでも削除することができるが、それ以外の場合は暗号化されたサーバーに最大2年間保存されると、Microsoftは述べている。

企業で使用する場合、管理者レベルですべてのユーザーを「寄与」に設定したりブロックしたりする方法はないので、このようなサービスの利点とリスクを慎重に検討する必要があるだろう。また、これはMicrosoft Garageのプロジェクトであり、つまり実験的なものであって、いつでも閉鎖される可能性がある。

現在、このGroup TranscribeアプリはiOSのみで利用可能だ。

カテゴリー:ソフトウェア
タグ:Microsoftアプリ機械翻訳文字起こし

画像クレジット:Microsoft

原文へ

(文:Sarah Perez、翻訳:Hirokazu Kusakabe)