マイクロソフトが会議で文字起こしや翻訳を行うアプリ「Group Transcribe」を発表

Microsoft(マイクロソフト)の社内インキュベーターであるMicrosoft Garage(マイクロソフト ガレージ)から、会議の文字起こしに使える新たなプロジェクトが発表された。

現在、リアルタイムで文字起こしが行えるスマートフォン用アプリはいくつかある。例えば「Otter.ai(オッターエーアイ)」や、Google(グーグル)のPixel(ピクセル)デバイス向け「Recorder(レコーダー)」などだ。だが、Microsoftが新たに発表した「Group Transcribe(グループ トランスクライブ)」は、会議の文字起こしを共同作業的なプロセスとして再構築し、全員が同時に自分のデバイスで会議を記録することで、精度を高めるというものだ。このアプリは、80以上の異なる地域で話されている言語をリアルタイムで翻訳する機能も備わる。

アプリを使用するには、まず1人が自分のデバイスで会議を開始する。続いてBluetooth、スキャン可能なQRコード、またはリンクを共有することで、他の出席者に参加を呼びかける。他の出席者が参加して会議が始まると、各人はリアルタイムで文字起こしされる会議の記録を自分のデバイスで見ることができる。

画像クレジット:Microsoft

AI音声言語技術を搭載したこのアプリは、会議で使用されている各人の携帯電話のマイクが捉えた話し手の声量に基づいて、より精度の高い書き起こしと話し手の識別を行うことができるという。

各出席者の声量レベルを比較することで、どの端末が話し手に最も近いか、そしてその話し手が好む言語を、クラウドサービスが判断する。つまり、このアプリでは、誰が話したのかというラベルづけも正確に行うことができる。これは1人しか記録していない他の文字起こしアプリが不得意とすることだ。

さらに、会議の参加者が自分の母国語で話したい場合は、このアプリが他の参加者のデバイスに、各人の言語に翻訳して文字化したものを提供することも可能だ。

画像クレジット:Microsoft

Microsoftによると、このアプリはアクセシビリティも考慮して設計されており、聴覚障害者や難聴者、非ネイティブスピーカーの人でも、リアルタイムの文字化や翻訳を通して、より積極的に会議に参加することが容易になるという。

このプロジェクト自体が、全員合わせると十数種類のさまざまな言語や方言を話すMicrosoftの従業員たちによって構築されたものだ。

「これはコミュニケーションのためのすばらしいツールになり得ます。私が是非とも確かめたいことは、このアプリが異なる言語を話す人々の間にある壁を打ち破るためのものであるということです」と、主任開発責任者のFranklin Munoz(フランクリン・ムノス)氏は、このプロジェクトを発表する際に語っている。

多くのクラウドベースの文字起こしサービスと同様、このアプリは機密性の高い会議には使用するべきではない。しかし、Microsoftはこのデータとプライバシーコントロールをグラニュラ(粒状)化し、ユーザーは会話データを共有したい相手や時間を決めることができる。

画像クレジット:Microsoft

収集された音声とテキストの入力データは、機能を実行するためにMicrosoftのオンライン音声認識および翻訳技術に送られるが、本名ではなくランダムに生成された識別子が使用される。

Microsoftが会議の文字起こしデータや音声記録を保存することはないが(ユーザーのデバイスに保存される)、サービス改善のために参加者が会議の記録をMicrosoftに「寄与」することを、このアプリは奨励している。

会議の参加者全員が同意した場合、Microsoftは音声と音声認識で生成されたテキストの文字起こしを保持することができる。Microsoftはこのデータを見直すことで、音声認識と話者属性の機能を時間をかけて改善していくことを目指していると言っている。ユーザーデータはその後、Microsoftの従業員やMicrosoft社に勤務する他社の契約社員が、秘密保持契約の下でアクセスできるようになるが、発言者のアカウント情報は一切含まれない。

レビュアーがアクセスできるのはランダムな音声の断片のみで、完全な録音ではない。また、Microsoftによると、例えばクレジットカード番号や電話番号などを表す長い数字の文字列は削除することで、会議の録音を「非識別化」しているとのこと。ユーザーは過去に共有した録音をいつでも削除することができるが、それ以外の場合は暗号化されたサーバーに最大2年間保存されると、Microsoftは述べている。

企業で使用する場合、管理者レベルですべてのユーザーを「寄与」に設定したりブロックしたりする方法はないので、このようなサービスの利点とリスクを慎重に検討する必要があるだろう。また、これはMicrosoft Garageのプロジェクトであり、つまり実験的なものであって、いつでも閉鎖される可能性がある。

現在、このGroup TranscribeアプリはiOSのみで利用可能だ。

カテゴリー:ソフトウェア
タグ:Microsoftアプリ機械翻訳文字起こし

画像クレジット:Microsoft

原文へ

(文:Sarah Perez、翻訳:Hirokazu Kusakabe)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。