AIを使った音声テキスト変換アプリOtterがNTTドコモなどから戦略的投資10億円獲得

AIを使った音声のテキスト変換アプリであり会議メモ担当者の友、Otter.ai(オッター・エーアイ)は、日本の大手モバイル通信業者であり新しいパートナーとなったNTTドコモから戦略的投資を受けた。この2つの企業は、共同でOtterを日本市場に送り込む計画を立てている。ドコモは、Otterを独自のAIベースの翻訳サービス子会社Mirai Translation(みらい翻訳)と統合して、正確な英語の書き起こしと、日本語への翻訳を行う予定だ。

この投資は、ドコモの100パーセント子会社であるNTTドコモ・ベンチャーズによるものだが、その額は公表されていない。しかし、この新規ラウンドは総額で1000万ドル(約10億900万円)になるとのこと。現在までにOtterは、NTTドコモ・ベンチャーズ、Fusion Fund、GGV Capital、Draper Dragon Fund、Duke University Innovation Fund、Harris Barton Asset Management、Slow Ventures、Horizons Venturesなどから2300万ドル(約25億円)を調達している。

Otterは、2018年、音声による会話の検索サービスを開始し、今では電子メールやテキストを簡単に検索できるまでになっている。OtterのCEOで創設者のSam Liang(サム・リアン)氏はGoogle、Facebook、Nuance、Yahoo! さらにスタンフォード大学、MIT、ケンブリッジ大学などとともに、会議やインタビュー、プレゼン、講義などで話された言葉を聞き取る専用の技術を開発してきた。これは、人と人の間で交わされる自然な会話での長めの文章をテキスト化するもので、現在使われているGoogleアシスタントやSiri、Alexaなどの音声アシスタントとは別種の技術だ。

この製品は、人の話をリアルタイムで音声をテキスト化する。テキスト化された文章は検索が可能で、話している人やキーワードも特定できる。録音した音声と一緒に写真もアップロードできる。

サービス開始以来、Otterはその製品を数百万のユーザーに広め、現在は企業向けのOtter fot Teamsサービスも提供している。

NTTドコモとの新たな提携関係では、グループで使える企業向けサービスの日本市場参入を目指すとリアン氏は話している。彼は、元Googleのアーキテクトで、位置情報アプリAlohar Mobileのスタートアップをアリババに売却した経歴を持つ。

「NTTドコモなどの大企業は、国際会議の必要性から英語でのコミュニケーションが可能な国際的な人材を多く抱えています」とリアン氏。「彼らはOtterを使えば、自動的に議事録がつけられるようになり、会議やコミュニケーションの効率化が図れます。[中略]目標は、Otterの英語自動議事録サービスを基本にして、コミュニケーションとコラボレーションの機能をさらに強化することです」

Otter.aiは、Zoom Video Communications(ズーム・ビデオ・コミュニケーションズ)やDropboxといったアメリカ企業とも同様の提携をしている。

今回の提携における成果のひとつとして、OtterのVoice Meeting Notes(音声議事録)が、日本のベルリッツ・コーポレーションの英会話教室で試験導入される。生徒はOtterを使って会話をテキスト化し、レッスンの復習ができる。テキストをクリックすれば、音声の再生もできる。さらにNTTドコモ、Otter.ai、ベルリッツは、英語教育にその協力関係を拡大し、英語学習をOtterでどれだけ効率化できるかを検証すると、話していた。

「日本市場は、高品質で詳細な議事録を求めており、OtterのAIを使った非常に正確な文書化機能は、言葉の壁を取り除き、日本企業のグローバル事業の効率性を高めます」と、NTTドコモのR&D戦略部長でイノベーション統括部長兼務、執行役員の大野友義氏は、今回の契約に関する声明の中で述べている。「Otter.aiとNTTドコモの翻訳サービスには、大きな市場機会があります」

NTTドコモはまた、東京ビッグサイトで1月23日と24日に開催されるDOCOMO Open House 2020で、Otterのデモンストレーションを行う。そこではOtterが英語をリアルタイムでテキスト化し、NTTドコモの機械翻訳技術を使って日本語化する。テキスト化された英語と翻訳された日本語が大きな画面に表示され、来場者が読めるようにする。

Otterのテキスト化機能は、周囲が騒がしかったり、話し手の声がくぐもっていたりするといった現実の現場では完璧性は失われるが、大きなイベント会場でも、音源から直接入力できる設備があれば精度は上がる(TechCrunchでも、TechCrunch DisruptでOtterのサービスを利用し音声をテキスト化したことがある)。

今回調達した資金は、技術者の増員と、音声認識、ダイアライゼーション、話者の識別、自動要約のためのAI技術の強化にも使われると、リアン氏はTechCrunchに話してくれた。さらに彼らは、業務用サービス、メディア、教育分野の企業顧客の獲得を加速する考えだ。

[原文へ]
(翻訳:金井哲夫)