AIを使った音声テキスト変換アプリOtterがNTTドコモなどから戦略的投資10億円獲得

AIを使った音声のテキスト変換アプリであり会議メモ担当者の友、Otter.ai(オッター・エーアイ)は、日本の大手モバイル通信業者であり新しいパートナーとなったNTTドコモから戦略的投資を受けた。この2つの企業は、共同でOtterを日本市場に送り込む計画を立てている。ドコモは、Otterを独自のAIベースの翻訳サービス子会社Mirai Translation(みらい翻訳)と統合して、正確な英語の書き起こしと、日本語への翻訳を行う予定だ。

この投資は、ドコモの100パーセント子会社であるNTTドコモ・ベンチャーズによるものだが、その額は公表されていない。しかし、この新規ラウンドは総額で1000万ドル(約10億900万円)になるとのこと。現在までにOtterは、NTTドコモ・ベンチャーズ、Fusion Fund、GGV Capital、Draper Dragon Fund、Duke University Innovation Fund、Harris Barton Asset Management、Slow Ventures、Horizons Venturesなどから2300万ドル(約25億円)を調達している。

Otterは、2018年、音声による会話の検索サービスを開始し、今では電子メールやテキストを簡単に検索できるまでになっている。OtterのCEOで創設者のSam Liang(サム・リアン)氏はGoogle、Facebook、Nuance、Yahoo! さらにスタンフォード大学、MIT、ケンブリッジ大学などとともに、会議やインタビュー、プレゼン、講義などで話された言葉を聞き取る専用の技術を開発してきた。これは、人と人の間で交わされる自然な会話での長めの文章をテキスト化するもので、現在使われているGoogleアシスタントやSiri、Alexaなどの音声アシスタントとは別種の技術だ。

この製品は、人の話をリアルタイムで音声をテキスト化する。テキスト化された文章は検索が可能で、話している人やキーワードも特定できる。録音した音声と一緒に写真もアップロードできる。

サービス開始以来、Otterはその製品を数百万のユーザーに広め、現在は企業向けのOtter fot Teamsサービスも提供している。

NTTドコモとの新たな提携関係では、グループで使える企業向けサービスの日本市場参入を目指すとリアン氏は話している。彼は、元Googleのアーキテクトで、位置情報アプリAlohar Mobileのスタートアップをアリババに売却した経歴を持つ。

「NTTドコモなどの大企業は、国際会議の必要性から英語でのコミュニケーションが可能な国際的な人材を多く抱えています」とリアン氏。「彼らはOtterを使えば、自動的に議事録がつけられるようになり、会議やコミュニケーションの効率化が図れます。[中略]目標は、Otterの英語自動議事録サービスを基本にして、コミュニケーションとコラボレーションの機能をさらに強化することです」

Otter.aiは、Zoom Video Communications(ズーム・ビデオ・コミュニケーションズ)やDropboxといったアメリカ企業とも同様の提携をしている。

今回の提携における成果のひとつとして、OtterのVoice Meeting Notes(音声議事録)が、日本のベルリッツ・コーポレーションの英会話教室で試験導入される。生徒はOtterを使って会話をテキスト化し、レッスンの復習ができる。テキストをクリックすれば、音声の再生もできる。さらにNTTドコモ、Otter.ai、ベルリッツは、英語教育にその協力関係を拡大し、英語学習をOtterでどれだけ効率化できるかを検証すると、話していた。

「日本市場は、高品質で詳細な議事録を求めており、OtterのAIを使った非常に正確な文書化機能は、言葉の壁を取り除き、日本企業のグローバル事業の効率性を高めます」と、NTTドコモのR&D戦略部長でイノベーション統括部長兼務、執行役員の大野友義氏は、今回の契約に関する声明の中で述べている。「Otter.aiとNTTドコモの翻訳サービスには、大きな市場機会があります」

NTTドコモはまた、東京ビッグサイトで1月23日と24日に開催されるDOCOMO Open House 2020で、Otterのデモンストレーションを行う。そこではOtterが英語をリアルタイムでテキスト化し、NTTドコモの機械翻訳技術を使って日本語化する。テキスト化された英語と翻訳された日本語が大きな画面に表示され、来場者が読めるようにする。

Otterのテキスト化機能は、周囲が騒がしかったり、話し手の声がくぐもっていたりするといった現実の現場では完璧性は失われるが、大きなイベント会場でも、音源から直接入力できる設備があれば精度は上がる(TechCrunchでも、TechCrunch DisruptでOtterのサービスを利用し音声をテキスト化したことがある)。

今回調達した資金は、技術者の増員と、音声認識、ダイアライゼーション、話者の識別、自動要約のためのAI技術の強化にも使われると、リアン氏はTechCrunchに話してくれた。さらに彼らは、業務用サービス、メディア、教育分野の企業顧客の獲得を加速する考えだ。

[原文へ]
(翻訳:金井哲夫)

翻訳ファイルが“魔法のように”自動生成されるクラウドストレージ「WOVN Workbox」発表

Wovn Technologies代表取締役社長 林鷹治氏

ウェブサイト、アプリの多言語化サービスを提供するWovn Technologies(ウォーブンテクノロジーズ)は6月19日に開催されたイベント「Globalized 2019」のオープニングセッションで、ドキュメントファイルの多言語化を実現する新サービス「WOVN Workbox」を発表した。同サービスは現在開発が進められているところで、8月ごろのリリースに向けて本日予約を開始している。

Wovn Technologiesではこれまで、既存の1言語のサイト・アプリがあれば、簡単に多言語化できるというソリューション「WOVN.io(ウォーブンドットアイオー)」、「WOVN.app(ウォーブンドットアップ)」を提供している。最大で40カ国語に翻訳が可能で、現在は大手企業を中心に約400社・1万5000サイトへと導入が進んでいるという。

新サービスのWOVN Workboxは、同社の「世界中の人が全てのデータに母国語でアクセスできる世界を目指す」というミッションを実現すべく開発されているものだ。サイトやアプリではなく「ファイル」の多言語化を、クラウドストレージ上で実現する。WOVN Workboxに保存すれば、自動的にWordやExcel、PowerPointなどの文書が翻訳され、ストレージにアクセスできるユーザーにファイルを別の言語で共有できる。

WOVN Workboxを利用することで、同じフォルダ内でも多言語で共同作業ができるため、外国人社員とのやり取りや、海外の顧客との取引、海外に拠点を持つ企業などでのファイルのやり取りに役立てることができる。

ファイル操作はDropboxやOneDriveなど、既存のクラウドストレージと同様、フォルダへのドラッグ&ドロップで行える。つまり「日本語ファイルをフォルダに入れる」と少し待つだけで「英語ファイルができる」、あるいは「英語ファイルを入れる」「待つ」「日本語ファイルができる」ということが相互にできる。フォルダ作成やファイル移動も反映され、ファイル内容を編集した場合も同期することで、自動的に変更部分が翻訳される。

WOVN Workboxを使ってWord文書を翻訳・共有するデモの様子

Wovn Technologies代表取締役社長の林鷹治氏は「保存するだけで多言語化される、魔法のようなクラウドストレージ」とその機能について表現していた。

利用者から見たファイルの翻訳は“自動的”だが、実際にはAIによる自動翻訳が施された後で、ネイティブの翻訳者が最終チェックを行うという。完全自動ではないが、しくみそのものは現在、同社のウェブ・アプリの多言語化サービスで採用されている翻訳フローと同じだ。

Wovn Technologiesでは、アルバイトも含め同社に所属する従業員のうち約半数が外国人で、国籍も17カ国にわたるという。営業資料、雇用契約など、言語別にファイルを用意することが「翻訳だけでなく、管理なども含め面倒なコストになっていた」と林氏は述べ、「全員が同じドキュメントを母国語で管理・編集できるようになればいいのに、と創業間もなくからずっと言っていた」と話している。

林氏はGAMEBOY開発者の横井軍平氏の言葉「枯れた技術の水平思考」を引用し、新サービスについて「クラウドストレージの技術に注目し、ファイル多言語化へと応用したもの」と説明していた。

WOVN Workboxの対応言語は、当初は日本語・英語間のみだが、近いうちに中国語にも対応していく予定だ。また利用できるファイルフォーマットは、Word文書(.docx)、PowerPointプレゼンテーション(.pptx)、Excelブック(.xlsx)、テキストファイル(.txt)の4種で、中国語対応と同じ頃にPDF対応も予定しているという。

Wovn Technologiesは2014年3月の設立。6月5日には総額14億円の資金調達を発表したばかりだ。

Liltは中核に人間を据えた機械翻訳ビジネスを構築する(お望みならAI書記も)

ウェブサービスで読むあらゆる文章を、速やかに自動的に翻訳できる能力は大したものだが、本当に使えるのは、概略で足りる外国語の記事やメニューや道路標識といった程度の文章だ。この素晴らしいツールは、もっと有効に使われるべきではないだろうか。それは可能だ。Liltという企業が、もう密かに始めている。しかも嬉しいことに、人間的な要素を置き去りにしようとは考えていない。

人間の翻訳者の専門知識と、自動翻訳のスピードと汎用性とを組み合わせれば、双方のもっとも優れた能力を引き出すことができ、大きなビジネスになる可能性がある。

機械翻訳の問題点は、それを本気で使おうとしたときにわかるが、下手なことだ。トマトとポテトと間違えることはないが、一連の言葉の文字通りの意味を正確に訳す以上のことになると頼りない。ほとんどの場合は文字通りの意味で事足りる(メニューなどはそうだ)が、長い文章となると、十分とは言えなくなる。

単に利便性の問題ではない。業務においても個人的なものであっても、言葉は重大な障壁になり得る。

「英語でしか読めないものが大量にあります」と、Liltの共同創設者でCEOのSpence Greenは話す。中東で大学院に通いながらアラビア語を勉強していたとき、彼はその問題に遭遇し、英語を話さない人たちの不自由さを知った。

そうした情報は、ほとんどが機械翻訳には適さない内容だと彼は説明する。Google翻訳で訳された説明書を頼りに重機を操作しなければならない事態や、自分の読めない言語でしか移民法が書かれていない国で仕事をする状況を想像して欲しい。

「本、法的な情報、投票に関する資料……、質が求められるものの場合は人間の関与が必要です」と彼は言う。

中東で翻訳の仕事を行い、その後の2011年にGoogleでインターンとして働いていたとき、Greenは機械翻訳に関心を抱いた。ほとんどのシステムで内容が劣化してしまうのだが、質を保ったまま情報にアクセスできるように改善するにはどうしたらよいか。

そうして彼が、共同創設者のJohn DeNeroとともに追求し実現させたのが、翻訳のためのツールとしてだけではなく、翻訳者のためのツールにもなる機械翻訳システムだった。翻訳システムの中で作業することで、翻訳者はより速く、より良い仕事ができるようになり、認知的負荷が軽減される。

Liltのツールの基本的な考え方は、次の文章や段落の作業の参考になる翻訳をシステムが提供するというものだ。文章構成、時制、慣用句などを翻訳者が参照できることで、少なくとも可能性として、より短時間により良い作業ができる。Liltでは、1時間あたりの翻訳語数は5倍にもなると説明している。結果は、人間の訳者だけが行った場合に比べて同等か、それ以上のものが期待できるとのことだ。

「私たちは複数の論文を発表しています。……この技術が有効であることを、私たちはわかっていました。私たちは翻訳者たちと研究を重ね、大規模な実験も行いました」とGreenは言う。しかし、知りたいのはどのように進めたかだ。

大企業に話を持ちかけて興味を持ってもらったのか? 「それを行うことで、大企業は消費者向けアプリケーションにばかり目を向けていることを私たちは感じました。品質の基準はどこにもありません。それが翻訳業界の実態です」とGreenは語る。

学術研究に留まり、補助金を使ってオープンソース化する? 「お金は、ほぼ枯渇状態です」とGreen。911の事件の後、情報収集とコミュニケーション能力の改善という名目で、予算は潤沢に与えられた。しかし、あれから10年が経過すると切迫感が消え、同時に補助金も消えた。

会社を立ち上げた? 「この技術が必要であることは、わかっていました」と彼は話す。「問題は、誰がそれを市場に持ち込むかでした」ということで、自分たちがそれを行おうと決めた。

面白いことに、翻訳の世界の大きな変化は、彼らが本格的に取り組み始めたときに起こった。統計ニューラルネットワーク・システムが、文章のようなものを効率的に効果的に解釈する自然に近い親和性のあるアテンション・ベースのシステムに取って代わられたときだ。文章の中の単語は、画像の中のピクセルと違い、前後の言葉に構造的に依存している。彼らは中核的な翻訳システムを再構成する必要があったが、それが結果的には発展につながった。

両義的な文の機械翻訳で正しい訳語をガイドするGoogleのTransformerシステム

「これらのシステムは、ずっと流暢です。とにかく優れた言語モデルなのです。次に、学習が速い。わずかなアップデートで特定の分野に適応できます」とGreenは言う。つまり、ひとつの分野に限れば、技術書や不動産の法律など、難しい専門用語や特別な法則に素早く対応できるということだ。

もちろん、だからと言ってすぐさま翻訳ビジネスの真ん中に飛び込で、出版からリアルタイムのもの、技術系文書から無数のバーティカル市場にまで広がる世界に、「ほら、AIを使おう!」と言うことはできない。

「この業界には、何であれ現実に自動化することに対して猛烈な構造的抵抗力があります」とGreenは話す。大手出版社には、今使えている方式を変えようという気はなかった。

「有効なものが見つかるまで、私たちはいくつものビジネスモデルを試しました。『うん、この人間を組み入れた方式は問題を根本的に解決してくれる。それを基盤に会社を興そう』なんていう企業はひとつもありませんでした。そこで私たちはバーティカルに統合したのです。大企業や行政と協力して、彼らのための翻訳のワークフロー全体を私たちが持つことにしました」

品質を落とさずに高速化する方式は、基本的に効率性を倍加させる。正確に訳さなければならない文書が大量にあるが、ほとんどを自腹でやらなければならない組織にとって、それはマタタビのようなものだ。

こう考えて欲しい。それぞれ異なる言語を話す20カ国で製品を販売する企業の場合、パッケージ、広告、説明書などの翻訳は、実質的にはいつまでも完了しない作業だ。それが速く安く、高品質でできるなら、そしてそれを一手に引き受けてくれる企業があったなら、渡りに船だ。

「私たちは、Zendesk、Snap、Sprinklrなどと仕事をしています。すべての翻訳作業を引き受けています。これは海外市場への進出を手助けするものです」とGreen。翻訳用の予算や人員に限りがあり、一定期間内で可能な新規市場の開拓が5〜6件だった企業も、Liltを使えば、効率化の度合いにより、同じ予算と人員で開拓件数は2倍から3倍にできる。

現在彼らは、自然な流れとして顧客の獲得に努めている。「去年の第四半期には、初めての営業チームを結成しました」とGreenは教えてくれた。しかし、行政との最初の仕事はとくに励みになった。なぜなら「独特な用語が必要」であり、文書の量も膨大だったからだ。現在、Liltは29の言語に対応しているが、今年末には43言語に対応するという。校正機能は、翻訳者ばかりでなく編集者の作業効率も高めてくれる。

彼らはまた、学術経験者とのつながりを増やすことにも努めていて、Liltの周りに翻訳コミュニティーを構築している。学術経験者は翻訳者に欠かせない情報源であり、言語の専門家であり、大きな市場でもある。科学文献のほどんどは、高度に技術的な内容を他の言語に翻訳することが大変に難しいため、英語でのみ出版されている。

「ハイテク企業はあらゆる才能を吸い取って、アシスタントやらAlexaとやらにつぎ込んでいます」と話すGreenは、優れた研究者が退屈な仕事をさせられていることに腹を立てているように見える。AIやロボティクスのような先端技術の分野では、何度も繰り返されていることだ。

最後にGreenはこう話していた。「この輪を閉じて、書籍の翻訳に挑戦することが私の最大の夢です。儲かる仕事とは言えませんが、第三の目標なのです。もし可能なら、それは何か意味のあることを成し遂げたと気になれる道になります」

まずはアプリの説明書や政府の無秩序な契約書といった仕事から始まるのだろうが、Liltの人間を輪に組み入れた作業方法を受け入れやすい、そうした部類の文書や市場は増える一方だろう。それに、AIと人間が協力し合う未来は、人間が置き換えられる未来よりも心強い。少なくとも翻訳の世界では、人間の手が排除できるようになるのは、ずっと遠い話だ。

[原文へ]
(翻訳者:金井哲夫)

FBのMessenger、自動翻訳機能で米国/メキシコ間の言葉の壁を取り払う

Facebookはこのところ、米国を分断させていると批判されてきたが、今は米国とその南側の隣国との結びつきを強めるのを手伝おうとしているようだ。米国、メキシコのユーザー向けのFacebook Messengerで英語ースペイン語自動翻訳機能を提供する。2国の国境で移民親子の引き離しが行われている中でのこの発表は、まったくタイムリーといえる。

この機能では国境や言葉の違いを超えて2国の間で展開されている付き合いやビジネス、議論を容易にする。これは、自社で翻訳したりせずにMessengerを使ってビジネスのやりとりをしようとしている米国の企業にとっては特に有効なものになるだろう。

Facebookは「米国のFacebook Marketplaceユーザー向けのMessengerでAI機能を使った翻訳機能のテストを4月に展開したが、その結果に大変満足している」とした。

ユーザーがデフォルト設定しているもの以外の言語でメッセージを受け取った場合、MessengerのAIアシスタントMが翻訳して欲しいかどうかを聞いてくる。今後スレッドの全てのメッセージは、ユーザーが機能をオフにしない限り自動的に翻訳される。Facebookはこの機能の対象言語を拡大し、他の国でも間もなく展開する予定だ。

Facebookの広報担当者は「この機能の最終目的は、これがなければコミュニケーションを取ることはできなかった、というコミュニケーションを自然でシームレスなやり方で可能にすること」と話した。

Facebookはニュースフィード投稿やコメントの翻訳機能を2011年から提供してきた。何年もの間、MicrosoftのBingの翻訳機能に頼ってきたが、2016年半ばに自社での展開に切り替えた。それまでの間に、ユーザー8億人の20億ものテキストを毎日翻訳してきた。

しかし、会話の翻訳というのはソーシャルメディアへの投稿の翻訳より難しい。友達と話すとき、その言葉は口語でスラングもたくさん混ざる。また、タイピングするときは急いでいることが多く、結果としてミスタイプも多かったりする。しかしもしFacebookが我々の言うことをしっかりと理解できたなら、Messengerは現代のBabel Fish(編集部注:機械翻訳するウェブアプリ)となるだろう。2016年の開発者会議F8でFacebookのCEOマーク・ザッカーバーグは「壁を築く代わりに、橋をかけることはできる」とドナルド・トランプの発言を批判した。トランプはまだ壁は築いておらず、ザッカーバーグはいまテクノロジーを使って橋をかけようとしている。

[原文へ]

(翻訳:Mizoguchi)

Google検索とマップ、自動翻訳でローカルレビューへのアクセスがお手軽に

Googleは本日(米国時間24日)、自動翻訳を実行することで、旅行中にビジネスレビューを読むことを簡単にできるようにすると発表した。つまり、Google検索の結果とGoogleマップに表示されるユーザーレビューが、自分のデバイスで設定した言語に翻訳されるため、自分の言語で読むことができるようになるということだ。このことで、調べたいビジネスや、レストラン、バー、お店、アトラクションなどの、訪問を考えている場所の情報を、他の人のクチコミを通して得やすくなる。

以前は、そうしたレビューを他の翻訳アプリ、例えばGoogle Translateなどに、コピーする必要があり、面倒だった。

この機能は、Googleのますます強力になって来た言語翻訳プラットフォームを活用しているが、このプラットフォームはAI技術の利用により拡張が続いている。たとえば先月には、ロシア語、ヒンディー語、ベトナム語などの、より多くの言語に対してAI支援翻訳が拡張された。これらは、以前からサポートされていた、英語、フランス語、ドイツ語、スペイン語、ポルトガル語、中国語、日本語、韓国語、トルコ語に追加されたものだ。

この技術によって、プラットフォームが言語を理解する能力が向上する。つまり人びとが本当に話しているような方法で行い、文の中を部分的に1つずつ翻訳するのではなく、文全体を見るということだ。

Googleは、この新しい翻訳機能が、検索と地図のGoogleプロダクトで利用できるようになること、そして多くのユーザーに対して、翻訳されたレビューを元の言語で書かれたオリジナルレビューと一緒に提供すると発表している。

この機能は、壮大な計画の中では比較的小さなものかもしれないが、この先ユーザーたちはローカルレビューを提供する他のアプリよりも、Google検索を優先して使うようになって行く可能性がある。

この追加はまた、Facebookがそのアプリを旅行コンパニオンアプリに向けて一歩進めたタイミングと同時にやって来たものでもある。Facebookは最近「City Guides」と呼ばれる旅行プランニングセクションを開始していて、そこでFacebookのユーザーたちは、友人たちが訪れた場所や書いたレビューを読むことができる。

この分野におけるGoogleの強みは、ソーシャルネットワーキングからのデータ以上のものを保有していることだ。何年にも渡ってユーザーたちに、レビューの投稿、編集、修正機能を提供して、レビューやレーティング、そして写真のアップロードなどを促し続けてきた。その結果、ビジネス情報にアクセスするための、相当堅牢なプロダクトとはなっていたものの、今回の変更が行われるまでは、旅行時には使いにくいものだった。

[ 原文へ ]
(翻訳:Sako)