Zoom会議のリアルタイム文字起こし機能をOtter.aiが提供

リアルタイムで音声から文字起こしをするサービスのOtter.aiが、在宅での学習や勤務に役立つ新しい機能を追加する。同社はZoomと統合して「ライブビデオ会議メモ」を提供開始した。ビデオ会議からライブでインタラクティブな文字起こしをして、記録と表示をする機能だ。

Otter.aiによれば、この機能は会議の参加者がヘッドセットやイヤフォンを使っても動作するという。

ライブビデオ会議メモを利用するには、会議参加者がZoomのウインドウの上部にあるLIVEメニューから「Otter.ai Live Transcript」を選択し、Otter.aiにログインする。ライブ文字起こしの開始や停止の操作をする必要はなく、自動で開始し停止する。Otterのライブ文字起こしは、モバイルのZoomアプリでも動作する。

会議が終わったら、ユーザーは文字起こしを見直して、ハイライトやコメントをつけたり写真を追加したりすることもできる。

この機能を利用するには、Otter for TeamsとZoom Pro以上のサブスクリプションが必要だ。会議を主催するのに必要なOtter for Teamsのサブスクリプションは、1ユーザー、1カ月あたり20ドル(約2100円)、最低3ユーザーからで、支払いは1年分となる。関心があれば「OTTER_RELIEF」のコードを使うと2カ月間無償で試用できる。

新型コロナウイルス(COVID-19)の感染拡大を受けて企業が可能な限り在宅勤務に移行しているこの時期に、オンライン会議の文字起こし機能が提供されることになった。在宅勤務のため、ビデオ会議アプリの利用は急激に増加している。

Otter.aiにも、新型コロナウイルス感染拡大による変化が生じている。

Otter.aiの創業者でCEOのSam Liang(サム・リアン)氏によると、Zoom会議でのOtterの利用はここ数週間で5倍以上になり、リモートワーカーや在宅学習をしている学生のサインアップが増えているという。

Otterの文字起こしは、ウェブ会議の参加者にとって便利なツールというだけでなく、出席できなかった人が内容を知るのにも役立つ。今の時期、人々は仕事、健康管理、育児、子供の学習のサポートを抱え、会議に出席できないのはよくあることだ。

これまでにOtterでは2500万回、7億5000万分間以上の会議の文字起こしに使われてきた。同社はユーザー数や売上を明らかにしていないが、リアン氏はTechCrunchに対し、同社の年間売上は2019年末以降のおよそ4カ月の実績ベースで倍増が予想されると語った。同社はまだ黒字化していないが、今回のZoomとの統合のような機能があれば無料ユーザーは有料プランに移行するかもしれない。

リアン氏は統合に関する発表の中で「新型コロナウイルス感染拡大によりバーチャル会議が急増し、オフィスやバーチャルでの会議では従業員の生産性のために高品質の会議メモが欠かせないと認識されるようになった」と述べた。

これまでにもOtter.aiはZoomと連携しており、今回の新機能はそれに続くものだ。これまでの機能は、ビデオ会議ソリューションにOtterのテクノロジーをライセンスし、会議後に文字起こしをするものだった。これを利用できるのは会議終了の1〜2時間後で、今回の新機能のように会議中にリアルタイムで文字起こしを表示できるものではなかった。これまでの機能では、起こした文字にハイライトをつけたりコメントを残したりすることもできなかった。

しかも、会議後の文字起こしサービスはZoom Businessユーザー専用だったが、今回の新機能はZoom Proユーザーも利用できる。

Otter.aiは、Zoomの新機能は複数のビデオ会議との統合の1つであるとしているが、今後対応するZoom以外のサービスについて詳細は明らかにしていない。

Otter.aiは2020年1月に新たな戦略的投資家のNTTドコモから1000万ドル(約10億6900万円)を調達した。これまでに同社はFusion Fund、GGV Capital、Draper Dragon Fund、Duke University Innovation Fund、Harris Barton Asset Management、Slow Ventures、Horizons Venturesなどから2300万ドル(約24億5800万円)を調達している。

[原文へ]

(翻訳:Kaori Koyama)

Deepgramがディープラーニングを利用する機械書き起こしサービスを無料で公開、データの獲得をねらう

オーディオデータを機械学習で処理するDeepgramが今日(米国時間10/10)、同社の機械書き起こしサービスを無料で公開した。これからはTrintのようなサービスにお金を払って自動化書き起こしという汚い仕事をやらせなくてもすむわけだ。無料化の秘密は、“データの取得”にある。

機械書き起こしは、完成された技術ではない。というか、機械何々はどれも未完成だ。それでも最近は、機械何々を完成させるためのデータを得ようと、各社が競っている。Deepgramのやり方は、書き起こしサービスを無料にして多くの人にオーディオデータをアップロードしてもらい、そのお礼に検索可能なテキストを渡すことだ。

前述のように、このやり方はそれほどユニークではない。誰もが、データを求めている。Image Captchasも、ラベルをつけた画像データを一般消費者に送ってもらって機械学習のモデルに利用することが目的だ。

Deepgramの書き起こしツールは、ディープラーニングを利用している(驚き!)…今やおなじみの、畳み込み型/再帰型のニューラルネットワークだ。無料バージョンでは何もかも一般化されるが、有料バージョンでは企業名や製品名、業界の専門用語などで訓練をカスタム化できる。

一週間前にやった1時間のインタビューで、このサービスをテストしてみた。レストランの騒音の中で二人の人間が対話をしている。書き起こしの質は、完全にはほど遠い。でも、今市場に出回っているサービスに比べて、極端に悪いというわけではない。

記憶している語句で検索することもできたし、三回目の結果の中に、探していた特定の箇所が見つかった。それをここに引用すると相手が怒りそうだからやめるが、記事を書くためには十分なコンテキストが得られた、と言えよう。音声による検索には5分ほどかかったが、テキストと違って音声による“語”には、似たような音(おん)が多いので、必要以上のマッチを見つけるのだろう。それでも、人間がやってくれる書き起こしサービスに比べると安い(無料!)し、今後少しずつ良くなっていくだろう。

Deepgramの協同ファウンダーでCEOのScott Stephensonはこう説明する: “音声認識の自動化は、まだ完成された技術ではない。特定のデータセットに対しては有能だが、ノイズが多いとだめだ。うちのサービスの結果も、良くないね”。

Deepgramは、機械書き起こしのAPIも無料で提供している。でも、有料サイトに100万分(ふん)の音声データをアップロードしたら、目の玉の飛び出る料金になるだろうから、その500テラバイトのファイルはDeepgramにトロルした方がよいかもね。

書き起こしはまだまだ人力には勝てないが、人工的に合成した音声なら機械学習にも勝つチャンスがあるかもしれない。テキストから音声を生成するWaveNetLyrebirdのようなプロジェクトを利用して、Deepgramのような機械翻訳システムを、機械が間違えやすい語で訓練すれば、その能力もアップするだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

iOS 8最新ベータに、(ほぼ)リアルタイム書き起こし機能がついた

つい先ほどAppleのiOS 8 beta 4が公開され、新機能の一つとしてビジュアル化された書き起こし機能が加わった(上のビデオはMacRumorsより)。話した言葉が、ほぼリアルタイムでテキスト変換されているのがわかるだろう。これは以前Siriに登場した機能だが、メッセージその他のテキスト入力ボックスの音声入力オプションとしては初めてで、かなりクールだ。

ライブテキスト変換は、MicrosoftがCortanaで大々的に宣伝しているが、これには誰かを驚かせる以上の価値がある。話した言葉をシステムがどう解釈したかをその場で見られるので、エラーを見つけたり、言い間違えたりしたことがすぐにわかり、しゃべり終えて変換されるのを待つ必要がない。

これでエラーが少なくなり、テキスト変換を使うフラストレーションも減ることが期待できる。これは、見た目がカッコいいという副次効果以上のものだ。

[原文へ]

(翻訳:Nob Takahashi / facebook