マイクロソフトがWord用の音声文字起こしサービスを提供開始

Microsoft(マイクロソフト)は米国時間8月25日、Microsoft 365の利用者全般に向けた新しい音声文字起こしサービス「Transcribe in Word(トランスクライブ・イン・ワード)」を開始(Microsoftブログ)したことを発表した。現在、この機能は、Word(ワード)のオンライン版で使用できる。他のプラットフォーム用のものは、後日追加される。さらに、新しい音声認識機能もWordに追加された。例えば、文章のフォーマット調整や編集が声でできるようになる。

その名前が示すとおり、この新機能は会話を文字に変換してくれる。その場で話した会話にも、録音にも対応し、聞き取った文章はそのままWord上で編集が可能だ。これにより、MicrosoftはOtter(オター)などのスタートアップやGoogle(グーグル)のレコーダーアプリと競合することになるが、どれにも一長一短がある。

画像クレジット:Microsoft

Transcribe in Wordを使うためには、メニューバーの「Dictate」ボタンをクリックし、続けて「Transcribe」をクリックするだけだ。後は、そこで交わされる会話が録音される。例えばスピーカーフォンやノートパソコンのマイクから直接録音できるが、別の方法で録音してからファイルを読み込ませることも可能だ。対応ファイル形式はmp3、wav、m4a、mp4となっている。

マイクロソフトのNatural User Interface & Incubation部門の主席グループPMマネージャーであるDan Parish(ダン・パリシュ)氏は本日の発表に先立つ記者会見で、例えば電話の音声を生で録音するとき、インタビュー中にバックグラウンドで書き起こしが行われると話していた。彼らは、その場で書き起こした文章は、あえて表示させないように決めたという。ユーザーへの調査で、表示させると気が散ると指摘されたからだ。正直にいって、私はOtterやレコーダーがその場で書き起こしてくれるのを見るのが好きなのだが、そんな人間は私だけなのだろう。

他社サービスと同様に、Transcribe in Wordでも書き起こされた文章の段落をクリックすると、いろいろな速度で読み上げさせることができる。自動書き起こしには聞き取りミスが付きものであるため、これは必須機能だ。しかしながら残念なことに、Transcribe in Wordでは個々の単語はクリックできない。

今のところ、このサービス最大の制約は、オフラインで録音した音声ファイルを読み込む際に、長さが300分に限定される点だ。追加料金を払ってこれを延長することもできない。私は、月あたり5時間以上のインタビューを書き起こすことも少なくない。それを考えるとこの上限は低すぎる。Otterなどは、最も安いプランでも6000分の容量がある。Otterは最大が4時間。それに対してマイクロソフトは読み込むファイルサイズも200MBに制限している。ただし、生で録音する場合は制限がない。

もう1つ私が気づいたのは、誤って録音中のWordのタブを閉じてしまうと、録音が中止されるという問題だ。しかも再開方法がどこにも見つからない。

また、読み込んだ音声ファイルの書き起こしにもかなり時間がかかる。録音した会話と、ほぼ同じぐらいの時間になる。だが、結果は極めて良好だ。競合サービスよりも優れていることも多い。さらにTranscribe for Wordは、会話中に話し手が変わったときに区別する能力にも長けている。ただしプライバシー保護の関係上、いつも同じ人間が録音する場合でも、いちいち自分の名前を登録する必要がある。

OneNote(ワンノート)などにも、同じような機能があったらいいと思う。マイクロソフトはいずれ、同社のメモアプリにもこの機能を追加するだろうと私は考えている。私には、そちらのほうが使い慣れているのだ。

画像クレジット:Microsoft

Wordの新しい音声認識機能は、例えば「最後の文章を太字に」といったコマンドを出したり、「パーセンテージのマーク」や「アンパサント」というように声で記号を入力することが可能になる(Wordでそんなノリの文章を書いている人の場合は「笑った顔」なども入力できる)。

音声の書き起こしはそれほど必要ないという人もいるだろうが、この新機能には、同社のサブスクリプションサービスに新しいプレミアムな機能を追加することで、無料プランのユーザーを有料プランに誘うための役割もある。有料プランのユーザーにより多くの機能を提供しているMicrosoft Editor(エディター)やこの書き起こしサービス、またはExcel(エクセル)やPowerPoint(パワーポイント)に新たに搭載されたAI機能などのツールが、有料プランにユーザーを乗り換えさせる役に立たなかったとしたら、むしろ驚きだ。特に今は、利用者のためにOffice 365をMicrosoft 365に統合したところだ。その結果、Grammarly(グラマリー)とOtter(オター)を個別に契約するほうが、Microsoft 356よりもかなり高額になっている。

画像クレジット:Jeenah Moon/Bloomberg via Getty Images / Getty Images

原文へ
(翻訳:金井哲夫)

Zoom会議のリアルタイム文字起こし機能をOtter.aiが提供

リアルタイムで音声から文字起こしをするサービスのOtter.aiが、在宅での学習や勤務に役立つ新しい機能を追加する。同社はZoomと統合して「ライブビデオ会議メモ」を提供開始した。ビデオ会議からライブでインタラクティブな文字起こしをして、記録と表示をする機能だ。

Otter.aiによれば、この機能は会議の参加者がヘッドセットやイヤフォンを使っても動作するという。

ライブビデオ会議メモを利用するには、会議参加者がZoomのウインドウの上部にあるLIVEメニューから「Otter.ai Live Transcript」を選択し、Otter.aiにログインする。ライブ文字起こしの開始や停止の操作をする必要はなく、自動で開始し停止する。Otterのライブ文字起こしは、モバイルのZoomアプリでも動作する。

会議が終わったら、ユーザーは文字起こしを見直して、ハイライトやコメントをつけたり写真を追加したりすることもできる。

この機能を利用するには、Otter for TeamsとZoom Pro以上のサブスクリプションが必要だ。会議を主催するのに必要なOtter for Teamsのサブスクリプションは、1ユーザー、1カ月あたり20ドル(約2100円)、最低3ユーザーからで、支払いは1年分となる。関心があれば「OTTER_RELIEF」のコードを使うと2カ月間無償で試用できる。

新型コロナウイルス(COVID-19)の感染拡大を受けて企業が可能な限り在宅勤務に移行しているこの時期に、オンライン会議の文字起こし機能が提供されることになった。在宅勤務のため、ビデオ会議アプリの利用は急激に増加している。

Otter.aiにも、新型コロナウイルス感染拡大による変化が生じている。

Otter.aiの創業者でCEOのSam Liang(サム・リアン)氏によると、Zoom会議でのOtterの利用はここ数週間で5倍以上になり、リモートワーカーや在宅学習をしている学生のサインアップが増えているという。

Otterの文字起こしは、ウェブ会議の参加者にとって便利なツールというだけでなく、出席できなかった人が内容を知るのにも役立つ。今の時期、人々は仕事、健康管理、育児、子供の学習のサポートを抱え、会議に出席できないのはよくあることだ。

これまでにOtterでは2500万回、7億5000万分間以上の会議の文字起こしに使われてきた。同社はユーザー数や売上を明らかにしていないが、リアン氏はTechCrunchに対し、同社の年間売上は2019年末以降のおよそ4カ月の実績ベースで倍増が予想されると語った。同社はまだ黒字化していないが、今回のZoomとの統合のような機能があれば無料ユーザーは有料プランに移行するかもしれない。

リアン氏は統合に関する発表の中で「新型コロナウイルス感染拡大によりバーチャル会議が急増し、オフィスやバーチャルでの会議では従業員の生産性のために高品質の会議メモが欠かせないと認識されるようになった」と述べた。

これまでにもOtter.aiはZoomと連携しており、今回の新機能はそれに続くものだ。これまでの機能は、ビデオ会議ソリューションにOtterのテクノロジーをライセンスし、会議後に文字起こしをするものだった。これを利用できるのは会議終了の1〜2時間後で、今回の新機能のように会議中にリアルタイムで文字起こしを表示できるものではなかった。これまでの機能では、起こした文字にハイライトをつけたりコメントを残したりすることもできなかった。

しかも、会議後の文字起こしサービスはZoom Businessユーザー専用だったが、今回の新機能はZoom Proユーザーも利用できる。

Otter.aiは、Zoomの新機能は複数のビデオ会議との統合の1つであるとしているが、今後対応するZoom以外のサービスについて詳細は明らかにしていない。

Otter.aiは2020年1月に新たな戦略的投資家のNTTドコモから1000万ドル(約10億6900万円)を調達した。これまでに同社はFusion Fund、GGV Capital、Draper Dragon Fund、Duke University Innovation Fund、Harris Barton Asset Management、Slow Ventures、Horizons Venturesなどから2300万ドル(約24億5800万円)を調達している。

[原文へ]

(翻訳:Kaori Koyama)

GoogleのAI音声認識の自動文字起こしがPixel 3/3aでも利用可能に

Pixel 4が発表された10月のGoogleのハードウェアイベントで強く印象に残ったデモが、AI音声認識を利用した自動文字起こしアプリだ。このRecorderアプリは最新のAIテクノロジーを利用してユーザーの音声を聞き取り、リアルタイムでテキストを生成するもので驚くほど誤りが少なかった。残念なことにこの時点ではRecorderは新しいPixel 4専用のアプリだった。

Android Policeが発見したところによれば、RecorderはPixel3/3aなど以前のPixelデバイスのユーザーにも利用可能になっているという。このアップデートは米国時間12月5日に行われたもようで、Sensor Towerも確認している。ただしGoogleからの告知がなかったため、ダウンロード数はまだ1000回以下だ。

voice recorder

GoogleではRecorderアプリを広い範囲で利用可能にするつもりだと以前から明らかにしていた。最近のRedditのスレッドで、Googleの担当者は「今後のアプリのアップデートでさらに広い範囲のPixelユーザーが利用できるようになる」と述べていた。ただし日時については明らかにしなかった。

ボイスレコーダーは無数に出回っているが、リアルタイムで文字起こしができるアプリは非常に少ない。Otter.aiのように文字起こしをサポートする場合でも、結果には間違いが多く意味が取りづらい文章になっていた。ただ正確性を欠くにせよ、長い録音で目的の箇所を検索するには文字起こし機能は便利だった。

Googleの10月のイベントのデモではRecorderアプリの文字起こし精度は従来のアプリとは比べて非常に高かった。もちろんこの時点ではまだ一般公開されていなかったわけで、異なる声質、訛り、背景雑音であっても精度を維持できるかどうかは不明だった。また発言者を区別してマーキングする機能がなかった。これは会議やインタビューなど発言者が複数となる録音では重要な機能だ。

そういう問題はあっても当初のテストは成功で、ウォールストリートジャーナルのJoanna Stern(ジョアンナ・スターン)氏のレビューは好意的だった。ただし話し方によって多少の問題があったようだ。他のレビューでもデザインに多少問題はあっても機能は強力だという評価が多かった。TechCrunchのPixel 4のフルレビューでも文字起こし機能がテストされており、Brian Heater(ブライアン・ヒーター)記者は高い点数を与えている。

pixel voice recorder

まだ多少の欠点はあるにせよ、Recorderがライバルに比べて大きく有利なのはオフラインで作動可能だというだ。録音、文字起こしはすべてデバイスのアプリ内で完結する。ユーザーが明示的に転送しない限りデバイスの外に内容が漏れることはない。これはセキュリティ上非常に重要な要素となるが、同時に飛行機の中や屋内で携帯網に接続できない状態でも利用できることを意味する。

また組み込まれている「高度な検索」機能を利用すると特定の単語、フレーズ、音を検索キーにできる他、録音中のどの箇所で発言されたのかも表示されるので再生したい場所に素早くジャンプできる。

Googleはリアルタイム音声認識、文字起こしの機能をこれまでさまざまな場所で利用してきた。例えば、Live CaptionはYouTubeの字幕生成機能に似ているが、ユーザーのAndroidデバイスに保存されたビデオやオーディオのファイルからリアルタイムで字幕を起こせるテクノロジーだ。

Recorderアプリは無料でGoogle Playからダウンロードできる。

我々はGoogleに「Pixel以外のAndroidデバイスでRecorderを利用できるようにする計画があるか?」と問い合わせているが、まだ回答がない。

【Japan編集部追記】アプリは上のリンクからPixel 3にインストールできる(Pixel 3のPlay Storeから検索しても表示されない)。インターフェイスは日本語化されており、録音も正常にできる。なお、自動文字起こしも英語では非常に高精度で実行されたが、日本語音声にはまだ対応していないようだ。

原文へ

(翻訳:滑川海彦@Facebook

Pixel 4に搭載されるGoogleの最新録音アプリはリアルタイムで自動文字起こし可能

米国時間10月15日に開催されたハードウェアイベントで、GoogleはAndroid用の新しいボイスレコーダーアプリを発表した。これは、リアルタイムの音声処理、音声認識、AIといった最新技術を利用して、人が話している最中に音声を聞き取ったテキストをリアルタイムで自動生成するもの。このような進化によって、スマホの録音機能がさらに便利に活用できるようになる。インターネットに接続していない状態でも録音をテキストに変換できる点にも注目だ。

この機能は、Otter.aiReason8、あるいはTrintなど、同様にAIを活用した文字起こし機能を提供する他社と、新たに競合することになる。Googleが説明したように、このアプリのすべての機能は、デバイス上で直接実行される。つまり、機内モードで使っている際にも、音声とともに正確な文字情報を記録することができる。

「会議、講演、インタビュー、その他保存したいものなら何でも、文字起こしできるわけです」と、Googleのプロダクトマネージメント担当副社長であるSabrina Ellis(サブリナ・エリス)氏は述べた。

このRecorderアプリは、今回のイベントでは、ステージ上でライブでデモされた。画面に表示された内容から見る限り、まったくエラーのないテキスト生成を実現していた。一般的な文字起こしアプリは、現実の環境では、バックグラウンドのノイズや、バンド幅の問題によってエラーを発生することが多い。このイベントのデモでは、おそらく音源に直接接続されていたものと思われるが、そうでない場合、つまりテーブルの上にスマホを置いた状態やノイズが多い環境で、Recorderアプリがどのように機能するか、そのあたりはわからない。

同アプリは、音声、単語、フレーズなどで検索できる高度な検索機能も備えている。検索結果は、検索条件に合致するすべての部分が再生バーの上でハイライト表示される。その部分をタップすれば、直ちに必要な部分の実際の音声を再生できるというわけだ。

現状では、Recorderが認識するのは英語のみだが、Googleによれば将来的にはさらに多くの言語のサポートを追加する予定だという。

このボイスレコーダーアプリも、Googleが音声処理とリアルタイムの文字起こしに関して、最近成し遂げた多くの成果のうちの1つに数えられる。同社はすでにこの春、オフラインで迅速に動作する新たな音声認識システムを導入していた。同社のスマートフォンであるPixel用のキーボードアプリ、Gboardとしてリリースされたものだ。またGoogle I/Oでは、アクセシビリティの改善策として、Androidでライブの文字起こしと字幕表示ができるアプリを発表していた。ボイスレコーダーアプリに同様の機能が追加されたのも、当然の流れだったと言える。

同アプリは、ほかのいくつかの新機能とともにGoogleの新しいスマートフォンであるPixel 4に導入される。なお、このアプリをそれ以外のデバイスに導入する予定についてGoogleは何も触れなかった。

原文へ

(翻訳:Fumihiko Shibata)

Microsoft、ビデオの自動文字起こし提供へ――Office 365にAIベースのアップデート

今日(米国時間2/28)、MicrosoftはOffice 365契約者のOneDriveとSharePoint向けにAI利用のアップデートを発表した。これによりMicrosoftのクラウド・ストレージに機械学習を利用した強力な能力が備わることになる。

新機能が実装されるのは今年中の見込みだ。MicrosoftのIgniteカンファレンスは来月フロリダ州オーランドで開催される。ここで今日のアップデートのいくつかのデモが見られると予想してもよさそうだ。

OneDrive、SharePoint向けアップデートのハイライトのひとつはビデオとオーディオのファイルからの自動文字起こしだ。ビデオ記録はたしかに素晴らしいが意味のある情報を取り出そうと思うとひどく時間を食う。まずどれが自分の求めている情報を含むファイルなのか決めるのに手間がかかる。ファイルを見つけてもさらに文字起こしをしなければならない。Microsoftによれば、新しいサービスはユーザーがビデオを視聴するとき、リアルタイムで音声を自動的に文字起こしして表示するという。320種類のファイルをサポートするのでユーザーがどんなファイルをアップロードしても対応できるだろう。

今日発表された他のアップデートには、 OneDriveとOffice.com向けの新しいファイルビューがある。これはOffice 365でユーザーがファイルを探す場合、最近利用されたファイルに基づいてシステムが必要なファイルを推測して候補として表示するというものだ。Microsoftでは近くこのアルゴリズムを他のアプリにも拡張する。たとえばPowerPointでファイルを作成してプレゼンしたとすると、システムはそのファイルを同僚と共有するよう提案する。

また知識のあるユーザーは、OneDriveないしSharePointのどのファイルについても利用状況をチェックすることができるようになる。

原文へ

滑川海彦@Facebook Google+