Pixel 4に搭載されるGoogleの最新録音アプリはリアルタイムで自動文字起こし可能

米国時間10月15日に開催されたハードウェアイベントで、GoogleはAndroid用の新しいボイスレコーダーアプリを発表した。これは、リアルタイムの音声処理、音声認識、AIといった最新技術を利用して、人が話している最中に音声を聞き取ったテキストをリアルタイムで自動生成するもの。このような進化によって、スマホの録音機能がさらに便利に活用できるようになる。インターネットに接続していない状態でも録音をテキストに変換できる点にも注目だ。

この機能は、Otter.ai、Reason8、あるいはTrintなど、同様にAIを活用した文字起こし機能を提供する他社と、新たに競合することになる。Googleが説明したように、このアプリのすべての機能は、デバイス上で直接実行される。つまり、機内モードで使っている際にも、音声とともに正確な文字情報を記録することができる。

「会議、講演、インタビュー、その他保存したいものなら何でも、文字起こしできるわけです」と、Googleのプロダクトマネージメント担当副社長であるSabrina Ellis（サブリナ・エリス）氏は述べた。

このRecorderアプリは、今回のイベントでは、ステージ上でライブでデモされた。画面に表示された内容から見る限り、まったくエラーのないテキスト生成を実現していた。一般的な文字起こしアプリは、現実の環境では、バックグラウンドのノイズや、バンド幅の問題によってエラーを発生することが多い。このイベントのデモでは、おそらく音源に直接接続されていたものと思われるが、そうでない場合、つまりテーブルの上にスマホを置いた状態やノイズが多い環境で、Recorderアプリがどのように機能するか、そのあたりはわからない。

同アプリは、音声、単語、フレーズなどで検索できる高度な検索機能も備えている。検索結果は、検索条件に合致するすべての部分が再生バーの上でハイライト表示される。その部分をタップすれば、直ちに必要な部分の実際の音声を再生できるというわけだ。

現状では、Recorderが認識するのは英語のみだが、Googleによれば将来的にはさらに多くの言語のサポートを追加する予定だという。

このボイスレコーダーアプリも、Googleが音声処理とリアルタイムの文字起こしに関して、最近成し遂げた多くの成果のうちの1つに数えられる。同社はすでにこの春、オフラインで迅速に動作する新たな音声認識システムを導入していた。同社のスマートフォンであるPixel用のキーボードアプリ、Gboardとしてリリースされたものだ。またGoogle I/Oでは、アクセシビリティの改善策として、Androidでライブの文字起こしと字幕表示ができるアプリを発表していた。ボイスレコーダーアプリに同様の機能が追加されたのも、当然の流れだったと言える。

同アプリは、ほかのいくつかの新機能とともにGoogleの新しいスマートフォンであるPixel 4に導入される。なお、このアプリをそれ以外のデバイスに導入する予定についてGoogleは何も触れなかった。

The new Recorder app uses speech recognition and AI to transcribe lectures, meetings, interviews and more—and makes them easy for you to find later. (English only right now, with more languages to come.) #madebygoogle pic.twitter.com/fdKRItuS4b

— Google (@Google) October 15, 2019

［原文へ］

（翻訳：Fumihiko Shibata）