GoogleのAI音声認識の自動文字起こしがPixel 3/3aでも利用可能に

Pixel 4が発表された10月のGoogleのハードウェアイベントで強く印象に残ったデモが、AI音声認識を利用した自動文字起こしアプリだ。このRecorderアプリは最新のAIテクノロジーを利用してユーザーの音声を聞き取り、リアルタイムでテキストを生成するもので驚くほど誤りが少なかった。残念なことにこの時点ではRecorderは新しいPixel 4専用のアプリだった。

Android Policeが発見したところによれば、RecorderはPixel3/3aなど以前のPixelデバイスのユーザーにも利用可能になっているという。このアップデートは米国時間12月5日に行われたもようで、Sensor Towerも確認している。ただしGoogleからの告知がなかったため、ダウンロード数はまだ1000回以下だ。

voice recorder

GoogleではRecorderアプリを広い範囲で利用可能にするつもりだと以前から明らかにしていた。最近のRedditのスレッドで、Googleの担当者は「今後のアプリのアップデートでさらに広い範囲のPixelユーザーが利用できるようになる」と述べていた。ただし日時については明らかにしなかった。

ボイスレコーダーは無数に出回っているが、リアルタイムで文字起こしができるアプリは非常に少ない。Otter.aiのように文字起こしをサポートする場合でも、結果には間違いが多く意味が取りづらい文章になっていた。ただ正確性を欠くにせよ、長い録音で目的の箇所を検索するには文字起こし機能は便利だった。

Googleの10月のイベントのデモではRecorderアプリの文字起こし精度は従来のアプリとは比べて非常に高かった。もちろんこの時点ではまだ一般公開されていなかったわけで、異なる声質、訛り、背景雑音であっても精度を維持できるかどうかは不明だった。また発言者を区別してマーキングする機能がなかった。これは会議やインタビューなど発言者が複数となる録音では重要な機能だ。

そういう問題はあっても当初のテストは成功で、ウォールストリートジャーナルのJoanna Stern(ジョアンナ・スターン)氏のレビューは好意的だった。ただし話し方によって多少の問題があったようだ。他のレビューでもデザインに多少問題はあっても機能は強力だという評価が多かった。TechCrunchのPixel 4のフルレビューでも文字起こし機能がテストされており、Brian Heater(ブライアン・ヒーター)記者は高い点数を与えている。

pixel voice recorder

まだ多少の欠点はあるにせよ、Recorderがライバルに比べて大きく有利なのはオフラインで作動可能だというだ。録音、文字起こしはすべてデバイスのアプリ内で完結する。ユーザーが明示的に転送しない限りデバイスの外に内容が漏れることはない。これはセキュリティ上非常に重要な要素となるが、同時に飛行機の中や屋内で携帯網に接続できない状態でも利用できることを意味する。

また組み込まれている「高度な検索」機能を利用すると特定の単語、フレーズ、音を検索キーにできる他、録音中のどの箇所で発言されたのかも表示されるので再生したい場所に素早くジャンプできる。

Googleはリアルタイム音声認識、文字起こしの機能をこれまでさまざまな場所で利用してきた。例えば、Live CaptionはYouTubeの字幕生成機能に似ているが、ユーザーのAndroidデバイスに保存されたビデオやオーディオのファイルからリアルタイムで字幕を起こせるテクノロジーだ。

Recorderアプリは無料でGoogle Playからダウンロードできる。

我々はGoogleに「Pixel以外のAndroidデバイスでRecorderを利用できるようにする計画があるか?」と問い合わせているが、まだ回答がない。

【Japan編集部追記】アプリは上のリンクからPixel 3にインストールできる(Pixel 3のPlay Storeから検索しても表示されない)。インターフェイスは日本語化されており、録音も正常にできる。なお、自動文字起こしも英語では非常に高精度で実行されたが、日本語音声にはまだ対応していないようだ。

原文へ

(翻訳:滑川海彦@Facebook