オーディオデータを機械学習で処理するDeepgramが今日(米国時間10/10)、同社の機械書き起こしサービスを無料で公開した。これからはTrintのようなサービスにお金を払って自動化書き起こしという汚い仕事をやらせなくてもすむわけだ。無料化の秘密は、“データの取得”にある。
機械書き起こしは、完成された技術ではない。というか、機械何々はどれも未完成だ。それでも最近は、機械何々を完成させるためのデータを得ようと、各社が競っている。Deepgramのやり方は、書き起こしサービスを無料にして多くの人にオーディオデータをアップロードしてもらい、そのお礼に検索可能なテキストを渡すことだ。
前述のように、このやり方はそれほどユニークではない。誰もが、データを求めている。Image Captchasも、ラベルをつけた画像データを一般消費者に送ってもらって機械学習のモデルに利用することが目的だ。
Deepgramの書き起こしツールは、ディープラーニングを利用している(驚き!)…今やおなじみの、畳み込み型/再帰型のニューラルネットワークだ。無料バージョンでは何もかも一般化されるが、有料バージョンでは企業名や製品名、業界の専門用語などで訓練をカスタム化できる。
一週間前にやった1時間のインタビューで、このサービスをテストしてみた。レストランの騒音の中で二人の人間が対話をしている。書き起こしの質は、完全にはほど遠い。でも、今市場に出回っているサービスに比べて、極端に悪いというわけではない。
記憶している語句で検索することもできたし、三回目の結果の中に、探していた特定の箇所が見つかった。それをここに引用すると相手が怒りそうだからやめるが、記事を書くためには十分なコンテキストが得られた、と言えよう。音声による検索には5分ほどかかったが、テキストと違って音声による“語”には、似たような音(おん)が多いので、必要以上のマッチを見つけるのだろう。それでも、人間がやってくれる書き起こしサービスに比べると安い(無料!)し、今後少しずつ良くなっていくだろう。
Deepgramの協同ファウンダーでCEOのScott Stephensonはこう説明する: “音声認識の自動化は、まだ完成された技術ではない。特定のデータセットに対しては有能だが、ノイズが多いとだめだ。うちのサービスの結果も、良くないね”。
Deepgramは、機械書き起こしのAPIも無料で提供している。でも、有料サイトに100万分(ふん)の音声データをアップロードしたら、目の玉の飛び出る料金になるだろうから、その500テラバイトのファイルはDeepgramにトロルした方がよいかもね。
書き起こしはまだまだ人力には勝てないが、人工的に合成した音声なら機械学習にも勝つチャンスがあるかもしれない。テキストから音声を生成するWaveNetやLyrebirdのようなプロジェクトを利用して、Deepgramのような機械翻訳システムを、機械が間違えやすい語で訓練すれば、その能力もアップするだろう。