日本語に特化したAI文字起こしサービス「Rimo Voice」が登場、1時間の保存音声を最短5分でテキスト化

Rimoは9月1日、AI文字起こしサービス「Rimo Voice 」をリリースした。日本語に特化した文字起こしサービスで、句読点を含めた自然な日本語を読み込めるのが特徴だ。会議の議事録や会話の記録、取材内容の文字起こしといった利用シーンを想定。1時間の音声データであれば、最短5分で文字化が可能とのこと。

同社は、2019年10月設立のスタートアップ。Rimoで代表でエンジニアを務める相川直視氏は、自然言語処理・検索・推薦技術を専門としており、早稲田大学の検索など大規模並列処理を専門に扱う研究室で学んだあと、Microsoft Researchでのインターンを経てグーグルに入社。検索システムの開発に従事していた人物だ。その後、Wantedlyの開発に参画し、2016年8月よりWantedly Peopleアプリの開発リーダーを務めていた。そして、2019年12月にRimoを創業している。

相川氏は「新型コロナウイルスの影響で、多くの企業がリモートワークを導入し、さまざまな問題に直面していると思います。Rimoは、こういった中でも、新しい働き方が少しでも良いも のになるように支えるサービスを打ち出していきたいと思っています」とプレスリリースで述べている。「Remoにより、言質が取れるだけでなく、温度感やニュアンスも伝えることができます。リモートワークはメンバーと対面しないことで、通常より不信感や不安感を助長する側面がありますが、これにより、例えば上長がメンバーに任せてあえて会議に参加せず、必要があ ればRimo Voiceで確認をとるといったシーンを増やせるはずです。このように、以前から あったものの便利な代替ではなく、新しい働き方をサポートするツールとして考えて使って いただけるとよりうれしく思います」とコメントしている。

相川氏によると、Rimo Voiceでは音声をリアルタイムでテキスト化することも可能だが「前後の意味をきちんと解析して正確なテキストをとして整形するには保存音声のほうがより正確に判別できる」とのこと。

Rimo Voiceは、既存の音声認識技術と組み合わせつつ、独自に開発・カスタマイズした日本語に特化した自然言語処理技術を使うことで、句読点を含めた自然な日本語の認識を実現。文字起こしデータは3〜5行程度で表示されるため可読性が高いのが特徴だ。読み取りがあいまいな箇所は文字の色が薄く表示される機能も備える。もちろん、音声データと文字起こしのデータは同期しているので、文字を選択する該当部分の音声をすぐにチェックできる。

価格は、30秒20円の従量課金がベースとなるが、企業向けの別途定額プランを用意する。新規アカウント作成、もしくはGoogleアカウント、Facebookでログインすれば、約60分の音声データをテキストデータ変換できるトライアルも可能なので、まずはその精度をチェックしてみよう。