会議や講演の音声をAIで自動的に文字起こしする「Smart書記」が8500万円を調達

会議や商談、インタビュー、記者発表などにおける会話や音声をテキストに変換したいと思った場合、ICレコーダーやスマホのボイスレコーダーアプリなどを使って録音し、人力で文字起こしをすることが多いのではないだろうか。

一方でエピックベースが手がける「Smart書記」は、AI音声認識技術を用いてマイクが拾った音声をリアルタイムに自動で文字に起こす。ユーザーはその内容を基に編集を加えるだけでいいので、ゼロから文字起こしをしていた時に比べて手間が少ない。

Smart書記は電子書籍の流通事業などを手がけるメディアドゥの新規事業として2018年6月にスタート。無料のトライアル利用も含めて累計で800社以上に活用されてきた。今後の成長を見据えた上でメディアドゥから切り出すことを決め、現在はカーブアウトする形で2020年1月に設立されたエピックベースが運営を担っている。

そのエピックベースは3月12日、メディアドゥからの独立とともに、メディアドゥホールディングス、Coral Capital、三木寛文氏、宮田昇始氏(SmartHR代表取締役)、内藤研介氏(SmartHR取締役副社長)より総額8500万円の資金調達を実施したことを明らかにした。

音声データをリアルタイムでテキストに変換

Smart書記はマイクから集音した音声をAIによる音声認識技術によって自動で文字に起こしてくれるSaaS型のプロダクトだ。大きく「収録・文字起こし」「編集」「出力」の3つの機能を通じて、会議の議事録や講演録などを作成する際のユーザーの文字起こし業務を支援する。

まずユーザーはICレコーダーなどで録音する代わりに、Smart書記を開き音声を吹き込む。たとえば会見であれば発表者が装着したワイヤレスピンマイクを通じてバックヤードのPCで音声を取得する、会議であれば参加者が自分のPCにピンマイクを指して収録する、取材や商談であればスマホやタブレット(Smart書記のiOSアプリ)を机に置いて会話をする、そんなイメージだ。

そうやって音声を入力していくと、“発言ごとに細かく区切った状態で”リアルタイムにどんどんテキスト化されていく。この細かく区切るというのが1つの特徴で、これによって各パートごとにテキストを編集することはもちろん、後から確認したいと思った時にその部分だけをピンポイントで再生することもできる。

会議など複数人の会話を文字に起こしたい場合、各々がマイクをつけた状態で収録すれば発言者の名前(音声入力した人の名前)が自動で入力され、誰がどの発言をしたのかがわかるのも使いやすいポイントだ。テキスト化する際には、辞書登録を行うことで誤り語句を自動的に訂正語句へと置き換えてくれる「訂正学習機能」や会話を自動翻訳してくれる「同時翻訳機能」も役に立つ。

そのほかにもセクションを分けたり補足のコメントを追加したりする機能、重要な箇所をハイライトするマーカー機能などを搭載。テキストデータはExcel、Word、テキストファイル形式でダウンロードできる。

料金体系は月額10万円からの定額制。文字起こしをした時間の合計時間が200時間を超える場合には、1時間あたり500円の追加料金がかかる仕組みだ。

エンタープライズや自治体を中心に活用進む

もともとSmart書記はメディアドゥと徳島県が2017年10月から6ヶ月に渡って行った実証実験を機に生まれたプロダクトだ。

これは県知事による記者会見の議事録を作成する際、AIを活用して文字起こしとテキストの要約を効率化することを目的として実施したもの。開発前の段階ではAI要約の方のニーズが強かったそうだが、実際にやってみると文字起こしの方により大きな効果があったという。その後展示会に出してみても反響が良かったため、2018年6月に自動文字起こしサービスとして正式にリリースした。

たとえば徳島県庁の事例では議事録作成までにかかっていた工数を約10時間から約2時間にまで減らすことができたそう。知事の発言をWebサイト上で公開するまでのスピードも、約4日ほどかかっていたところが即日になった。

エピックベース代表取締役の松田崇義氏によると導入企業の約8割がエンタープライズや自治体関係とのこと。会議の議事録作成が義務化されていたり、会見の内容をテキストで発表したりするなど文字起こしのニーズが高く、なおかつその頻度も多い大企業・自治体からは特にニーズが高い。多い時には1日で10件前後の問い合わせもあるそうだ。

この「音声データを手間なくテキストにしたい」というニーズは国内外で共通するものだろう。国内では音声認識技術を手がけるアドバンストメディアなど複数社が文字起こしシステムを展開しているほか、海外でも1月にNTTドコモが協業を発表したOtter.aiなど複数のプレイヤーが存在する。

現在Smart書記では音声認識と翻訳の技術についてはGoogleのAPIを活用。一方で同じエンジンを使っていても「どれだけクリアな音声を入れるかによって精度はかなり変わってくる」ので、その質を高めるための運用サポートや、編集のしやすさを中心としたプロダクダクトの使い勝手の改善に力を入れてきた。

同時翻訳機能を使えば、文字起こししたテキストの下に自分が設定した言語へ翻訳した内容が一緒に表示される

「精度はもちろん高い方がいいが、100%の精度を求められているというよりも、80〜90%くらいで運用負荷が少なく確実に文字起こしの業務効率化に繋がるサービスが必要とされている。実際に導入検討頂く際にはある程度の精度を担保しているという前提で、運用の負荷が1つめのポイント、その次に情報セキュリティの観点も入ってくる。同じ領域のサービス自体はいくつかあるものの、これらの要件を満たしたものはまだ少ない」(松田氏)

音声データをビジネスシーンで有効活用できる基盤に

今回調達した資金は主にプロダクト開発やサポート体制を強化するための人材採用に用いる。まずは文字起こしの作業負担削減を支援するプロダクトとしてアップデートをしつつ、そこで取得した音声データをビジネスの現場でもっと有効活用できるような基盤を整えていく計画だ。

「2000年前半にブロードバンドやWindowsが本格的に普及した結果、PCを使って仕事をする人が増えた。そして2010年前半にはスマホやタブレットが登場し、チャットやクラウドサービスがビジネスの現場で広がった。これまでテクノロジーやネットワーク回線の進化がビジネスシーンにも大きな影響をあたえてきたが、今後キモになるのは『音声』。音声を取得するための高品質なデバイスや5Gの登場によって、ここからまたビジネスが変わると考えている」

「まずは目の前にある『文字起こしの作業負担を軽減したい』という顧客の課題をしっかり解決する。その上で音声データが溜まってきたフェーズでは、たとえば音声ファイルを検索して移動中などにすぐ聞けるようにするなど、ビジネスの現場で音声を活用できる基盤を作っていく。企業が音声という資産をSmart書記に蓄積していくことで、もっと有効活用できるようにしていきたい」(松田氏)

エピックベース代表の松田氏はSmart書記ローンチ時からのメンバーではなく、2019年7月よりメディアドゥに加わり事業部長として同サービスの成長を牽引してきた。

もともとは新卒入社した楽天を経てデジタルガレージに転職し、スタートアップへの投資やアクセラレータプログラム「Open Network Lab(オンラボ)」の運営を担当。その後参画したフーモアでは取締役COOも務めた人物だ。

ちなみに今回のラウンドにはSmartHRの宮田氏や内藤氏も個人投資家として参加しているが、彼らとはオンラボ時代からの縁(同社はオンラボの卒業生)もあり、“エンジェル投資”という形で一緒にチャレンジすることになったという。

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。