AI利用のリアルタイム英語音声文字起こし「Otter. ai」とNTTドコモが日本向け法人プラン独占販売契約

AI利用のリアルタイム英語音声文字起こし「Otter.ai」が日本上陸、NTTドコモが法人向けプラン独占販売

NTTドコモ(ドコモ)は、英語音声を自動で文字起こしをする音声認識AIサービス「Otter」(Android版iOS版)のBusinessプラン販売について、日本における2年間の独占販売契約をOtter.aiと締結し、販売を開始したと発表した。Otter Businessプランを利用したい企業は、ドコモを通じて契約することで日本円での請求書払いが選択可能となる。利用料金は、1アカウント税込3万3000円/年(年間契約のみ)。

また同社は、100%子会社NTTドコモ・ベンチャーズを通じ、Otter.aiに2021年3月に追加出資すると明らかにした。

Otter Businessプランでは、無料プランで提供する主要機能に加え、機能を使用できる。

  • Zoomミーティング/ウェビナーではアプリ間連携により、参加者全員の音声文字起こしが可能(Zoomミーティング/ウェビナーでアプリ連携をする場合、Zoom Proプラン以上の契約が必須)
  • 会話録音データの一元管理が可能
  • チーム内での固有名詞/人名単語登録、およびその共有が可能
  • チーム内でユーザーの音声識別情報を相互共有、およびその情報に基づく話者分類が可能
  • 使用状況に関する統計レポートの確認が可能
  • SSO認証の適応が可能(適応条件:使用者数100名以上)

今後は、自動翻訳アプリ「はなして翻訳」で培った音声翻訳のノウハウを持つドコモ、精度の高い文字起こし技術を持つOtter.aiに加え、TOEIC960点相当の機械翻訳サービス「Mirai Translator」を提供するみらい翻訳の3社で連携し、より高度なサービス提供に向けた検討を進めるとしている。

ドコモとドコモ・ベンチャーズは、今回の契約を足がかりに、Otter.aiと協力して日本市場における文字起こしの新規マーケット開拓、サービス開発、様々なパートナーとの連携強化を推進する。

AI利用のリアルタイム英語音声文字起こし「Otter.ai」が日本上陸、NTTドコモが法人向けプラン独占販売

Otterは、AI技術を活用し、PCやスマートフォンで録音した英語音声をリアルタイムでテキスト化するサービス。前後の文脈に合わせて文章を自動修正しながらリアルタイムかつ精度の高い文字起こしを行えるほか、発話者の音声識別、複数の発話者と内容をセットでデータ化することなども可能。

英語での会議や講演会、インタビューなどの議事録やレポートの作成時間を大幅に削減でき、さらに録音した会話やそのテキストを用いた振り返りなども行える。

主な機能

  • 前後の文脈に合わせて文章を自動修正しながらリアルタイムに精度の高い文字起こしが可能
  • リッチノート機能により、画像挿入、文字編集、ハイライト操作が可能
  • ユーザーの音声をAIが学習して話し手を明確に識別し、ラベリングして記録
  • 直感的な操作による議事録(会話音声)データの共有が可能

関連記事
パンデミックに後押しされて会議の文字起こしサービスOtter.aiが約53億円を調達
AIを利用したリアルタイム音声文字起こしサービスOtter.aiがGoogle Meetでも利用可能に
Zoom会議のリアルタイム文字起こし機能をOtter.aiが提供
AIを使った音声テキスト変換アプリOtterがNTTドコモなどから戦略的投資10億円獲得

カテゴリー:ソフトウェア
タグ:AI / 人工知能(用語)NTTドコモ(企業)NTTドコモ・ベンチャーズ(企業)Otter.ai(企業・サービス)音声認識 / Voice Recognition(用語)みらい翻訳(企業)文字起こし / Transcribe(用語)自然言語処理(用語)日本(国・地域)

議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開

議事録自動作成用AIツール26種類をまとめた「議事録作成AIカオスマップ」が公開

人工知能(AI)を搭載したサービスの資料請求ができるAIポータルメディア「AIsmiley」を運営するアイスマイリーは3月8日、議事録自動作成用AIツールをまとめた「議事録作成AIカオスマップ」を公開した。掲載数は合計26サービス。

議事録自動作成用AIツールは、時間と労力がかかる議事録の文字起こしを、AIが代行してくれるというもの。AIが人の声を認識してテキストデータ化したり、複数の言語間を自動的に翻訳しテキスト化するといった技術の導入が進んでいる。

録音された音声を聞きながら文章として構成するのは楽な作業ではなく、場合によっては聞き間違いや聞き漏らしなどのミスも発生する。

間違いの修正など時間のロスを最小限に留め、より効率的に議事録を作成するための方法として最近注目されているのが、音声認識機能を活用した議事録自動作成のAIツールという。

ただ議事録作成AIには、ツールによって機能や実現できる内容に違いがあり、自社の課題は何か、どんな結果を実現したいのかという観点から、ツールごとの違いを比較検討することが重要としている。

また、議事録作成AIは、録音した音声から文字起こしを行うものと、リアルタイムで音声の文字起こしをするもの、日本語のみ対応・多言語対応といった違いもある。活用シーンによって選択すべきツールも異なるそうだ。

議事録作成AIカオスマップは、「議事録作成AIを試したい」企業や「議事録作成を行う最新のAIツールを探している」企業に向け、26の製品サービスを取りまとめ、マッピングしたもの。「大サイズの議事録作成AIカオスマップ(PDF)」と「議事録作成AIベンダー一覧(Excel)」が必要な場合は、問い合わせフォームから連絡することで入手できる。

関連記事
マイクロソフトが会議で文字起こしや翻訳を行うアプリ「Group Transcribe」を発表
現場状況を遠隔地と共有可能な「コネクテッドワーカーソリューション」のフェアリーデバイセズが10.2億円調達
アマゾンがEchoデバイスを使った「ライブ翻訳」機能をローンチ
LINEがOpenAI「GPT」・Google「T5」同様の超巨大汎用言語モデルをNAVERと共同開発、世界初の日本語特化
日本語に特化したAI文字起こしサービス「Rimo Voice」が登場、1時間の保存音声を最短5分でテキスト化
発言者ごとの文字起こし・議事録作成可能な「Sloos」がマイクロソフトの法人向けアプリストアで提供開始
マイクロソフトやアマゾンが音声認識チップの新興メーカーSyntiantに出資
会議や講演の音声をAIで自動的に文字起こしする「Smart書記」が8500万円を調達
AIを使った音声テキスト変換アプリOtterがNTTドコモなどから戦略的投資10億円獲得

カテゴリー:人工知能・AI
タグ:アクセシビリティ(用語)AI / 人工知能(用語)音声認識 / Voice Recognition(用語)カオスマップ(用語)機械翻訳(用語)自然言語処理(用語)文字起こし / Transcribe(用語)日本(国・地域)

偏見や不適切な語調を検知するAIスタイルガイドサービスWriterがシードラウンドで約5億円を調達

オンラインやオフラインの文書作成ツールで文章を書く人なら誰でも、スペルが間違っている単語や拙い表現の下に必ず出現するあの波線にすっかり慣れていることだろう。しかし、別の意味合いを含む言葉や、堅苦し過ぎる表現、または馴れ馴れしい表現を使ってしまった場合、あるいは、ある集団に対して今は使われなくなった呼称を使ってしまった場合はどうだろうか。Writer(ライター)は、文章を打ち込んでいるときに指定のスタイルガイドや価値基準から外れている言葉を入力すると、その場で警告してくれるサービスだ。そのWriterが最近、事業を拡大するために500万ドル(約5億3000万円)を調達した。

Writerのサービスを利用する個人も企業も、単に文法やつづりの誤りを検知する以上のレベルで、文章の質を向上させたいと願っている。もし、インクルーシビティ(包含性)を大切にすると主張する企業のプレスリリースや社内ブログに時代錯誤な考え方や偏見を示す表現が散見されたら、その企業がインクルーシビティを大切にしたいという思いはその程度のものなのだ、と示すことになってしまう。

Writerの創業者兼CEOのMay Habib(メイ・ハビブ)氏はこう語る。「企業は自分たちの発言を裏付ける行動をしようと躍起になっている。ユーザーとの接点があるすべての場所で、一貫性のあるメッセージを発信できるようになりたいと考えているためだ。そこでWriterは、配慮に欠けた言葉やネガティブに受け取られかねない表現が文章に含まれていた場合に、それを作成者に知らせるサービスを提供し、企業がブランドのガイドラインを設定するサポートをしている」。

企業が提供するコンテンツや公式なコミュニケーションにおいては普通のことになっているとはいえ、従業員が使う言葉を企業が指図するなんて少し不吉な感じがすることは否めない、というのが第一印象だろう。 しかし、今回注目したいのは、権力を振るうために言論を統制するという側面ではなく、意思伝達を完璧に行える人間は存在せず、誠実であるためには助けが必要であるという事実を認めることである。警察というよりも、物知りの天使が「その弁護士のことを『エキゾチック』と表現して大丈夫?」と耳元でささやいて教えてくれるようなものだ。

Writerがチェックする項目の一例。出典:Writer

我々は皆、言葉の使い方の点で数えきれないほどの失敗をするものだ。気づかれにくいものもあるが、だからといって人を傷つける可能性が低くなるわけではない。広報の現場では特に、特定の集団を表すために、こちらが真っ先に思い浮かべた名称ではなく、その集団が好む名称を使うことが重要である。このような情報について、Writerは、当事者のコミュニティから収集した最新のライブラリを備えている。中には、ここ数年の間に政治的に別の意味合いを含むようになったフレーズもあるが、それを知らなくても心配はいらない。Writerが代替案を教えてくれる。必要以上に性別を意識させる表現を使いたくないと考えて言葉遣いに配慮したくても、ところどころでミスしてしまうことは誰にでもある。そんなときも、Writerを使えばそのミスに気づくことができるし、先述される代名詞と関連づけて判断して、匿名の情報源を性別に結びづけずに言及できる。

Writerには、「ポリティカル・コレクトネス」に関する非難が付いて回るだろう。しかし、ハビブ氏は次のように説明する。「これは政治的に正しいかどうか以前の問題である。特定の生き方または在り方をしていて、特定の表現の使用を好む人々を尊重するかどうか、という問題なのだ。自分の居場所があると誰もが感じられるコミュニティを企業が築けるようにすること、当社はその手助けをしている」。我々がテクノロジー業界で繰り返し目にしてきたように、企業がある理念をどんなに熱く語っても、同じ企業がその理念とは相反する方法で従業員を扱っている、というのはよくある話だ。正直なところ、単に適切な言葉を使うだけというのは、スタート地点としてはハードルが低すぎるのではないかと思う。

Image Credits: Writer

しかし、Writerは単に要注意表現をリスト化して更新していくだけのサービスではない。Writerの中核であるNLP(自然言語処理)エンジンは、文章構造の複雑さ、段落の長さ、語調などにも深く配慮して開発されている。Writerにはそのような奥深い理解が必要である。「指摘するために下線を表示するだけでは不十分である。どの箇所をどの表現で置き換えるべきかを理解する必要があり、その表現を文章になじませる必要もある。これらはNLP上の難問だ」と、ハビブ氏は説明している。

そのため、WriterのNLPエンジンは、インクルーシビティに配慮した表現だけでなく、さまざまな役割に適応できる。例えば、通常のスペルミスや文法ミスに加えて、フォーマルさの度合い、能動態、「生き生きした表現」(これが何であれ、筆者にはないものだ)など、ブランドのイメージを決定づける上で役立ついろいろなメトリクスに対応できる。

もちろん、Writerで自社独自のスタイルガイドを使うこともできる。そうすれば、編集担当者は目を皿のようにして、メインタイトルにシリアルコンマが使われていないか、emダッシュの代わりに二重ダッシュが使われていないか、「email」とすべきところが「e-mail」になっていないかをチェックする必要がなく、そのブランドとして一般に認識されるような文体を保つための細かいルールで頭をいっぱいにする必要もない。

Image Credits: Writer

Writerでは、複数のスタイルガイドを切り替えて使用することや、アプリやサイトによってスタイルガイドの調整や無効化を行うことができる。そのため、社内メールとプレスリリースでガイドラインを使い分けることも、ブログ投稿とニュースレターとでスタイルを分けることもできる。

この分野で明らかに最大のライバルとなるのがGrammarly(グラマリー)だが、ハビブ氏は、Grammarlyも、増え続けるブラウザ内・アプリ内校正サービスも、技術的な面にフォーカスしていると考えている。Writerにとっては、個々の文書作成者のミスを防ぐことよりも、複数の文書作成者の間で一貫性を確保し、言語面で同じ総合基準を守りながら作業できるようにすることの方が重要な課題だ。

もちろん、セキュリティも重要である。どんなに便利なツールだったとしても、キー入力した内容がすべて記録されることを望む人はいない。ハビブ氏は、Writerは現時点でブラウザ用プラグインとしてローカルで実行され、WordまたはChromeへのみ統合が可能だが、他のアプリやサービスにも今後対応していくと慎重な言葉遣いで強調した。同氏は「そのようなアプリやサービスのデータがWriterのサーバーに保存されることも、メタデータが生成されることもない。処理はすべてテキスト領域で実行される」と説明している。Writer側に送信されるデータは、例えば「should of」を「should have」に、「illegal aliens」を「undocumented immigrants」に修正したなど、提示された修正案が使用されたという事実のみだという。このモデルをトレーニングするためにユーザーのデータが使用されることはなく、修正そのもの以外のコンテンツがWriterに送信されることも、Writerのサーバーに保存されることもない。

Writerは現在、ベーシック版は1ユーザーあたり毎月11ドル(約1200円)で利用できる(もちろん、無料トライアル期間が必ず付いてくる)。複数のスタイルガイドが使用できて、盗用検出などの機能が使えるエンタープライズ版もあるが、利用料金は不明だ。また、対応している言語は英語のみである。もちろん、他の言語でもこのサービスのニーズはあるが、NLPモデルの奥深さと、同モデルが認識する表現がその言語において持つ特異性を考えると、他言語への展開は簡単にはいかない。例えば、スペイン語や韓国語に対応するには、まったく新しい製品を開発する必要があるだろう。そのため、現時点では英語のみの対応となっている。

Writerは創業して間もない企業で、NLPエンジンを(GitHubリポジトリで対ユーザー言語をモニタリングするという取り組みを前身として)18か月間、まるでステルスのようにひっそりと開発してきた。Upfront Ventures(アップフロント・ベンチャーズ)、Aspect Ventures(アスペクト・ベンチャーズ)、Bonfire Ventures(ボンファイア・ベンチャーズ)、Broadway Angels(ブロードウェイ・エンジェルズ)がリードしたシードラウンドで調達した500万ドル(約5億3000万円)が、同社のさらなる事業拡大を後押しすることは間違いない。同社の顧客にはすでに一流の有名企業が名を連ねている。その実績と今回の資金調達のおかげで、しばらくは安泰だろう。

関連記事:日本語に特化したAI文字起こしサービス「Rimo Voice」が登場、1時間の保存音声を最短5分でテキスト化

カテゴリー:人工知能・AI

タグ:資金調達 自然言語処理

[原文へ]

(翻訳:Dragonfly)

日本語に特化したAI文字起こしサービス「Rimo Voice」が登場、1時間の保存音声を最短5分でテキスト化

Rimoは9月1日、AI文字起こしサービス「Rimo Voice 」をリリースした。日本語に特化した文字起こしサービスで、句読点を含めた自然な日本語を読み込めるのが特徴だ。会議の議事録や会話の記録、取材内容の文字起こしといった利用シーンを想定。1時間の音声データであれば、最短5分で文字化が可能とのこと。

同社は、2019年10月設立のスタートアップ。Rimoで代表でエンジニアを務める相川直視氏は、自然言語処理・検索・推薦技術を専門としており、早稲田大学の検索など大規模並列処理を専門に扱う研究室で学んだあと、Microsoft Researchでのインターンを経てグーグルに入社。検索システムの開発に従事していた人物だ。その後、Wantedlyの開発に参画し、2016年8月よりWantedly Peopleアプリの開発リーダーを務めていた。そして、2019年12月にRimoを創業している。

相川氏は「新型コロナウイルスの影響で、多くの企業がリモートワークを導入し、さまざまな問題に直面していると思います。Rimoは、こういった中でも、新しい働き方が少しでも良いも のになるように支えるサービスを打ち出していきたいと思っています」とプレスリリースで述べている。「Remoにより、言質が取れるだけでなく、温度感やニュアンスも伝えることができます。リモートワークはメンバーと対面しないことで、通常より不信感や不安感を助長する側面がありますが、これにより、例えば上長がメンバーに任せてあえて会議に参加せず、必要があ ればRimo Voiceで確認をとるといったシーンを増やせるはずです。このように、以前から あったものの便利な代替ではなく、新しい働き方をサポートするツールとして考えて使って いただけるとよりうれしく思います」とコメントしている。

相川氏によると、Rimo Voiceでは音声をリアルタイムでテキスト化することも可能だが「前後の意味をきちんと解析して正確なテキストをとして整形するには保存音声のほうがより正確に判別できる」とのこと。

Rimo Voiceは、既存の音声認識技術と組み合わせつつ、独自に開発・カスタマイズした日本語に特化した自然言語処理技術を使うことで、句読点を含めた自然な日本語の認識を実現。文字起こしデータは3〜5行程度で表示されるため可読性が高いのが特徴だ。読み取りがあいまいな箇所は文字の色が薄く表示される機能も備える。もちろん、音声データと文字起こしのデータは同期しているので、文字を選択する該当部分の音声をすぐにチェックできる。

価格は、30秒20円の従量課金がベースとなるが、企業向けの別途定額プランを用意する。新規アカウント作成、もしくはGoogleアカウント、Facebookでログインすれば、約60分の音声データをテキストデータ変換できるトライアルも可能なので、まずはその精度をチェックしてみよう。