ここ数年、音声や動画のコンテンツやインターフェースが爆発的に増えているのは明らかだが、それらのメディアを扱う方法はまだ発展途上だ。そんな中、AssemblyAIが2800万ドル(約32億1000万円)の新たな資金調達により、音声解析のための主要なソリューションとなることを目指す。同社の超シンプルなAPIを利用することで、一度に数千の音声ストリームの文字起こし、要約、その他何が起きているのかを把握することができる。
電話や会議がビデオ通話になり、ソーシャルメディアの投稿が10秒のクリップ動画になり、チャットボットが発話し、音声を理解するようになるなど、マルチメディアは信じられないほど短期間に多くのものの標準となった。数え切れないほどの新しいアプリケーションが登場してきているが、他の新しい成長産業と同様に、アプリケーションを適切に実行したり、アプリケーションの上に新しいものを構築したりするためには、アプリケーションが生成するデータを操作できる必要がある。
問題は、音声はもともと簡単に扱えるものではないことだ。音声ストリームの「検索」はどのように行えば良いだろう。波形を見たり、通して聴いたりすることもできるが、それよりもまずは文字に書き起こして、その結果得られたテキストを検索する方が良いだろう。そこでAssemblyAIの出番となる。音声文字起こしサービスは数多くあるものの、自社のアプリや業務プロセスには簡単に組み込めない場合が多い。
AssemblyAIのCEOで共同創業者のDylan Fox(ディラン・フォックス)氏は「音声コンテンツのモデレーションや検索、要約を行う場合には、データをより柔軟で、その上に機能やビジネスプロセスを構築できる形式に変換する必要があります」と語る。「そこで、Twilio(トゥイリオ)やStripe(ストライプ)のように、たとえハッカソンの場でも使えるような、誰でも使える超高精度の音声分析APIを作ろうということになったのです。こうした機能を組み上げるためには多くの支援が必要ですが、その際にあまりにも多くのサービスプロバイダーを組合せたくはありません」。
AssemblyAIは、極めてシンプルに(1、2行のコードで)呼び出せる数種類のAPIを提供しているが、そのAPIを利用することで「このポッドキャスト中に禁止されている内容がないかチェックする」「この会話の話者を特定する」「この会議を100文字以内に要約する」などのタスクを実行することができる。
コードして、コールして完了(画像クレジット:AssemblyAI)
だが、私もそうだったが、この仕事が一歩踏み込めばどれだけ複雑な作業になるかと考えると、果たして小さな会社がこれだけ多くのことを簡単にこなせる道具を作れるのかどうかと疑問に思うだろう。フォックス氏は、これが困難な課題であることを認めつつも「技術は短期間で大きく進歩したのです」と語った。
「特にここ数年で、こうしたモデルの精度が急速に向上しています。要約、勘定識別……どれも本当に良くなりました。そして、私たちは実際に最先端の技術を推進しています。私たちは大規模なディープラーニング研究を行っている数少ないスタートアップの1つですので、私たちのモデルは、世間一般のものよりも優れているのです。研究開発やトレーニングのためのGPUや計算資源には、今後数カ月間だけでも100万ドル(約1億1500万円)以上を投入します」。
簡単にはデモンストレーションできないので、直感的に理解するのは難しいかもしれないが、画像生成(「このXXは存在しません」の類)やコンピュータービジョン(顔認証、防犯カメラ)と同様に、言語モデルも進歩してきている。もちろん、GPT-3はその身近な例だが、フォックス氏は、書き言葉を理解し生成することと、会話やくだけた話し方を分析することは、実質的にまったく別の研究領域であると指摘する。よって機械学習技術の進歩(トランスフォーマーや新しい効率的なトレーニングのフレームワーク)は両者に貢献してきたが、多くの意味ではそれらはリンゴとオレンジの関係(同じ果物というだけで、それ以外の属性は異なっている)のようなものだ。
いずれにせよ、数秒から1時間程度の音声でも、APIを呼び出すだけで効果的なモデレーションや要約処理を行うことができるようになった。これは、ショートビデオのような機能を開発したり統合したりする際などにとても有効だ。たとえば1時間に10万件ものクリップがアップロードされることを想定した場合、それらがポルノや詐欺、パクリでないことを確認する最初のスクリーニングはどうすれば良いだろう?また、そのスクリーニングプロセスを構築するためにローンチがどれくらい遅れるだろう?
フォックス氏は、このような立場にある企業が、ちょうど決済プロセスの追加に直面したときと同様に、簡単で効果的な方法を選ぶことができるようになることを希望している。つまり機能をゼロから自分で構築することもできるし、15分で「Stripe」を追加することもできるということだ。これは、根本的に望ましいものだというだけでなく、Microsoft(マイクロソフト)やAmazon(アマゾン)などの大手プロバイダーが提供する、複雑でマルチサービスなパッケージの中の音声分析製品とは明らかに一線を画している。
インタビューに答えるフォックス氏(画像クレジット:Jens Panduro)
同社はすでに数百の有料顧客を数え、2021年1年間で売上を3倍に伸ばし、現在は1日100万件のオーディオストリームを処理している。フォックス氏はいう「100%ライブストリーム処理です。大きな市場と大きなニーズがあり、お客様からの支払いもあります」とフォックス氏はいう。
2800万ドル(約32億1000万円)のラウンドAは、Accelが主導し、Y Combinator、John(ジョン)とPatrick(パトリック・コリソン)氏 (Stripe)、Nat Friedman(ナット・フリードマン)氏 (GitHub)、そしてDaniel Gross(ダニエル・グロス)氏(Pioneer)が参加している。全額を、採用、研究開発インフラ、製品パイプラインの構築などに振り向ける計画だ。フォックス氏が指摘したように、同社は今後数カ月の間にGPUとサーバーに100万ドル(約1億1500万円)を投入する(大量のNVIDIA A100が、信じられないほど計算集約型の研究とトレーニングのプロセスを支えることになる)。もしそうしなければ、クラウドサービスにお金を払い続けることになるのだから、間借り生活から早めに脱却したほうが良いのだ。
採用に関しては、音声解析関連技術に力を入れているGoogleやFacebookと直接競合するため、苦労するのではないかと質問してみた。しかし、フォックス氏は楽観的だった。そうした大企業の文化が遅く窮屈なものであると感じているからだ。
「本当に優秀なAI研究者やエンジニアには、最先端で仕事をしたいという願望が間違いなくあると思います。そして同時に実用化の最先端にも関わりたいという願望です」と彼はいう。「革新的なことを思いついたら、数週間後には製品化できる…そんなことができるのはスタートアップ企業だけです」。
画像クレジット:AssemblyAI
[原文へ]
(文:Devin Coldewey、翻訳:sako)