周囲の音を消し通話音声だけを分離するKrispのスマートノイズ抑制技術は、絶好のタイミングで登場した。同社は、世界で進むバーチャル化の波に乗り、初期のニッチな需要を実際の顧客需要へと転換し、その時期を得た技術の拡大と多様化を目指して、新規にラウンドAの輝かしい500万ドル(約5億3000万円)の資金を手にした。
私たちが初めてKrispに出会ったのは、同社がUC BerkeleyのSkydeckアクセラレータープログラムから登場(未訳記事)した、2018年のこと(未訳記事)だった。同社はAIスタートアップが急増し始めた時期の初期のものの1つだったが、明快なユースケースと明らかに効果的なテクノロジーを持っていたために、懐疑的に思われることはなかった。
Krispは、人間の声とそうでないものを区別するように訓練された機械学習システムを、リアルタイムで音声に適用する。音声ではないものは、スピーチの中から注意深く取り除かれ、残った音声がより明瞭に聞こえる。それがすべてなのだ!遅延はほとんどなく(15ミリ秒だと宣伝されている)、計算上のオーバーヘッドが少ないため、ほとんどすべてのデバイス、特に最新のスマートフォンのようなAIアクセラレーションユニットを備えたデバイスで動作させることが可能だ。
同社は、スタンドアロンのソフトウェアを無料で提供することから始め、時間制限をなくした有償プランを提供している。また、人気のソーシャルチャットアプリのDiscordにも統合されて出荷された。しかし、当然のことながら、実際のビジネスは企業向けのものだ。
「初期段階では、収益はみなプロフェッショナルたちからのものでしたが、昨年の12月に企業への売り込みを開始しました。新型コロナウィルスはその計画を本当に加速させることになりました」と語るのは、Krispの共同創業者でCEOのDavit Baghdasaryan(ダビット・バグダサリアン)氏だ。「3月の私たちの最大の顧客は、2000人の従業員を抱える大規模なテクノロジー企業でした。そして全員がリモートワークになったため、彼らは2000ライセンスを購入してくれました。銀行やコールセンターなどへの導入を進めているので、徐々に企業による採用が増えています。それでも、誰もがそれを必要としてくれているのですから、Krispは依然として消費者ファースト企業だと考えています、それで良いですよね?」
現在、さらに多くの大企業が契約している。その中には4万人を超える従業員を抱えるコールセンターもある。バグダサリアン氏によれば、同社は1年で有料顧客を0社から600社へ、経常収益を0ドルから400万ドル(約4億2000万円)に引き上げた。おそらく投資家たち(Storm Ventures 、Sierra Ventures、TechNexus、Hive Ventures)にとって、極めて安全な投資先に見えていることだろう。
これは、米国とアルメニアに分かれているKrispチームにとって、大いなる勝利である。アルメニアは同社創業の地であり、グローバルな人材調達アプローチの有効性を実証している。世界的な才能は、カリフォルニア、ニューヨーク、ベルリンといったテクノロジー中心地だけで見つかるわけではない。地元で投資インフラのメリットを享受できない小さな国にも見つかるのだ。
もちろん資金調達は別の話だが、資金を調達した同社は、現在製品とチームの拡大に取り組んでいる。Krispの次の取り組みは、基本的に会話のメタデータをモニターして提示することだ。
「次の開発サイクルでは、ノイズへの対処だけでなく、話者としてのパフォーマンスに関するリアルタイムのフィードバックも得られることになります」と、バグダサリアン氏は説明した。特に司会者としてというわけではなくとも、これまである通話の中で自分がどれくらい喋ったのかとか、あるいは他者にどれくらい割り込んだり割り込まれたりしたのかを、疑問に思ったことはないだろうか?
「話すことは改善可能なスキルです。音声と動画向けのGrammar.ly(英文添削アプリ)を想像してみて下さい」とバグダサリアン氏は強調した。「それがフィードバックを与える方法は精妙なやり方になるでしょう。話している最中に、その場でそれを見る必要はないでしょう。しかし、時間の経過とともに、私たちは話者が話すことを分析し、語彙についてのヒントや、スピーキング能力を向上させる方法を提供します」。
構造上、Krispは出入りするすべての音声に関与しているため、データを収集するのは簡単だ。だが心配する必要はない、同社の他の製品と同様に、処理はすべてプライベートに行われデバイスの上に閉じている。クラウドは必要ないのだ。
「私たちはこの点に強くこだわっています。私たちはデータを決してサーバーに送信しない会社です」とバグダサリアン氏は語る。「私たちがデータに触れることはありません。音声がデバイスの外に出なくても良いように、テクノロジーを開発して最適化するために、さらなる努力を重ねます」。
これは、会話全体を会話を分析するためにサードパーティへ送信することに疑念を抱く、プライバシーオタクたちを安心させることができるだろう。しかし結局のところ、Krispが提供しようとしているアドバイスは、発言の内容を実際に「理解」しなくても実行できるため、その範囲も制限可能だ。それはあなたを現代のキケロ(ローマの政治家、弁論家として有名)にしてはくれないだろうが、より一貫して喋るための手助けをしたり、喋りすぎかどうかを教えてくれたりはするだろう。
ただし当面の間、Krispはノイズ抑制ソフトウェアの改善に引き続き注力していく予定だ。ソフトウェアはここから無料でダウンロードできる。
画像クレジット: Bryce Durbin / TechCrunch
[原文へ]
(翻訳:sako)