WaveOne、ビデオのAIネイティブ化とストリーミングの変革を目指す

ビデオはとても長い間、同じように機能し続けてきた。機械学習の爆発的な普及によって業界が刻々と変化しても、ビデオはその独自の性質により、ほとんど影響を受けていない。WaveOneは、数十年前からあるビデオコーデックのパラダイムをAIベースにすることでこの状況を変えようと試みており、コーデックの革命を目指す技術者やAI主導のスタートアップが陥りがちな落とし穴を避けつつこれに取り組んでいる。

同スタートアップは、最近まで紙面やプレゼンテーションで結果を発表する以外大きな動きを見せていなかったが、先日調達した650万ドル(約6億8000万円)のシードラウンドにより、実際の製品をテストし、展開していく準備が整ったようだ。これはニッチな領域ではない。ビデオ圧縮はやや目立たない存在でもあるが、現代のインターネットで最も重要なプロセスの1つになっていることは間違いない。

デジタルビデオが誕生してから辿ってきたことを簡単に説明しよう。開発者がビデオの圧縮と解凍のための標準的なアルゴリズムであるコーデックを作成する。このコーデックは、一般的なコンピューティング・プラットフォーム上で容易に配布および実行できる。MPEG-2やH.264などがこの方式である。動画の圧縮というハードな作業はコンテンツプロバイダーやサーバーで可能となるが、解凍という比較的軽い作業はエンドユーザーのマシンで行われる。

このアプローチは非常に効果的で、コーデックの改善(より効率的な圧縮を可能にする)によってYouTubeのようなサイトの可能性を広げてきた。動画が10倍の大きさだったら、YouTubeのローンチはもっと遅れていただろう。もうひとつの意義ある変化は、コーデックのハードウェアアクセラレーションの活用である。コンピューターやGPUにコーデックが組み込まれたチップが搭載されると、スマートフォンの汎用CPUよりもはるかに高速に解凍タスクを実行できるようになる。1つだけ問題がある。新しいコーデックには新しいハードウェアが必要となる。

ただし、新しい携帯電話には機械学習モデルを実行するために設計されたチップが搭載されており、コーデックのように高速化できる。しかし、ハードウェアはこのモデルに適していない。では、このMLに最適化されたチップをビデオに使用してはどうだろうか。それこそがWaveOneがやろうとしていることだ。

WaveOneの共同創設者兼CEOのLubomir Bourdev(ルボミール・ボールデフ)氏とCTOのOren Rippel(オレン・リッペル)氏の素晴らしい経歴にもかかわらず、当初著者はかなり懐疑的な視点で話を聞いた。コーデックを扱う会社が現れたり消えたりしているのを見てきたが、テクノロジー業界はいくつかのフォーマットや標準を融合させ、それを恐ろしくゆっくりと改訂してきた。例えば、H.265は2013年に導入されたが、その前身であるH.264はその数年後にやっとのことで普及し始めている。その傾向は、バージョン7からバージョン7.1というより、3G、4G、5Gシステムの移行に類似する。つまり、無料でオープンソースの優れたものであっても、より小さなオプションは業界にまたがる標準の歯車の下に潜んでしまう傾向がある。

コーデックのこうした状況に加えて、スタートアップが事実上すべてを「AI駆動型」と説明することを好むという事実から、良くても見当違い、悪ければ詐欺的なものだろうと想像していた。しかし、嬉しい驚きがもたらされた。WaveOneのやろうとしていることは後から考えると明らかに正しく感じられ、先駆者アドバンテージを有するように思われる。

リッペル氏とボールデフ氏が最初に明らかにしたのは、AIが実際にここで果たすべき役割を持っているということだ。H.265のようなコーデックは多くの点で非常に進歩しているが、決してスマートではない。一般的には、エンコーディングのカラーやディテールのどの部分により多くのビットを入れるべきかを提示することはできるが、例えば、微調整を施したい顔がショットのどこに位置しているか、時間を節約するために特別な方法で実行できるサインやツリーがあるのかといったことを判断することはできない。

しかし、顔とシーンの検出は、コンピュータビジョンの中で現実的に解決されている問題である。 ビデオコーデックが顔の存在を認識して、それに応じた量のリソースを割り当てるようになっていないのはなぜだろうか。これは良い質問である。答えは、コーデックの柔軟性が十分ではないということだ。そうしたインプットには対応しない。おそらくH.266が出るころには実現され、数年後にはハイエンドデバイスでサポートされるようになるだろう。

では、今どうするか。多くの携帯電話やコンピュータが備えている、あるいはすぐに備えることになるであろうAIアクセラレーター上で動作する動画圧縮・伸長アルゴリズムを構築し、シーンやオブジェクトの検出を最初から統合するのが正解だ。Krisp.aiは音声が何であるかを理解し、きわめて複雑なスペクトル分析をせずにそれを分離する。同じように、AIは視覚的なデータを使って驚くほど高速に判断し、実際の動画圧縮の部分にそれを渡すことができる。

画像クレジット:WaveOne

 

データの可変かつインテリジェントな割り当てにより、画質を犠牲にすることなく圧縮プロセスを非常に効率的に行うことができる。WaveOneは、ファイルのサイズを半分にまで縮小しながら、より複雑なシーンで改善が得られると主張している。何億回も動画を配信したり100万人に一度に配信したりする場合、このサイズの増加は言うに及ばず、数パーセントの端数でも加算される。帯域幅は以前ほどコストがかからないが、それでも無料ではない。

また、画像を認識する(あるいは指示を受ける)ことで、コーデックがその内容の種類を判別できるようになる。もちろん、ビデオコールでは顔の認識が優先されるかもしれないが、ゲームストリーマーは細かい部分にこだわりを持つだろうし、アニメーションは大きな単色領域でのアーティファクトを最小限に抑えるためにさらに別のアプローチを必要とする。これがすべて、AIを利用した圧縮方式によってその場で実行できる。

消費者向けテクノロジーを超えたものも予測できる。コンポーネント間または中央のサーバーにビデオを送信する自律運転車は、車両、歩行者、動物など自律システムが重要と指定したものに焦点を当て、意味のない空や遠くの木々などに時間とビットを無駄にしないようにすることで、時間を節約し、ビデオの品質を向上させることができる。

コンテンツ認識のエンコードおよびデコードは、おそらくWaveOneが主張する最も汎用性が高く、理解しやすい利点であるが、この方法は帯域幅の問題による中断に対してはるかに耐性があるとボールデフ氏はさらに説明している。従来のビデオコーデックのもう1つの欠点は、いくつかのビットが欠けていると全体の操作が中断されてしまうことだ。だからフレームがフリーズするなどの問題が起きるわけだ。しかし、MLベースのデコーディングは、どんなビットがあってもそれに基づいて簡単に「最善の推測」を生成できるので、帯域幅が突然制限されてもフリーズすることはなく、その期間の詳細さが少し減少される程度である。

同じフレームを圧縮する異なるコーデックの例

これらの利点は素晴らしいと思われるが、かねてからの問題は「現状を改善できるか」ではなく(明らかに改善できる)、「改善をスケールアップできるか」である。

「クールで新しいコーデックを作ろうとする試みは、あちこちで失敗しています」とボールデフ氏は認めている。「その理由の1つはハードウェアアクセラレーションです。たとえ世界最高のコーデックを思いついたとしても、それを動かすハードウェアアクセラレーターがありません。より優れたアルゴリズムを必要とするだけではなく、エッジ上やクラウド上でさまざまなデバイスに対してスケーラブルに実行できる必要があります」 。

最新世代のデバイスで特別なAIコアが非常に重要となっている理由がここにある。これは、新しい目的に合わせてミリ秒単位で調整できるハードウェアアクセラレーションである。そしてWaveOneは、これらのコア上で動作するビデオに焦点を当てた機械学習に何年も取り組んでおり、H.26Xアクセラレーターが何年にもわたって行ってきた作業を、より高速に、より柔軟に行えるようにしている。

もちろん「標準」の問題はまだ残されている。1つの企業が独自に開発したビデオ圧縮方式に誰かがサインオンする可能性はあるだろうか。誰かはすべきである。結局のところ、標準は石板に刻まれているようなものではない。そしてボールデフ氏とリッペル氏が説明したように、我々が考えるような方法ではないが、彼らは実際に標準を使用している。

かつては、動画の「標準」とは、アプリやデバイスが標準に対応した動画で効率的かつ正確に動作するように、厳密に定義されたソフトウェア手法に従うことを意味していた。しかし、それだけが標準ではない。WaveOneが行っているのは、すべてを包括するメソッドではなく、機械学習とデプロイメント側の標準に準拠した実装である。

同社は、TensorFlow、ONNX、AppleのCoreMLなどの主要なML配信・開発パブリッシャーと互換性のあるプラットフォームを構築している。一方、実際に動画のエンコードやデコードのために開発されたモデルは、エッジデバイスやクラウドデバイス上で他の高速化ソフトウェアと同じように動作する。AWSやAzureにデプロイしたり、ARMやIntelのコンピュートモジュールを使ってローカルで実行したりという具合にだ。

WaveOneは、主要なB2Bイベントのすべてのボックスをチェックするための何かを発見したように感じる。目に見えないところで顧客のために物事を改善し、変更なしで既存または将来のハードウェアで実行し、潜在的にではあるがすぐにコストを節約しながら、価値を追加するために投資する。

おそらくそれが、同社が650万ドルというこれほどまでに大きなシードラウンドを獲得できた理由だろう。Khosla Venturesがリードしたこのシードラウンドは、Vela PartnersとIncubate Fundからそれぞれ100万ドル(約1億円)、Omega Venture Partnersから65万ドル(約6800万円)、Blue Ivyから35万ドル(約3700万円)を調達している。

現在WaveOneはプレアルファ段階のようなもので、この技術を十分に実証してはいるが、本格的な製品を作るには至っていない。シードラウンドは技術のリスクを軽減するためのものであり、まだ多くの研究開発が残されているが、コアサービスが機能していることはすでに証明したとリッペル氏は説明する。インフラストラクチャーとAPI層の構築をこの後進めて、同社にとってまったく新しいフェーズへの到達を目指す。さらに資金を集める前に、テストを済ませて顧客を数社確保したいと同氏は語っている。

ビデオ業界の将来は、過去20年で見据えてきた展望とは異を呈するかもしれないが、非常に期待できそうだ。WaveOneが研究段階から製品創出へと移行していくにつれ、さらに多くの情報が得られることは間違いない。

関連記事:シンプルなドラッグ&ドロップで動画の背景を消去できるKaleidoの「Unscreen」

カテゴリー:人工知能・AI

タグ:動画編集 資金調達

[原文へ]

(翻訳:Dragonfly)

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。