自動で起こしたテキストを動画の該当箇所に自動で関連づけるReduct.Videoが4.2億円調達

Reduct.Videoは、企業が制作するビデオの量を劇的に増やしたいと考えている。

ReductのテクノロジーはすでにIntuit、Autodesk、Facebook、Dell、Spotify、Indeed、Superhuman、IDEOなどに使われている。米国時間2月11日、同社は400万ドル(約4億2000万円)を調達したと発表した。このラウンドを主導したのはGreylockとSouth Park Commonsで、FigmaのCEOであるDylan Field(ディラン・フィールド)氏、Hopinの最高業務責任者であるArmando Mann(アルマンド・マン)氏、Twitterの幹部だったElad Gil(エラッド・ギル)氏が参加した。

ReductはCEOのPabhas Pokharel(パバス・ポカレル)氏とCTOのRobert Ochshorn(ロバート・オックスホーン)氏が創業した(上の写真の2人)。ポカレル氏は、コンシューマ向けとしてはストリーミングビデオプラットフォームやソーシャルメディアアプリが激増しているのに、ビジネスではビデオはまだ「十分に活用されていない」、その理由は単にビデオ素材を整理する作業に時間がかかり、見るにたえるビデオになるように編集する時間も必要だからだと説明する。

ポカレル氏は筆者にデモを見せてくれた。ReductはAIや自然言語処理などのテクノロジーを使って自動でビデオ素材の文字起こしをしてその文章をビデオに関連づけ、編集作業を合理化する(文字起こしは有料でプロに依頼することもできる)。

「ここからが魔法です。文字起こしが完了すると、単語の1つひとつがビデオの(対応する)タイミングに関連づけられるのです」(ポカレル氏)。

画像クレジット:Reduct.Video

このため、テキスト編集のように簡単にビデオを編集することができる(筆者はテキストとメディアの同様の関連づけをOtterで利用しているが、Otterはオーディオに特化されていて、どちらかというと文字起こしツールとして使ってきた)。何時間にもわたるビデオ素材全体の中からあるトピックについて言及された場面を検索し、整理し、タグづけし共有することもできる。

ポカレル氏は、AIが複数の検索語句の関連を理解するなどの役割を果たすため整理と編集の作業が簡単になっていると述べた。しかし同氏は作業が完全に自動化されるとは考えていない。同氏はReductを「アイアンマンのスーツ」のようなものだという。人間の編集者のパワーが増すということだ。

さらに同氏は、このようなアプローチによってビデオを短時間で簡単に編集できるだけでなく、ビデオに対する企業の見方が変わることを示唆した。

同氏は「Reductのユーザーは洗練よりも信頼性を重視します。ビデオの内容が重要なのです」と述べ、Reductで何ができるかを「顧客から学んでいる」とも語った。自社ユーザーの調査に使う人々は何百時間ものユーザーの映像を簡単に整理して共有し、マーケッターは顧客からの推薦の言葉やウェビナーを短くて共有しやすいビデオにすることができる。

ポカレル氏は話を続け、「ビデオの供給は限られているのは、おかしな状況です。非同期のビデオには(企業が)これまで意識していなかった活用方法がたくさんあります」と述べた。

同氏はある顧客の話を思い出して、活用例として語った。その顧客は、聞くべき部分が2分間しかない会議であっても出席するようにとチームメンバーに指示していたという。Reductの導入により「チームメンバーにその時間を返し」て、必要な部分だけを共有できるようになったという。

カテゴリー:人工知能・AI
タグ:Reduct.Video資金調達動画編集

画像クレジット:Reduct.Video

原文へ

(文:Anthony Ha、翻訳:Kaori Koyama)

Frame.ioがプロ仕様「カメラからクラウドへ」ビデオアップロードで映画制作を効率化

クラウドベースの映像コラボレーションツールを提供するFrame.ioは米国時間2月11日、「Frame.io Camera to Cloud」という新技術を発表した。

同社のイノベーション担当グローバルSVPであるMichael Cioni(マイケル・チオーニ)氏は、消費者は映像をクラウドに瞬時にアップロードすることを期待している一方で、プロの映画やテレビ制作はまだハードドライブに頼っていると説明する。

それには妥当な理由がある。これらのプロダクションでは、より高品質の映像を使用しているため、ファイルが巨大になるからだ。しかし、Frame.ioは、帯域幅をそれほど消費しない「プロキシ」映像をアップロードすることで、この問題を解決するという。

実際、LTE接続でアップロードすることも可能だ。Frame.ioチームはデモとして、短い映像を撮影し、数秒後に国の反対側にあるコンピュータからアクセスできるようにして見せてくれた。

チオーニ氏によると、これにより、編集プロセスはハードドライブの移動を待つ必要がなくなったという。「直線的だったプロセスをパラレルにするわけです」。

画像クレジット:Frame.io

Camera to Cloud経由でアップロードした映像はFrame.ioで編集できるが、この技術はFinal Cut ProやAdobe Premiereなどの一般的な編集ソフトウェアにも統合されている。また、プロキシ映像にはオリジナルと同じタイムコードとメタデータが含まれているため、ドライブを受け取った時点で編集を同期させることができる。

さらに、Camera to Cloudを使えば、撮影現場の内外を問わず、撮影した映像をコンピュータ、iPhone、iPadからすぐに見ることができる。

「カメラの停止ボタンを押した瞬間に、撮影した映像を携帯電話で見ることができたら最高だと思いませんか?」と Frame.io のCEOであるEmery Wells(エメリー・ウェルズ)氏はいう。「今はプロのセットではそれができません。それをするのが仕事のスタッフがいて、セットのあちこちに再生モニターがあって、みんなが同時に(モニターで)プレイバックを見ます」。

同社はパンデミックの前からこの技術の開発に着手していたが、ウェルズ氏は「セットにいる人が少なくなった今、この技術の必要性がさらに高まっていることがわかりました」と語る。

実際、この技術はパンデミックを描いた映画「Songbird」の制作中にすでに使われていた。この映画は2020年夏に撮影されたが、Camera to Cloudを使用することで、(新しい安全プロトコルのために)撮影現場に入ることが許されていないプロデューサーたちも、最新の映像に遅れずついていくことができた。

Camera to Cloudは、Teradek CUBE 655、Sound Devices 888、Scorpioレコーダーなどの既存のデバイスで動作し、Arri、RED、Sonyの互換性のあるカメラに取り付けることができる。Frame.ioの有料会員は追加料金なしで利用できる。

「2020年代の終わりまでには、オーディオ、ビデオ、その他何でも、誰もがクラウドで撮影するようになると当社は予測しています」とチオーニ氏は述べている。

関連記事:グラフィックデザインのようにブラウザで動く共同動画編集ツール「Scenery」

カテゴリー:ネットサービス
タグ:動画撮影・編集

[原文へ]

(文:Anthony Ha、翻訳:Nakazato)

グラフィックデザインのように作業するブラウザで動く共同動画編集ツール「Scenery」

Mike Folgner(マイク・フォルグナー)氏は動画編集ツールの分野で十分な実績を持っている。創立したJumpcut.comはYahoo(未訳記事)が、 SnappyTVはTwitter(未訳記事)が買収した。しかしフォルグナー氏は「動画編集の分野にはまだまだ仕事が残っている」とMediumに書いている

「現在、生産性ソフトウェアは、デスクトップアプリからウェブアプリによるストリーミングへ大きく飛躍しました。ところが、こうしたテクノロジーの大幅な進歩にもかかわらず、プロ用の動画編集ツールはこの飛躍に遅れを取っています。WebGL、WASMおよびその他、進歩は続いています。ウェブの本質的に適合したパフォーマンスが高く、機能豊富なアプリケーションを構築できるはずです」。

フォルグナー氏はJumpcutとSnappyTVの共同ファウンダーであるRyan Cunningham(ライアン・カニンガム)氏、JumpcutのリードエンジニアであるAshot Petrosian(アショト・ペトロシアン)氏と協力してTensilという新しいスタートアップを創立した。Tensilの最初のプロダクトである「Scenery」はブラウザで動作するフル機能の動画編集ソフトだ。サイトに登録すればアルファ版をテストできる。同社最初の主要エンジニアは Chris Martin(クリス・マーティン)氏だ。

TensilはFreestyleVCがリードしたラウンドで389万ドル(約4億円)の資金を調達した。このラウンドにはPrecursor Ventures、Wireframe Ventures、Transmedia Capital、Uphonest Capital、Rembrandt Venture Partners、Kayvon Beykpour、Kevin Weil、Elizabeth Weil、Russ Fradin、Ross Walker、Joe Bernstein、Keith Coleman、David Pidwell、Ryan Peirce Don Ryanが参加している。

画像クレジット:Tensil

まだ開発途上であるため実際にプロダクトをテストできなかったがフォルグナー氏、Petrosianに電話取材してビジョンを聞くことができた。ペトロシアン氏はこう語っている。

少し立ち止まって現代のビデオエディターがどうあるべきか考えるなら、1970年に構築されたままのツールでいいわけはないと気づくでしょう。Sceneryは、既存ビデオエディターが標準的に採用するのはビデオクリップを時間軸に沿って並べるタイムラインビューです。しかし我々のSceneryは2次元のキャンバスモデルです。つまりビデオエディターがグラフィックデザイナーのように考えることを可能にします。

ペトロシアン氏は「いい換えれば、Sceneryは現在のビデオ制作と編集のニーズをもっと適切に反映してチームが迅速かつ協調的に動画を制作できるようにすることを目的としています」という。実際、彼は、Sceneryを単なる編集ツールだと考えることは十分な認識でないと述べた。「動画制作システムに近い」ものと考えるべきだという。

「ビジュアルコレボレーションツールのFigmaがデザイン分野で新しいメンバーをリモートで簡単にチームに加えることができるようにしたのと同様、Sceneryもプロセスをブラウザに移行させることにより新しい協力者を簡単に編集プロセスに参加させることが可能になります」とフォルグナー氏は述べた。

「結局、動画編集はチームスポーツとして考えるべきなのです。我々はSceneryの未来に興奮しています」とフォルグナー氏は結んだ。

カテゴリー:ソフトウェア
タグ:Scenery動画編集

画像クレジット:boonchai wedmakawand / Getty Images

原文へ

(翻訳:滑川海彦@Facebook

WaveOne、ビデオのAIネイティブ化とストリーミングの変革を目指す

ビデオはとても長い間、同じように機能し続けてきた。機械学習の爆発的な普及によって業界が刻々と変化しても、ビデオはその独自の性質により、ほとんど影響を受けていない。WaveOneは、数十年前からあるビデオコーデックのパラダイムをAIベースにすることでこの状況を変えようと試みており、コーデックの革命を目指す技術者やAI主導のスタートアップが陥りがちな落とし穴を避けつつこれに取り組んでいる。

同スタートアップは、最近まで紙面やプレゼンテーションで結果を発表する以外大きな動きを見せていなかったが、先日調達した650万ドル(約6億8000万円)のシードラウンドにより、実際の製品をテストし、展開していく準備が整ったようだ。これはニッチな領域ではない。ビデオ圧縮はやや目立たない存在でもあるが、現代のインターネットで最も重要なプロセスの1つになっていることは間違いない。

デジタルビデオが誕生してから辿ってきたことを簡単に説明しよう。開発者がビデオの圧縮と解凍のための標準的なアルゴリズムであるコーデックを作成する。このコーデックは、一般的なコンピューティング・プラットフォーム上で容易に配布および実行できる。MPEG-2やH.264などがこの方式である。動画の圧縮というハードな作業はコンテンツプロバイダーやサーバーで可能となるが、解凍という比較的軽い作業はエンドユーザーのマシンで行われる。

このアプローチは非常に効果的で、コーデックの改善(より効率的な圧縮を可能にする)によってYouTubeのようなサイトの可能性を広げてきた。動画が10倍の大きさだったら、YouTubeのローンチはもっと遅れていただろう。もうひとつの意義ある変化は、コーデックのハードウェアアクセラレーションの活用である。コンピューターやGPUにコーデックが組み込まれたチップが搭載されると、スマートフォンの汎用CPUよりもはるかに高速に解凍タスクを実行できるようになる。1つだけ問題がある。新しいコーデックには新しいハードウェアが必要となる。

ただし、新しい携帯電話には機械学習モデルを実行するために設計されたチップが搭載されており、コーデックのように高速化できる。しかし、ハードウェアはこのモデルに適していない。では、このMLに最適化されたチップをビデオに使用してはどうだろうか。それこそがWaveOneがやろうとしていることだ。

WaveOneの共同創設者兼CEOのLubomir Bourdev(ルボミール・ボールデフ)氏とCTOのOren Rippel(オレン・リッペル)氏の素晴らしい経歴にもかかわらず、当初著者はかなり懐疑的な視点で話を聞いた。コーデックを扱う会社が現れたり消えたりしているのを見てきたが、テクノロジー業界はいくつかのフォーマットや標準を融合させ、それを恐ろしくゆっくりと改訂してきた。例えば、H.265は2013年に導入されたが、その前身であるH.264はその数年後にやっとのことで普及し始めている。その傾向は、バージョン7からバージョン7.1というより、3G、4G、5Gシステムの移行に類似する。つまり、無料でオープンソースの優れたものであっても、より小さなオプションは業界にまたがる標準の歯車の下に潜んでしまう傾向がある。

コーデックのこうした状況に加えて、スタートアップが事実上すべてを「AI駆動型」と説明することを好むという事実から、良くても見当違い、悪ければ詐欺的なものだろうと想像していた。しかし、嬉しい驚きがもたらされた。WaveOneのやろうとしていることは後から考えると明らかに正しく感じられ、先駆者アドバンテージを有するように思われる。

リッペル氏とボールデフ氏が最初に明らかにしたのは、AIが実際にここで果たすべき役割を持っているということだ。H.265のようなコーデックは多くの点で非常に進歩しているが、決してスマートではない。一般的には、エンコーディングのカラーやディテールのどの部分により多くのビットを入れるべきかを提示することはできるが、例えば、微調整を施したい顔がショットのどこに位置しているか、時間を節約するために特別な方法で実行できるサインやツリーがあるのかといったことを判断することはできない。

しかし、顔とシーンの検出は、コンピュータビジョンの中で現実的に解決されている問題である。 ビデオコーデックが顔の存在を認識して、それに応じた量のリソースを割り当てるようになっていないのはなぜだろうか。これは良い質問である。答えは、コーデックの柔軟性が十分ではないということだ。そうしたインプットには対応しない。おそらくH.266が出るころには実現され、数年後にはハイエンドデバイスでサポートされるようになるだろう。

では、今どうするか。多くの携帯電話やコンピュータが備えている、あるいはすぐに備えることになるであろうAIアクセラレーター上で動作する動画圧縮・伸長アルゴリズムを構築し、シーンやオブジェクトの検出を最初から統合するのが正解だ。Krisp.aiは音声が何であるかを理解し、きわめて複雑なスペクトル分析をせずにそれを分離する。同じように、AIは視覚的なデータを使って驚くほど高速に判断し、実際の動画圧縮の部分にそれを渡すことができる。

画像クレジット:WaveOne

 

データの可変かつインテリジェントな割り当てにより、画質を犠牲にすることなく圧縮プロセスを非常に効率的に行うことができる。WaveOneは、ファイルのサイズを半分にまで縮小しながら、より複雑なシーンで改善が得られると主張している。何億回も動画を配信したり100万人に一度に配信したりする場合、このサイズの増加は言うに及ばず、数パーセントの端数でも加算される。帯域幅は以前ほどコストがかからないが、それでも無料ではない。

また、画像を認識する(あるいは指示を受ける)ことで、コーデックがその内容の種類を判別できるようになる。もちろん、ビデオコールでは顔の認識が優先されるかもしれないが、ゲームストリーマーは細かい部分にこだわりを持つだろうし、アニメーションは大きな単色領域でのアーティファクトを最小限に抑えるためにさらに別のアプローチを必要とする。これがすべて、AIを利用した圧縮方式によってその場で実行できる。

消費者向けテクノロジーを超えたものも予測できる。コンポーネント間または中央のサーバーにビデオを送信する自律運転車は、車両、歩行者、動物など自律システムが重要と指定したものに焦点を当て、意味のない空や遠くの木々などに時間とビットを無駄にしないようにすることで、時間を節約し、ビデオの品質を向上させることができる。

コンテンツ認識のエンコードおよびデコードは、おそらくWaveOneが主張する最も汎用性が高く、理解しやすい利点であるが、この方法は帯域幅の問題による中断に対してはるかに耐性があるとボールデフ氏はさらに説明している。従来のビデオコーデックのもう1つの欠点は、いくつかのビットが欠けていると全体の操作が中断されてしまうことだ。だからフレームがフリーズするなどの問題が起きるわけだ。しかし、MLベースのデコーディングは、どんなビットがあってもそれに基づいて簡単に「最善の推測」を生成できるので、帯域幅が突然制限されてもフリーズすることはなく、その期間の詳細さが少し減少される程度である。

同じフレームを圧縮する異なるコーデックの例

これらの利点は素晴らしいと思われるが、かねてからの問題は「現状を改善できるか」ではなく(明らかに改善できる)、「改善をスケールアップできるか」である。

「クールで新しいコーデックを作ろうとする試みは、あちこちで失敗しています」とボールデフ氏は認めている。「その理由の1つはハードウェアアクセラレーションです。たとえ世界最高のコーデックを思いついたとしても、それを動かすハードウェアアクセラレーターがありません。より優れたアルゴリズムを必要とするだけではなく、エッジ上やクラウド上でさまざまなデバイスに対してスケーラブルに実行できる必要があります」 。

最新世代のデバイスで特別なAIコアが非常に重要となっている理由がここにある。これは、新しい目的に合わせてミリ秒単位で調整できるハードウェアアクセラレーションである。そしてWaveOneは、これらのコア上で動作するビデオに焦点を当てた機械学習に何年も取り組んでおり、H.26Xアクセラレーターが何年にもわたって行ってきた作業を、より高速に、より柔軟に行えるようにしている。

もちろん「標準」の問題はまだ残されている。1つの企業が独自に開発したビデオ圧縮方式に誰かがサインオンする可能性はあるだろうか。誰かはすべきである。結局のところ、標準は石板に刻まれているようなものではない。そしてボールデフ氏とリッペル氏が説明したように、我々が考えるような方法ではないが、彼らは実際に標準を使用している。

かつては、動画の「標準」とは、アプリやデバイスが標準に対応した動画で効率的かつ正確に動作するように、厳密に定義されたソフトウェア手法に従うことを意味していた。しかし、それだけが標準ではない。WaveOneが行っているのは、すべてを包括するメソッドではなく、機械学習とデプロイメント側の標準に準拠した実装である。

同社は、TensorFlow、ONNX、AppleのCoreMLなどの主要なML配信・開発パブリッシャーと互換性のあるプラットフォームを構築している。一方、実際に動画のエンコードやデコードのために開発されたモデルは、エッジデバイスやクラウドデバイス上で他の高速化ソフトウェアと同じように動作する。AWSやAzureにデプロイしたり、ARMやIntelのコンピュートモジュールを使ってローカルで実行したりという具合にだ。

WaveOneは、主要なB2Bイベントのすべてのボックスをチェックするための何かを発見したように感じる。目に見えないところで顧客のために物事を改善し、変更なしで既存または将来のハードウェアで実行し、潜在的にではあるがすぐにコストを節約しながら、価値を追加するために投資する。

おそらくそれが、同社が650万ドルというこれほどまでに大きなシードラウンドを獲得できた理由だろう。Khosla Venturesがリードしたこのシードラウンドは、Vela PartnersとIncubate Fundからそれぞれ100万ドル(約1億円)、Omega Venture Partnersから65万ドル(約6800万円)、Blue Ivyから35万ドル(約3700万円)を調達している。

現在WaveOneはプレアルファ段階のようなもので、この技術を十分に実証してはいるが、本格的な製品を作るには至っていない。シードラウンドは技術のリスクを軽減するためのものであり、まだ多くの研究開発が残されているが、コアサービスが機能していることはすでに証明したとリッペル氏は説明する。インフラストラクチャーとAPI層の構築をこの後進めて、同社にとってまったく新しいフェーズへの到達を目指す。さらに資金を集める前に、テストを済ませて顧客を数社確保したいと同氏は語っている。

ビデオ業界の将来は、過去20年で見据えてきた展望とは異を呈するかもしれないが、非常に期待できそうだ。WaveOneが研究段階から製品創出へと移行していくにつれ、さらに多くの情報が得られることは間違いない。

関連記事:シンプルなドラッグ&ドロップで動画の背景を消去できるKaleidoの「Unscreen」

カテゴリー:人工知能・AI

タグ:動画編集 資金調達

[原文へ]

(翻訳:Dragonfly)

シンプルなドラッグ&ドロップで動画の背景を消去できるKaleidoの「Unscreen」

プロ仕様のツールや設備一式がなければ、撮影した動画の背景を消すのはかなり面倒だ。適切なツール等を持ち合わせていても、なかなか簡単には進まない。以前からワンステップで画像の背景を消去できるツール、remove.bg(リムーブドットビージー)を展開していたKaleido(カレイド)が、この度、フルモーションの動画に対応する新製品Unscreen(アンスクリーン)を発表した。

サービス自体はいたってシンプルだ。アンスクリーンのウェブページに動画をドラッグし、数分待つだけ。処理時間はコンテンツのサイズと解像度によって異なるが、手前の人物やオブジェクトだけを残し、背景をすべて消してくれる。

同社が初めて展開した製品、リムーブドットビーシーも、サービス内容は基本的に同じだった。処理対象は画像のみに限られていたが、Product Hunt(プロダクトハント)で大ヒットとなった。仕事でよく動画の処理をする身としては、背景を瞬時かつ正確に消せる効果的なウェブサービスが、非常にシンプルな形で提供されていることが嬉しい。もちろんPhotoshop(フォトショップ)を使っても同じことができるが、もっと手間がかかる。

そういえば、カレイドがオフラインの動画処理サービスに参入することを決めた理由は、ビデオチャット業界ではZoom(ズーム)やMicrosoft(マイクロソフト)をはじめとする各社がすでに定着した競合サービスを展開していて、「ある程度の品質で使えればいい」程度でユーザーが満足していることだったという。一方、オフラインの動画編集サービスは比較的競争が少なく、専門知識のないユーザーが使えるサービスともなると、選択肢はさらに限られる。

ハリウッド(映画製作やハイエンドの動画制作業界を総称して)では、デジタル合成の様相が変わってきている。費用がかかり複雑な作業も必要とされるが、ドラマ『The Mandalorian(マンダロリアン)』で使われていたような視聴者の目を引くLEDスクリーンが、グリーンバックやフレームごとのロトスコープ処理といった標準的な方法に代わって採用されるようになっている。そのため、振り返るだけの一瞬のシーンやラッシュ(下見用フィルム)などの場合に背景をシンプルなワンステップの処理で簡単に消去できる技術は、VFX技術のスタジオや製作スタジオにとって救世主となるだろう。

動画編集の市場が進化しているのは間違いないが、有料会員数が証明しているように、ニーズも確かに存在しているのだ。カレイドはこれまで完全に自己資金で運営しており、投資家を取り込む必要も願望もない。経費やメディア露出に対応できるだけの収益を獲得しているためだ。

現代の大半のメディア製品と同じく、アンスクリーンはフリーミアムのサブスクリプションモデルで提供されている。10秒間までの動画であれば無料でお試し利用できる(とはいえ、透かしが入った低解像度のファイルとなるため、一般公開には不向き)。また、通常のサブスクリプションの場合は、アップロードする映像の量に応じて月額9ドル(約950円)から389ドル(約41000円)までさまざまなプランが選択可能だ。収益の3分の2は中小企業からのものだが、有料会員には大手の企業やメディア会社も含まれる。

もちろん、製品そのものの品質が低ければ話にならない。そこで私自身、長い髪の女性が映った5分間の720pの動画を処理してみたところ、およそ45分で完了した。出来上がりは良い品質で、髪の部分もしっかり残っていた。わずかに狂いはあったが、それも適宜ペイント処理で簡単に修正できる程度のものだった。私が自撮りでカメラに話しかけた1分半の1080pの動画も処理してみたが、こちらは33分で完了し、同僚の23秒間の動画(私のものより線がもう少しはっきりしていた)については約10分で非常に鮮明な動画が仕上がった。

これも最初のFashion Week(ファッションウィーク)のようなおしゃれな動画だと思った読者の方、残念

なぜこんなに処理時間がかかるのか、疑問に思ったことだろう。ズームではリアルタイムで映し出されるが、解像度が低いうえ、品質も良くない。オンラインで無期限に公開したり、製品の広告に使用したりするような素材には、もっと高品質のものが必要だ。私個人の感覚としては、アンスクリーンの背景消去はかなり品質が良いものの、そのまま世に出せるほどではない。公開前に一度確認し、不具合を修正したほうがよいだろう。

ユーザーは動画の背景として静止画や別の動画、単色の背景を選択できるほか、2つのチャンネル(アルファチャンネルとカラーチャンネル)に分けてエディターに流し込むこともできる。その他のオプションは限られているため、グレードアップやリサイズ、別の色での再レンダリングなどには対応していない。結局のところ、これはオンラインの動画編集プラットフォームではなく、ウェブホスティング型のVFXのため、それ相応の機能が搭載されているという印象だ。

一点、カレイドが慎重に動作確認を行ってきた点がある。これが差別化要因になるのは悲しい限りだが、アンスクリーンは、他のソリューションではうまく認識できない特定の肌や髪の色に対応している。事実、こうしたツールでは特定の背景の場合に、肌のトーンが暗い人よりも明るい人の方が、巻き髪の人よりもストレートヘアの人の方が、消去処理が正確である場合があり、これらのツール開発に使用されるトレーニングセットに多様性が欠如していることを示している。

コンピューターの視覚アルゴリズムが原因で、巻き髪は特に処理が難しいことで有名だが、アンスクリーンではそこそこ良い仕上がりとなっている

カレイドのBernhard Holzer(バーナード・ホルツァー)氏によると、カレイドはこの点を初めから意識しており、チームとして世界中からトレーニングデータを収集することで、国や大陸に関係なくすべてのユーザーに平等に対応できるよう徹底してきたという。また、予期しない課題にも目を光らせている。例えば、卒業式用の角帽をかぶった人が飾りの紐を左右に動かしている動画をシステムがうまく認識できないことが分かったため、データを大量に加えて修正を行った。フィードバックを送信するようユーザーを促し、それを生かすことによってシステムを継続的に進化させている。

カレイドの会社規模の成長も止まる気配がなく、今年は従業員数が倍増して30名に達する見込みだ。また、前述の通り資金も引き続き同社の収益のみで運営される。ウェブツールの品質向上は確かに相当なものだ。これまでは、1回のクリックで背景を消去できるツールなど誰も想像していなかった。そんな中で業界初のサービスを創出したアンスクリーンは、業界トップの座を獲得し、その座を維持することを目指している。

関連記事:パンデミック時代に適合し動画制作方法を作り変えるVidMob

カテゴリー:ソフトウェア

タグ:動画撮影・編集 機械学習

[原文へ]

(翻訳:Dragonfly)