忘年会でバカ受け”空間写真”、Fyuseは動画ともパノラマとも違う第三の画像技術

以下の画像はぼくが去年末、忘年会の席上で撮って同僚に見せて「なにこれっ! 面白い!」とオオウケしたマグロのカマの写真だ。リンク先へ飛んで、できればスマホのブラウザで表示して端末を左右に傾けて見てみてほしい。そこにカマが存在するかのように、手の中で3次元ぽい物体が転がっているように見えるはずだ。PCのブラウザならマウスでドラッグすれば動く。ネイティブアプリをダウンロードすれば、高精細な3次元ぽい映像として再現できる。

これは、スマホで「空間写真」を撮影できるとするアプリ、「Fyuse」(フューズ)で撮影したものだ。撮影する対象物に対してデバイスをぐるっと巡らせると、まるでスマホの中に3D空間を閉じ込めたような写真が撮影、再生できる。

以下がFyuseの公式紹介デモ動画だ。

動画の順再生と逆再生をしてるだけか?

この映像を友人らに見せたところ反応は2つに分かれた。これはスゴいね、面白いねというものと、これは3Dとかとは関係がなく、単にキャプチャしたフレームをパラパラと再生しているだけではないかという冷めた反応だ。前者は非テック系のスマホ利用者。後者はメディア関係者やエンジニアで、疑り深い人たちだ。

ぼく自身は、使ってみてすぐにFyuseはタダモノではないと思った。いろんなアングルや撮影方法を試すと、単純なコマ再生・逆再生とは違うことは分かるし、周囲に見せたときのウケがとにかくいい。これはスゴいアプリだと思った。ただ、信用している人たちに「見せ方がうまいだけで、そこには何の新規性も技術もないんじゃないの?」と言われて、そういえばそうなのだろうかと思ったのも事実だ。

「新しい技術が登場するときには、ともかく否定してかかる人たちというのは必ずいるものです」

Fyuseを開発したサンフランシスコ拠点のスタートアップ企業、Fyusionの共同創業者でCEOのラドゥー・B・ルス(Radu B. Rusu)にSkypeで質問を投げてみたところ、こんな答えが返ってきた。Fyuseはスローモーション動画とかパノラマ写真に似ているものの、実は全く別の画像処理技術をベースにしているという。

複数センサー利用で空間を再現

Fyuseは具体的に何をしているのだろうか?

「Fyuseを開始すると、加速度センサーの情報も加味し、カメラでとらえた映像の解析を始めます。ただし、デバイスが静止している限りは映像はキャプチャしません。ユーザーがデバイスを動かし始めたら映像をキャプチャします。静止しているときにキャプチャしないのは、Fyuseは空間を捉えるので時間の経過はどうでもいいからです」

「Fyuseでは常にカメラの位置を推定しています。これはジャイロだけではできません。ジャイロでは相対的な向きの変化だけしか分かりませんから、ビデオフレームの解析と写真測量法と呼ばれているものを組み合わせています」

受光素子も含めて複数のセンサー情報を総合的に解析する「センサーフュージョン」と呼ばれるアプローチのようだ。こうしてデバイスの空間内での絶対位置を推定して、以下の図のように空間上の一定間隔ごとに捉えた「ノード」上からの「ビジュアル・グラフ」を構成するのだという。ノード間は差分としてデータ化してあって、これによりノード間はほとんど無限の粒度でスムーズに補完が可能なのだそうだ。

Fyuseの画像を見ると、動画やパノラマ写真に似て見える。しかし、高画素の動画であれば、100MBとか200MBのデータ量になり、スマホでの閲覧に適さなくなるはずだ。Fyuseのデータは1〜2MB程度だから3Gのスマホでも少し待てば再生できる。現在はEC向けの応用のために500KBまで減らすブラウザ向けビューワーも開発しているという。Fyuseの画像データは、それそのものでは、JPEGのような2次元とも、MPEGのような動画とも違っていて、2次元の画像とカメラ位置のノード情報を持っているそうだ。これまでオープンソースの画像処理ライブラリを作ってきたラドゥーらしく、Fyusionではこのフォーマットの標準化のためにISOに働きかけを始めているという。

Fyuseの画像をスワイプしてみると分かるが、背景画像がスムーズにパンしている中で、前景の人物が歩いていたりする。Fyuseでは被写体の中の対象物を点群として認識するものの、実用面での理由から実装上は現在2つのレイヤーで2次元映像を再構成しているという。レイヤー数自体は任意に増やすことができるものの、これで十分だとか。パノラマ写真、特にセルフィーで風景を広く収めて撮影するようなときに、これは有利。セルフィーという応用分野は開発初期には想定していなかったそうだけれども。一般にパノラマ写真では継ぎ目の問題があるために、「腕が5本あるようなゴーストが現れたりするが、Fyuseでは前景の人物も自然に動く」とラドゥーは指摘する。確かにスローモーションで雪が降る中、人々がゆっくり歩くという見たことのない映像を見ることができる。

Fyuseのような技術が可能となったのは、デバイスの急速な進化が背景にある。「最低でも2コアと、そこそこのGPUが必須です。iPhone 4以上のスペックが必要で、撮影後の事後処理はiPhone 4Sで5秒以上、iPhone 5で3秒、iPhone 6で1秒程度です。iPhone 7だと全部リアルタイム処理可能になると見ています」

3次元グラフィクスの専門家として、誰にでも使えるものを作りたかった

ラドゥーは、画像処理をかじったことのあるエンジニアなら誰でも知ってるだろうオープンソースのライブラリ「OpenCV」の開発メンバーの1人で、かつ同様のオープンソースの3次元点群ライブラリ「PCL」(Point Cloud Library)の設立者でもある。3次元グラフィクス分野で10年の経験があるという。

それまでOpen PerceptionというNPOで働いていたり、ロボティクス関連のWillow Garageでリサーチサイエンティストという立場で活動してきたラドゥーがFyusionというスタートアップ企業を創設した理由は、これまでに研究してきたテクノロジーを使って、一般ユーザーに使えるものを作るためだという。

「3D画像というのは技術者にとっては点群やメッシュ、八分木のことだったりします。でも、コンシューマーにとっては3Dといえばマトリックスの世界なんですよ」

2013年の創業当初は、ちょうど3Dプリンタブームが起こりつつあったときなので、カメラとKinnectを使ってトライアングメッシュによる3Dモデルを作るテクノロジーを作っていたという。ただ、これは結局あまり利用者がいないことが分かって6カ月で方針転換。

「2013年にスマホの利用時間がPCを上回ったのです。それで、全てのスマホで使える何かが作れないだろうかと考えたんです。つまり単眼のカメラを使った応用です。3Dプリンタにしか役立たないものじゃなくて、もっと没入感があって、美しい何かです」

「われわれの周囲のもの、例えば太陽や空、波のような透明なものは3Dの数学的モデルでは表現できません。ハイブリッドを作る必要があったのです」

「2つのメジャーな映像記録の方法を振り返ってみましょう。2Dのスチル写真と動画です。この2つはコンピューター登場以前からありました。とても長く存在しているので、もはやわれわれのDNAの一部のようになっています。だから、これら以外の方法があると想像もせずに使い続けているだけなのです」

「例えば写真。100年ぐらい前に2次元の映像を捉えるのに成功した人がいました。スチルカメラの誕生です。その後、コンピューターが登場して、それでデジタル化して、われわれはJPEGを作りました。もう1つは映像。これも36mmフィルムができて、それをデジタル化してMPEGやH.264を作りました」

「時間と空間をスライスして画像を捉えるのが写真です。一方、ビデオは時間をキャプチャするものです。30フレームとか60フレームとかですね。しかし、空間を捉える方法がなかったのです。Fyuseは空間を捉えるものなのです」

北米の写真・動画カテゴリで第4位に

色々と撮影してみると分かるが、単純な子どもだましのアプリではない。一方で、冒頭に冷めた指摘を紹介したとおり、単に傾きを検知して動画の順再生と逆再生をやっているだけに見えなくもない。いくら高度な画像処理技術を使っていたところで、ユーザーに受け入れられないなら意味がない。

AppAnnieでランキングを見てみたところ、北米のApp Storeの写真・動画カテゴリで1月18日にはVineを抑えて、Instagram、YouTube、Snapchatに続く第4位を獲得。順調にソーシャルネット上で利用が伸びているようだ。Fyuseは2014年12月にiOSとAndroid向けにバージョン2.0がリリースされている。

ソーシャルに体験をシェアするという意味では、Facebookなどと相性が良さそうで、いかにもFyuseは買収対象となりそうなアプリに思える。あるいは、ネイティブ実装のほうが再生環境としては好ましいことから、iPhoneのようなデバイスに統合されることがベストなのではないか。この点についてラドゥーに尋ねてみたところ、「これまでの買収の提案は断っています。われわれは、どこかのSNSに売って消えたいとは思っていません。これまでOpenCVやPCLでもそうでしたが、われわれは長期に考えてプラットフォームを作ってます。Androidデバイスの製造メーカーとの話も始めています。Fyuseというアプリはテクノロジーのショーケースとして作りました。ソーシャルに使えるアプリにすれば、人々がこの技術を気に入るか気に入らないかはすぐに分かりますからね」

Fyusionは2013年設立。日本のUTEC(東京大学エッジキャピタル)、米国VCのNew Enterprise Associatesほか個人のエンジェル投資家から2014年5月にシリーズAとして355万ドルの投資を受けている。個人投資家の中には、サン・マイクロシステムズ社の共同創業者で、創業前のGoogleに10万ドルのチェックを切ったことで有名なアンディ・ベクトルシャイム氏も名を連ねていることを付け加えておこう。


360度閲覧可能な3D写真を写す、3DAroundが間もなく登場

Eコマースサイトや、あるいは映画マトリックスなどでみた、ぐるぐると回転させて見ることのできる写真をスマートフォンで簡単に撮れたら楽しそうだと感じる人は多いだろう。そうした人に朗報だ。1ヶ月ほどの後、Dacudaより3DAroundカメラというアプリケーションが登場するらしいのだ。使い方は簡単で、スマートフォンないしタブレットで、撮影対象の周りを移動しながら撮影するだけで良い。アプリケーションにて、撮影した写真をまとめて3Dイメージを生成し、そして念願のぐるぐる回しができるようになる。

ちなみにDacudaについては、Kickstarterにて展開したPocketScanキャンペーンを覚えている人も多いかもしれない(TC日本語版の記事はこちら)。持ち運び可能で、かつ高機能であるスキャナを提供したいとするプロジェクトだった。今やDacudaは25人の従業員と5年の経験を誇る企業に成長している。そして360度展開可能な写真を撮影することで、どのアングルから写すべきかという悩みを消し去るプロダクトをリリースしようとしているのだ。これが普及すれば、(退屈な?)フード写真が魅力的になることもあるかもしれない。

「AppleがカメラAPIをオープンにしたことも、私たちにとっては追い風なのです」とDacudaのファウンダー兼CTOであるDr. Alexander Ilicは言っている。「私たちのプロダクトを実現するには、露出時間、フォーカスなどについて、ローレベルなところにアクセスする必要があります。まさにiOS 8にて可能となった機能をフルに使っているのです」とのことだ。


 

プロダクトを思いついたのは、フードブロガーの振る舞いを見ているときなのだそうだ。何枚を写真を撮って、そのうちのどれが良いかを悩んでいる姿に疑問を感じたらしい。そのときに「すべての角度から撮影してみれば良いのに」と考えたのだそうだ。アイデアを実現しようとすれば、3Dセンサーを搭載したカメラが必要であろうと考えた。しかし新しいiPhoneのスペックをみるにつけ、ソフトウェアでなんとかなるのではないかと考えたのだそうだ。そして実現してみたのが3DAroundであるというわけだ。

3DAroundはそもそもMIT卒業生たちを巻き込んで、ETH Zurichからのスピンオフとして始めたプロジェクトだった。Wellington Partners、Swiss銀行系Schwyzer KantonalbankおよびオーストリアのアントレプレナーであるHans-Peter Metzlerなどが出資している。

3DAroundは連写することにより360度ビューで利用できる画像を取捨選択するしくみとなっている。生成された写真はアプリケーション内から確認することもできるし、ChromeなどのWebGL対応のブラウザで見てみることもできる。出力した写真はFacebookやTwitter、あるいはPinterestなどでシェアすることもできる。

アプリケーションは、iPhone 5以上対応として来月リリース予定になっている。HTC EVOは3D写真用の2連カメラを搭載していたりもするが、3DAroundはハードウェア的な拡張をせずとも3Dを楽しめるようになっている。正式リリースとなった暁には、改めてレビューしたいと考えている。

原文へ

(翻訳:Maeda, H