しかしそれは単なるガジェットではない
「もしAIがそんなに簡単だというなら、この部屋に1つもないのは何故でしょう?」と、シアトルのユニオン湖を窓の外に見下ろす会議室で、まわりを身振りで指しながら問いかけるのは、Xnorの創業者でCEOのAli Farhadiである。その指摘は正しい。ここには何台かのディスプレイ、電話、そしてその他のガジェットがあるにも関わらず、本当にAI的な仕事に使えるものと言えば、それぞれがテーブルの上に置いている携帯電話しかないのだ。にもかかわらず、私たちは今やAIがどれほど身近で、柔軟性があり、遍在しているかを聞かされている。
だが多くの場合には、AIを実行する能力があるデバイスであっても、自身では機械学習技術を使わずに、データをより効率的に処理できるクラウドへ送っている。なぜなら”AI”を構成するプロセスは、多くの場合リソース消費型で、CPU時間とバッテリの電力を大量消費するからだ。
それこそが、2017年にアレン人工知能研究所からスピンオフした Xnorが、解決または少なくとも軽減することを狙っている問題である。彼らのブレークスルーは、エッジデバイス上での深層学習モデルの実行を飛躍的に効率化したことである。このため例えば5ドルのRaspberry Pi Zeroでも、最先端のコンピュータービジョンプロセス を、スーパーコンピューター並に実行できるようになった。
チームはそれを成し遂げ、Xnorの超高効率機械学習(ML)モデルは現在、さまざまなデバイスやビジネスに統合されつつある。補足しておくと、チームは利用者の観点に沿って、その狙いを高くも低くもしてくれる。
AIが組み込まれたデバイスの不足という自分自身の問いかけに答えながら、FarhadiはPi Zeroプラットフォームが組み込まれたかつてのデモ用機器のバッテリーパックを指さして、こう言った「これが問題なのです。電力が」。
電話やPi Zeroなどの、CPUや能力が制限された機器に、彼らがAIを搭載するために克服しなければならないボトルネックが、電力だった。そこで、チームはクレイジーな目標を思いついた:バッテリーを全く必要としないAIプラットフォームを作ったらどうだろう?1年も経たないうちに、彼らはそれをやり遂げた 。
出来上がったものは、本格的なコンピュータービジョンタスクをリアルタイムで実行することができる。秒以下の僅かな時間で、視野の中の、人や、車や、鳥やその他を検知し、その情報を無線で中継することができる。そしてそれは、通常はソーラー電卓 に使われているような太陽電池を利用しているのだ。
Farhadiとハードウェアエンジニアリング責任者のSaman Naderipariziが、私に見せてくれたデバイスはとてもシンプルなものだった ―― もちろん必然的にそうなったのだ。320×240の解像度を持つ小型カメラ、オブジェクト認識モデルを搭載したFPGA、画像とカメラソフトウェアを扱うための少量のメモリ、そして小さな太陽電池。非常に単純なワイヤレス設定を行うことで、かなり控えめな速度でデータを送受信する。
「これはとても非力です。それでも超安物のカメラを搭載した2ドルのコンピューターですが、最先端の対象認識を実行することができます」と熱心に語るFarhadiは、Xnorチームが作成したものにとても満足している様子だった。
参考のために。同社のデビューで披露された以下のビデオは、デバイスが内部で行っている仕事の様子を示している:
VIDEO
太陽電池が、十分な光の中にある限り、イメージプロセッサと対象認識アルゴリズムに給電が行われる。それを動作させるには約100ミリボルトが必要だが、それ以下の場合でも頻度は落ちるもののイメージをキャプチャすることは可能だった。
単なる太陽電池からの給電のみでも動作することは可能だが、もちろん何らかのエネルギーストレージなしに使おうとすることは実用的ではない。このため、このデモデバイスには、一晩中動作することができたり、あるいは光源が隠されたときにも動作を続けられるようなスーパーキャパシター(蓄電部品)が備えられている。
その効率性のデモンストレーションとして、例えば腕時計のバッテリーを使うことにしたとしよう。Naderipariziは、その場合にはおそらく、毎秒1フレームの速度で30年 以上動作し続けるだろうと語った。
独立した商品ではない
もちろん、ソーラーパワー式のカメラが手に入ったことがブレークスルーというわけではない。それは確かに役に立つかもしれないが、それ自体はそれほどはしゃぎまわるようなことではない。大切なことは、洗練された深層学習モデルが本当に安価なコンピューターの上で実行可能で、しかもスリープ状態の携帯電話よりも電力を使わないという事実なのだ。
「これは独立した製品ではありません」と、Farhadiはこの小さなハードウェアプラットフォームについて語った。「これはイネーブラー(何かを可能にしてくれるもの)なのです」。
VIDEO
顔認識や自然言語処理などの、推論プロセスを実行するのに必要なエネルギー量は、それらを使って何ができるかに対して厳しい制限を課してくる。声で命令すると点灯するスマート電球は、本当はそれ自身はスマートではない。電球の筐体の中に入っている基盤が、音声をハブへと中継し、そしておそらくはどこかのデータセンターの中で、話された内容が解析されてその結果が返され、ライトが点灯するのだ。
それは複雑というだけではない、遅延が発生するし、プロセスが途絶したり攻撃されたりする可能性のある場所を増やすことになるのだ。そして、その間にも定常的に電源もしくはバッテリーが要求される。
一方それとは別に、鉢植えに差し込んだり、壁に取り付けたり、本棚などの上に載せたりするカメラのことを想像してみよう。ただし、このカメラはそれを照らすある程度の光による電力以上のものを必要としない。クラウドと通信することなく単独で音声コマンドを認識し、画像を分析できる。入力をほとんど持っていないのでハッキングすることも難しい。そしてその部品はおそらく10ドル程度のものだ。
本当に広く遍在できるのはどちらか1つだけだ。もちろん後者だけが、インフラストラクチャへの多大な投資を必要とせずに、数十億のデバイスへと拡張することができる。
そして正直なところ、プライバシーや遅延の懸念がある膨大なアプリケーションにとっては、後者の方が好ましいもののように思える。動きを監視するために画像をせっせとクラウドサーバーにストリーミングする、赤ちゃんカメラの方がお好きだろうか?それとも、インターネットに接続していなくても、子供が起きているかどうかを判断できる赤ちゃんモニターの方がお好みだろうか?もしどちらも上手く機能するなら、後者の方が明らかな選択肢のように思える。そしてそれは、その他の膨大な消費者向けアプリケーションにも当てはまるのだ。
驚くべきことに、プラットフォームの要求する電力コストはこれで底打ちというわけではない。このデモユニットでコンピューティングを行うために使用されたFPGAという仕掛けは、提供する処理能力に比べて特に効率的なものではないのだ。もしカスタムチップとして焼き付けた場合には、さらに1〜2桁消費電力を小さくすることが可能で、推論のための作業コストをマイクロジュールレベルへ引き下げることができる。なおサイズは、カメラの光学系とアンテナのサイズによってより制約を受ける。アンテナは無線信号を送受信するためにはある程度の大きさが必要なのだ。
繰り返しになるが、これはこの特定の小さなデバイスを数百万個単位で売ろうという話ではない。Xnorが既にその顧客と行っているように、プラットフォームとその上で実行されるソフトウェアは個別のプロジェクトとハードウェア用にカスタマイズすることが可能である。ある者はモデルをMIPS上で実行することさえ望んでいたが、それは現在すでに実現されている。
自己完結型推論エンジンを実行するために必要な、電力と大きさを大幅に削減することで、まったく新しい製品カテゴリを生み出すことができる。それらは不気味な存在だろうか?おそらくは。しかし、少なくともそれらはどこかと通信する必要はない。
[原文へ ]
(翻訳:sako)