「記録」から「反応」へ。自律的にデータを処理する、監視カメラの新世代

neural_net_security

編集部注:本稿はコンピューター・ビジョン関連企業であるMovidiusのマーケティングコミュニケーション部門のディレクターであるJack Dashwoodによるもの。

アメリカには現在、3000万台の監視カメラがあると言われている。ただし、その3000万台のカメラのうち、常に人間が画面を確認しているのはわずか5%なのだとのこと。その他のカメラはただ映像を記録し、そして犯罪や事故などを捉えたと考えられる場合にのみ画像が確認されるという使い方になっている。

すなわち、現在のセキュリティシステムのほとんどは、ひたすら映像を録画してハードディスクに保存し続けるデバイスネットワークにより構築されているということになる。95%のカメラについては、単純に人的資源不足を理由に、リアルタイムの確認がなされずにいるわけだ。

国内に存在するすべての監視カメラをリアルタイムでチェックできればどうなるか?

すべてのカメラについて、そのカメラをリアルタイムで監視する人を雇うようなことができれば何が変わるだろうか。何らかの事件が起きそうなときに、発生に先立って通報できるようになる機会も増えることだろう。発生しつつある犯罪の被害を最低限におさえるような機会も生まれてくることだろう。

リアルタイムで情報を得ていれば、他のデバイスからの情報と比較しながら状況を解釈することができるようにもなる。最近になって数を増しているテロなどに対しても有効となるケースが出てくるように思われる。

膨大な数が存在する監視カメラも、さらに有効に使えるようになるはずだ。映像を保管するだけの現状よりも、はるかに便利に使えるようになるに違いない。

アメリカにおいては、1週間で40億時間以上の映像が記録されている。

リアルタイムで監視できるようになれば便利になるはずだと、そこには多くの人が同意することだろう。しかし実現しようとなると、9000万もの人をリアルタイム監視のために雇い入れる必要が出てくる。これは大雑把に計算して、国内労働人口の半分程度にもなる規模だ。これはさすがに実現不可能な話だろう。しかし監視カメラにニューラルネットワークの機能が搭載されれば、あたかも9000万人の労働力を投入したのと同様の結果を得ることができるようになる。セキュリティ性能が大幅に向上することとなるのだ。

「ニューラルネットワーク」とは、人工知能関連の研究(機械に、より人間に近い知性をもたせようとする研究)から生まれてきた概念だ。コンピューターを「計算」分野のみでなく、事前に定めたデータ形式にとらわれない、さまざまな内容をもつデータを「解釈」できるようにしようとしたものだ。たとえばビデオの中に現れるモノを把握したり、会話の中に現れるトピックやテーマを把握できるようにしようとしている。人間にとっては当たり前の能力ではあるが、コンピューターにこうした能力をもたせようとするのはかなり難しい話なのだ。

技術の進歩により、監視カメラの台数や録画時間を増やすことなく、有効な情報を取得できるようになる。

保存だけしておいて後に再生するのではなく、リアルタイムで情報解析を行うようにすれば、事故や犯罪により迅速に対応できるようになる(事前に対応したり、あるいは進行中の対応が可能となる)。空港や銀行、あるいは学校などで発生した緊急事態にもより迅速に対処できるようになる。あるいは事故や犯罪を未然に防ぐことすらできるようになる可能性もある。そうした世界を支えるのに、具体的にどのようなテクノロジーが必要なのだろうか?

新しく生まれつつある「ディープ・ニューラル・ネットワーク」などにも大きな注目が集まっている。映像内に人が映っているかどうかだけでなく(それだけでも調査・操作などにはかなり役立つ)、映っている人物が何をしているのかといった情報も理解できるようになってきている。

映像に映っている人が何をしているのかを理解することは、セキュリティ面に大きな進化をもたらすことになる。この技術について、たとえばGoogleは映像内に映る人の姿勢を把握することに成功している。銀行強盗に襲われたような場合にも、警報ボタンを押したりするのではなく、画像内の人物の振る舞いによって自動的に警報を発するようなことができるようになるわけだ。カメラ側で合図や振る舞い自体を解釈することができるようになり、人手を介することなくよりタイムリーにセキュリティ面からの対応が可能となる。

Google Deep Pose

Googleの開発したDeepPose”。深層学習により、被写体の姿勢を解釈することができるようになる。

また、進化した顔認識技術もあわせることで、多くの人の中から侵入者を見分けることも可能となりつつある。近接して配置されたカメラ映像から、怪しい人物の移動の様子などを把握することも可能となっている。さらに研究者たちは歩き方から武器や爆弾を隠していないかを判断したり、あるいはそれを検知するレーダー監視システムなども開発しつつある。

プライバシー面への対応は?

監視カメラのリアルタイム性を強化するという話になると、当然ながらプライバシー問題を危惧する意見も出てくる。もちろん行き過ぎは警戒すべきだが、空港、病院、銀行、および学校などの公共の場所に設置される監視カメラについては、社会的にも許容する意見が優勢になりつつあるように思われる。リアルタイム性を導入しても、既に監視対象となっている場所が効率的に見張られるようになるだけで、新たに監視対象が増えるわけではないという見方もあるのだろう。取得している情報を、公共のために活用しやすくするのだという説明もなされる。

インテリジェント・カメラの広がり

監視カメラは、クラウドコンピューティングの力を活用することで、過去のものよりもはるかに便利でパワフルなものになってきた。しかしカメラに「インテリジェンス」がもたらされることで、さらなる新時代を迎えようとしている。クラウドでのデータ共有を超えて、高性能のセンサーを備えることで、カメラ自体にできることが増えてくる。これによりデータをセンターに移して確認するような必要も少なくなる。通信帯域を気にしながらデータ圧縮を行ったりするような複雑な仕組みは不要となり、カメラのコストがさらに低下することにもつながっていくだろう。

10年前には理論でしか存在しなかったものが、現実として大いに活躍しつつあるのが監視カメラ技術の現在だ。監視カメラにリアルタイム性が備わることにより、犯罪や事件の内容を確認するのみならず、事前にそれらを抑制するような社会が訪れつつあるのだ。

原文へ

(翻訳:Maeda, H

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。