Amazonがキャッシャーレス店舗技術を他の小売業者に販売開始

Amazonは3月9日、「Just Walk Out(ジャスト・ウォーク・アウト)」と呼ばれるキャッシャーレス店舗技術を販売すると発表した。この技術はカメラ、センサー、コンピュータービジョン、深層学習を使い、買い物客が支払いの列に並ぶことなく、そのまま店を出られるようにするものだ。現在、キャッシャーレスコンビニのAmazon Goと、シアトルに新しくオープンしたAmazon Go Grocery(食品)ストアでも、同じ技術が使われている。

Amazonの公式発表に先駆けて最初に報道したロイターは、さらにAmazonはJust Walk Outを導入したい最初の顧客と「複数の」契約を交わしたと話していることも伝えている。だが、その顧客が誰なのかは同社は明かしていない。

Amazonはまた、Just Walk Outの仕組みを解説するWebサイトもオープンし、この新事業に関する質問に答えている。

Webサイトでは、この技術には何年も前から他店舗が興味を示していたため、Just Walk Outの販売に踏み切ったと書かれている。Amazonが提供するシステムには「会計不要な買い物を可能にするために必要なあらゆる技術」が含まれるとサイトでは説明されている。つまり、同社はソフトウェア技術の他にも、カメラのハードウェアやセンサー技術も提供するということだ。価格は示されていないが、このシステムには電話と電子メールによる年中無休24時間体制のサポートが付く。

Amazonによると、システムの設置はAmazonが店舗を視察してからわずか数週間以内に完了するという。新店舗の場合は、建設段階からAmazonが参加し、店舗側と協力してJust Walk Outの設置を進めることができる。店舗改装の際にも、同じように対応できる。既存の店舗に設置する場合でも、営業への影響を最小限に抑えつつ、この技術を設置するという。

間違いのないように言っておくが、これはあくまで、客がレジに並ばずに買い物ができるようにするために店舗にその技術を販売するというものだ。その店舗をAmazon Goコンビニエンスストアのフランチャイズにすることは意図していない。

客の側からすれば、キャッシャーレスの店ではレジに並ぶ必要がないため、時間の節約になる。買い物の時間も惜しむ客が利用するコンビニや、カートに商品を山積みにした客が長い列を作る食料品店においてこのシステムは理に適ったものだ。しかし棚に商品を陳列していない、または売り場面積が非常に広い大型のデパートには向かない。

AmazonのJust Walk Outでは、客はクレジットカードを使って入店すると、Amazonのウェブサイトでは説明されている。客はアプリをインストールする必要も、Amazonのアカウントを作る必要もない。店内の客の動きをカメラが追跡し、商品が棚から取られたとき、または棚に戻されたとき、棚のセンサーがリストに記録する。客が商品を手に取ると、それが仮想カートに入れられる。店を出ると、買った品物の代金がその人のクレジットカードに請求される。紙のレシートが欲しい場合は、店内のキオスクで印刷できるとAmazonは話しているが、いずれにせよレシートは自動的にメールで送られてくる。

ただし、このシステムが結果的に店舗側の増収につながるか否かは定かではない。これによって必要経費が削減できたとしても、設置費用と管理費はかかる。当然のことながら、Amazonも店の従業員を減らすための技術として売り込みをかけているわけではない。従業員は、別の仕事に専念できるようにできるとAmazonでは話している。例えば、客をもてなしたり、質問に答えたり、商品を補充したりなどだ。こうした仕事には、通常の店舗ならすでに人が割り当てられているものだが、そうでないケースもある。とりわけ、オンライン販売のハブに移行しつつある店舗がそうだ。

こうしたシステムへの客の反応も、まだ未知数だ。Amazonの店舗はいまだに目新しい存在であり、こんな人を監視するような技術が一般化されるとしたら、または実際にそうなったとき、客は敬遠するかもしれない。

キャッシャーレスシステムを売り出している企業はAmazonだけではない。Amazonはいち早く自社店舗にこの技術を導入した先駆者ではあるが、それ以来、いくつもの技術系スタートアップが同様のシステムの販売を始めている。AiFi、Grabango、Standard Cognition、Zippinなどがそうだ。米セブンイレブンやWalmartのSam’s Clubなど、独自の自動支払い技術やキャッシャーレス技術のテストを開始する小売り店も現れている。

[原文へ]
(翻訳:金井哲夫)

推論過程をGPUで加速するAmazon Elastic Inferenceはディープラーニングのコストを75%削減する

Amazon Web Servicesが今日、Amazon EC2のどんなインスタンスでもGPUによる推論の加速ができるサービスAmazon Elastic Inferenceを発表した。これにより、ディープラーニングのコストが最大75%削減できるという。

AWSのCEO Andy Jassyは、今朝のAWS re:Inventのステージでこう述べた: “従来のP3インスタンス(GPU常備のインスタンス)では通常、GPUの利用率がせいぜい10%から30%ぐらいで、エラスティックな推論用としては無駄が多い。それだけの費用やGPUを、無駄に使うべきではない。Amazon Elastic Inferenceでは、もっと費用効率の良い方法で推論エンジンを動かせるから、きわめて画期的なサービスだ”。

Amazon Elastic Inferenceは、モデルの作成/学習ツールAmazon SageMakerのノートブックインスタンスとエンドポイント用にも利用でき、“内蔵アルゴリズムとディープラーニングの環境を加速できる”、と同社はブログ記事で言っている。機械学習のフレームワークは、TensorFlow, Apache MXNet, そしてONNXをサポートしている。

[顧客の皆様には、仕事の性質に合った正しいツールを使っていただきたい。このたび発表するAmazon Elastic Inferenceを使うと、エラスティックな(伸縮性のある)GPUサポートを加えて、どんなEC2インスタンスの上でもスケーラブルな推論ができ、大幅な経費節約が可能だ。]

三つのサイズが提供されている:
(混合精度, mixed-precision, FP16とFP32の併用使い分け)

  • eia1.medium: 8 TeraFLOPsの混合精度パフォーマンス
  • eia1.large: 16 TeraFLOPsの混合精度パフォーマンス
  • eia1.xlarge: 32 TeraFLOPsの混合精度パフォーマンス

この新しいサービスを詳しく知りたい方は、こちらへ

more AWS re:Invent 2018 coverage

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google、データセンターの空調管理をAIに一任

データセンターの中は暑くてうるさい——そしてサーバーをオーバーヒートから守ることは運用コストの大きな部分を占めている。業界の大物、Facebook、Microsoft、Googleらがさまざまな方法で冷却コストの節減を目指しているのも当然だ。Facebookは可能な限り外部の空気を冷やす。Microsoftは水中データセンターを実験中。そしてGoogleは、同社のAIモデルを使っていっそうの節約を目論んでいる。

数年前、Googleは傘下のDeepMindを通じて、データセンターに最適な冷却方法を運用者に提供するために、機械学習の利用を探ってきた。しかし、当時はまだシステムは推奨するだけで実施するかどうかは人間のオペレーターが判断していた。今後その人たちは、午後の昼寝時間を長くとれるようになる。モデルが十分に進歩した結果、AIを備えたシステムに冷却システムの制御を任せられるとチームが判断したからだ。もちろん、オペレーターは今も介入できるが、AIが中止の決定をくださない限り、システムは無人運転を続ける。

  1. DME_DCIQ_v09-01.max-2000x2000

  2. DME_DCIQ_v09-02.max-2000x2000

  3. DME_DCIQ_v09-03.max-2000x2000

  4. DME_DCIQ_v09-04.max-2000x2000


新しい冷却システムは現在複数のGoogleデータセンターに設置されている。5分毎に、システムがデータセンター内の数千個のセンサーから値を取得しその情報を元に最適な行動を選択する。もちろん、そこには様々な抑制と均衡が働いているので、Googleのデータセンターがこのために崩壊する可能性は低い。

多くの機械学習モデルと同じく、システムはデータを収集すればするほど賢くなる。現在、これまでのデータセンターのエネルギー利用と比べて平均30%のエネルギー節約を実現している。

ひとつ指摘しておくべきなのは、Googleはわずかな節約のためだけなく、これを自社の機械学習サービスの宣伝のひとつと考えていることだ。つまるところデータセンターでうまくいくなら、大きなオフィスビルディングにも適用できるはずだ。「長期的には、このテクノロジーをほかの環境にも適用し、より大規模な空調にも役立てる可能性があると考えている」、とDeepMind今日の発表文に書いている。

[原文へ]

(翻訳:Nob Takahashi / facebook

Amazon、開発者向けAIカメラ “DeepLens” を249ドルで販売開始

昨年11月のre:Inventカンファレンスで、Amazon AWSはDeepLensを発表した。これは開発者向けに作られたもので、視覚に特化した機会学習モデルの開発とプロトタイピングに利用される。同社は数ヶ月前にDeepLensの予約を開始し、今デベロッパーに向けて出荷が始まった。

今日の発売に先駆け、私はシアトルのワークショップでDeepLensのシニアプロダクトマネージャー、Jyothi Nookula、および AmazonのAI担当VP、Swami Sivasubramaniaとともにハードウェアとソフトウェアサービスを体験する機会を得た。

DeepLensは実質的にはUbuntu-/Intel Atomベースのカメラ付き小型コンピューターで、単体でビジュアル機械学習を実行できる能力をもっている。DeepLensは総合性能は約106 GFLPSだ。

ハードウェアは一般的な入出力ポート(Micro HDMI、USB 2.0、オーディオ出力など)を備え、カメラが裏庭でクマを見つけたら警告を送るおもちゃアプリから、工場のベルトコンベアーを監視する産業アプリまでさまざまなアプリのプロトタイプを作ることができる。4 Mピクセルのカメラは何か注目を浴びるものではないがほとんどの用途に十分適している。当然ながらDeepLensは他のAWSサービスと深く統合されている。AWSのIoTサービスであるGreengrassはDeepLensにモデルを配信する際に利用し、Amazonの機械学習モデル構築用最新ツールであるSageMakerとも連携する。

こうした連携は、非常に簡単にカメラを使い始められるのにも役立っている。あらかじめ用意されているモデルを使えば、10分足らずでDeepLensを設定しモデルを組み込んで利用できる。プロジェクトテンプレートの中には、20種類の物体を識別する別体検出モデルや、カメラ画像をゴッホ風に変換するスタイル変換モデルや顔認識モデル、猫と犬を区別するモデル、約30種類の動作(ギターを弾く、など)を認識できるモデルなどがある。DeepLensチームは、頭部の姿勢を追跡するモデルも開発中だ。そうそう、ホットドッグ検出モードもある。

それだけではない。開発チームはワークショップの中で、機械学習の経験がまったくないデベロッパーでも既存のテンプレートを簡単に拡張できることを強調していた。ひとつには、DeepLensプロジェクトが2つの部分からなっているためだろう。モデルおよびモデルの出力に基づいてモデルのインスタンスをアクションを実行するLambda機能だ。AWSは、ベースにあるインフラストラクチャーを管理することなくモデルを簡単に作るためのツールとしてSageMakerを提供している。

DeepLensのハードウェアは実質的に小さなコンピューターなので、それ自身でさまざまな開発が可能だが、おそらくもっと強力なマシンで開発してからAWSコンソールを使ってDeepLensに転送する方がいいだろう。それでもDeepLensを低性能デスクトップマシンとして使いたいという人のために、Ubuntu 16.04がプレインストールされている。

機械学習のフレームワークに慣れているデベロッパーなら、DeepLensを使うとCaffe、TensorFlow、MxNetなどほぼすべての人気ツールから簡単にモデルをインポートできる。またAWSチームはMXNetモデルをDeepLensデバイスでより効率よく動作するための最適化ツールも作ったことも報告しておく。

ではなぜAWSはDeepLensを開発したのだろうか? 「DeepLensカメラを作った理由は、われわれが自身に問いかけたある単純な疑問にあった:機械学習もデベロッパー全員の手に届けるにはどうすればよいか?」とSivasubramanianは言う。「ブレーンストーミングを重ねた結果、最も有望な発見は、デベロッパーは実際にデバイスに手を触れて開発するのが大好きだというアイデアだった」。しかしなぜAWSはパートナーと協力するのではなく独自にハードウェアを作ったのか?「われわれには具体的な顧客体験のアイデアがあり、すべての体験が本当に簡単であることを確かめたかったからだ」と彼は言った。「このハードウェアを買って、Amazonからこのツールをダウンロードして、などと言っていると環境が揃うの2~3日かかってしまう。それでは、ディープラーニングを学んで何か楽しいものを作ろうとワクワクしている人にとっては長すぎる」

そういうわけで、、これから機械学習を使ったプロジェクトを始めたい人は、DeepLensをAmazonから購入できる。249ドルは安くはないが、すでにAWSを使っていて——しかもすでにLambdaも使っていれば——おそらく簡単に機械学習アプリケーションを作り始めることができるだろう。

[原文へ]

(翻訳:Nob Takahashi / facebook

GoogleのTranslateアプリがインターネット版と同じく機械学習の使用へ(全59言語)

GoogleのTranslateアプリは、iOSでもAndroidでも、現状ではインターネットにアクセスした方がオフラインで使うより結果が断然よろしい。その理由は、オフラインの翻訳は機械翻訳の古いテクニックであるフレーズ(語句)ベースの翻訳であるのに対し、オンラインでは最新の機械学習によるシステムを利用しているからだ。しかしそれが今日(米国時間6/12)から変わり、TranslateアプリではオフラインのNeural Machine Translation(NMT)が59の言語をサポートする。

今日はまだ、少数のユーザーがそのアップデートを体験できるだけだが、数週間以内に全ユーザーに展開される予定だ。

サポートされる言語はとても多くて、自分の好きなのだけ挙げてもしょうがないから、ここではそのすべてをご紹介しよう:

Afrikaans, Albanian, Arabic, Belarusian, Bengali, Bulgarian, Catalan, Chinese, Croatian, Czech, Danish, Dutch, English, Esperanto, Estonian, Filipino, Finnish, French, Galician, Georgian, German, Greek, Gujarati, Haitian, Creole, Hebrew, Hindi, Hungarian, Icelandic, Indonesian, Irish, Italian, Japanese, Kannada, Korean, Latvian, Lithuanian, Macedonian, Malay, Maltese, Marathi, Norwegian, Persian, Polish, Portuguese, Romanian, Russian, Slovak, Slovenian, Spanish, Swahili, Swedish, Tamil, Telugu, Thai, Turkish, Ukrainian, Urdu, Vietnamese and Welsh(アフリカーンス語、アルバニア語、アラビア語、ベラルーシ語、ベンガル語、ブルガリア語、カタルーニャ語、中国語。クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、ジョージア語、ドイツ語、ギリシャ語、グジャラート語、ハイチ語、クレオール語、ヘブライ語、ヒンズー語、ハンガリア語、アイスランド語、インドネシア語、アイルランド語 、イタリア語、日本語、カンナダ語、韓国語(朝鮮語)、ラトビア語、リトアニア語、マケドニア語、マレー語、マルタ語、マラーティー語、ノルウェー語、ペルシャ語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スロバキア語、スロベニア語、スペイン語、スワヒリ語、スウェーデン語、タミール語、テルグ語、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ベトナム語、ウェールズ語)。

これまでは、ハードウェアの能力の限界などにより、スマートフォンの上でディープラーニングのモデルを動かすことはできなかった。しかし最近のハードウェアとソフトウェアの進歩により、その問題は克服され、またGoogleやMicrosoftなどはモデルを小さく圧縮して使う方法を見つけた。Googleの場合、それは一言語につき30から40メガバイトになる。

なおMicrosoftも今年の初めに、同社のTranslatorアプリに同種の機能を発表した。ただし当面それは、対象言語が1ダースぐらいだ。

画像クレジット: TechCrunch

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Facebookのオープンソースの囲碁ボットはプロの棋士に勝つ

碁(囲碁)は機械学習の研究者の必須科目だ。GoogleのDeepMindはそのアルゴリズムを魅せつけて有名になり、そしてFacebookも最近、碁ボットを自分で作っていることを発表した。同社のデベロッパーカンファレンスF8で今日(米国時間5/2)行われたそのELF OpenGoボットの発表では、30名の人間棋士との計14試合に全勝し、プロの資格を獲得した、と宣言された。

FacebookのCTO Mike Schroepferはこう述べた: “DeepMindにいるお友だちの偉業には敬服するけど、でも、まだ答えられていない疑問があるのではないだろうか? これらのツールは、ほかにどんなことに利用できるのか?”。Facebookが今日のブログ記事で言っているのは、DeepMindのモデル本体は不透明な包装紙に包まれたままだ、ということ。対照的にFacebookは、そのボットをオープンソースにした

“これを再現可能にしてしかも世界中のAI研究者が利用できるようにするために、われわれはオープンソースの碁ボットを作り、ELF OpenGoと名付けた。これなら、DeepMindのAlphaGoが答えなかった重要な疑問にも十分、答えることができるだろう”、とチームは主張している。

チームが関心を持っているのは、碁だけではない。FacebookのAI研究グループは、StarCraftボットも作って、あのゲームの混沌とした世界にプレーヤーが対応できるようにした。これも、オープンソースにする予定だ。Facebookはまだ、訓練量が十分ならどんなゲームでも学習できるボットをローンチできるところまでは行ってないが、でもチームはそれに向かって相当前進していることは確かだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Linux Foundationにディープラーニングのオープンソース団体が加わる

名前はLinuxでも、Linux Foundationかなり前から、Linuxのためだけの団体ではない。今ではCloud Foundry, Automotive Grade Linux Initiative, Cloud Native Computing Foundationなど、さまざまなオープンソースの財団やプロジェクトを支えている。そして今日(米国時間3/26)Linux Foundationにはさらにもうひとつの財団、LF Deep Learning Foundationのサポートが加わった

LF Deep Learning Foundationの目的は、“人工知能や機械学習、およびディープラーニングのオープンソースのイノベーションをサポートして支え、これらの重要な技術を世界中のデベロッパーとデータサイエンティストにとって可利用にすること”だ。

創設メンバーは、Amdocs, AT&T, B.Yond, Baidu, Huawei, Nokia, Tech Mahindra, Tencent, Univa, そしてZTEだ。今後、さらに増えていくであろう。

The Linux Foundationの事務局長Jim Zemlinはこう述べている: “AIや機械学習およびディープラーニングのエコシステムにおける多くのプロジェクトに長期的な戦略と支援を提供し続けることを目的とする団体をご提供できることは、きわめて喜ばしい”。

同団体の最初の公式プロジェクトはAcumos AI Projectで、これはLinux Foundationがすでにホストしている、AT&TとTech Mahindraのコラボレーションだ。Acumos AIは、AIのモデルとワークフローを開発、発見、そして共有するためのプラットホームだ。

Linux Foundationが支えるそのほかの団体と同じく、LF Deep Learning Foundationもさまざまなレベルの会員資格を支援企業に提供し、また非営利団体も会員として受け入れる。LF Deep Learningの会員は、同時にLinux Foundationの会員にもなる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

エッジで安価にディープラーニング活用、Ideinが1.8億円を調達

処理性能が高くないエッジデバイスでディープラーニングを使った画像認識などを実用化する技術を開発するスタートアップ企業のIdein(イデイン)は今日、グローバル・ブレインDG LabファンドからシリーズAラウンドとして合計1億8000万円の資金調達を実施したことを発表した。Ideinは2015年4月の創業で、これまでエンジェル投資家や日本政策金融公庫などから3000万円の資金を得て、受託や研究開発を進めてきた。2016年末には黒字化しているが、「高度センシングデバイス」と、それらを使うためのクラウド側のインフラをSaaSで提供するという狙いでビジネスをスケールさせるという狙いだ。

クラウドではなくエッジでDLを活用

静止画や動画を解析して「そこに何が映っているのか」「何が起こっているのか」を理解するコンピュタービジョンという研究と応用の領域が、ディープラーニングによって近年劇的に性能が向上している、というのは皆さんご存知のとおり。GoogleやAmazon、Microsoft、IBMが次々とAPIを公開して民主化も進んでいる。もう各企業がモデルのトレーニングをしたり、開発者がディープラーニングのライブラリの使い方を学ばなくてもディープラーニングの恩恵を受けることができるようになってきた。

問題は画像を認識する場所だ。

APIベースにしろ、自社でディープラーニングを使うにしろ、今のところ多くの処理はサーバー上(クラウド上)で起こる。サーバー上で認識(推論)するということは、そのための画像データをネットワークで送信する必要があるが、その通信コストは用途によってはペイしないかもしれない。監視系のIoTなんかが、そうした応用の1つだ。

Idein創業者で代表の中村晃一氏は「画像認識APIを呼び続けるよりもエッジデバイスでディープラーニングを使うことで安くできます。普通にクラウドでやると通信コストは月額数十万円になり、これは削りづらいところです」と話す。

認識するのは画像だけではなく、音や加速度といったセンサーも組み合わせる。ポイントはセンサーから入ってきた情報をクラウドに投げるのではなく、エッジ側でディープラーニングを使った処理をしてしまうところ。サイズが小さく構造化したデータをクラウドやサービスに接続することでデータ収集や監視を行うのが狙い、という。

Idein創業者で代表取締役の中村晃一氏

例えばヘルスケアや介護の見守りの領域で応用が可能だ。医療関係の知人から「睡眠時無呼吸症候」の相談を受けて2014年末に試作した電球型のセンシングデバイスで手応えを感じたことが、そもそもの今回の取り組みのスタートという。「実際に3Dプリンターを使って3ヶ月ほどで作ってみたら、デバイスでイベントを取得するというのは他にも需要がありそうだ、これは結構いけるぞと思ったんです」(中村氏)

中村氏をはじめIdeinの11人のチームメンバーは情報科学系の研究者とエンジニア。中村氏は 東京大学情報理工学系研究科コンピューター科学でコンパイラの最適化技術に取り組んだりしていたそう。

Ideinの強みは、汎用のRaspberry Pi上で高速にディープラーニングを使うソフトウェア環境を整えたこと。Ideinが使っているのはプロセッサもソフトウェアも汎用のものだ。Raspberry Piはスマホと似たプロセッサだし、ディープラーニングにはChainerやCaffeといったオープンソースのライブラリを使う。難しいのはRaspberry Pi搭載のGPUであるVideoCore IVを使うために、アセンブラ、コンパイラ、数値計算ライブラリなど一通りのツールチェーンを自分たちで作った部分という。これによって10倍から30倍の高速化となり、以下の動画にあるように、30ドル程度の汎用デバイスでGoogleNet(Googleが配布している画像認識の学習モデル)による認識時間が0.7秒という実用的な速度になっている、という。

戦略としてはライブラリの一部はオープンソースとしていき、むしろソフトウェアのデプロイ(エッジデバイスに配布する)や管理、センシングで得たイベント情報のネット側のつなぎこみの部分で課金をしていくモデルを考えているそう。センサー自体も高度なものである必要がないほか、ソフトウェアのアップデートによって、新しい学習モデルを使った認識機能を増やしていくことができる。例えば顔認識は最初から組み入れつつ、後から顔の方向や表情を取得するといったようなことができるそうだ。

GoogleがTensorFlowによるオブジェクト検出APIをリリース、機械学習のデベロッパー利用がますます簡単に

Googleが今日(米国時間6/16)、TensorFlowのオブジェクト検出APIをリリースする。これによりデベロッパーや研究者は、画像中のオブジェクトを容易に認識できるようになる。Googleは今回とくに、単純性とパフォーマンスを重視している…今日リリースされるモデルはすでにベンチマークの成績も良く、研究用にいつも使われていたものだ。

この検出APIに含まれているひとにぎりほどのモデルは、インセプションに基づくヘビーデューティーな畳み込みニューラルネットワークや、それほど高度でないマシンで使う単純化されたモデルなどだ…そのように最適化されているシングルショットの検出システムMobileNetsは、スマートフォン上でリアルタイムで使用できる。

今週初めにGoogleはそのMobileNetsを、軽量なコンピュータービジョン用のモデルの系統として発表した。これらのモデルは、オブジェクト検出や顔認識、ランドマーク認識などに利用できる。

今のスマートフォンは大型デスクトップやサーバーほどの計算資源がないから、デベロッパーには二つのオプションがある。機械学習のモデルをクラウドで動かすか、または、モデルを単純化することだ。しかし前者にはレイテンシーがありインターネットが必要だから、大衆化は無理だろう。後者は逆に、広範な大衆化のためにパフォーマンスで妥協するのだ。

GoogleとFacebookとAppleは、こういったモバイルのモデルに注力している。昨秋Facebookは、スマートフォン用のモデルを作るためのフレームワークCaffe2Goを発表した。それの最初の大型実装が、FacebookのStyle Transferだった。Googleはこの春のI/Oで、単純化された機械学習フレームワークTensorFlow liteをリリースした。さらにAppleは先日のWWDCで、機械学習のモデルをiOSデバイスで使いやすくするためのシステムCoreMLを打ち出した。

GoogleはFacebookやAppleと違って、パブリッククラウド上でいろんなものを提供しており、コンピュータービジョンもすでに、スケーラビリティのあるコンピュータービジョンサービスとして Cloud Vision APIを提供している。

今日発表されたTensorFlowオブジェクト検出APIはここにある。それを誰でも簡単に試せるし実装できるものにしたいGoogleは、そのキットのパッケージに重みと、Jupyter Notebookを含めている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ディープラーニング・アプリケーションの開発〜デプロイ過程をシンプルに一元管理するBitfusion Flex

BitfusionがDisrupt NY 2015でローンチしたときは、GPUやFPGAなどのコプロセッサーを利用するコンパイル済みのライブラリをデベロッパーに提供してアプリケーションのスピードを上げる、というビジネスだった。それは2年前のことだ。今では、そんな技術の最大の市場が、ディープラーニングのモデルの訓練だ。同社がローンチしたときには、それらはレーダーに映っていなかった。でも、当然とはいえ、Bitfusionが今まさにフォーカスしているのが、その市場だ。

今日同社は、Vanedge Capitalがリードするラウンドによる500万ドルのシリーズA資金の調達を発表した。そのラウンドには、新たな投資家Sierra Venturesとこれまでの投資家Data Collective, Resonant VC, そしてGeekdomが参加した。同社の計画では、このお金は研究開発の強化に投じられ、そしてとくに、AIプロジェクトの構築と管理を支える、フレームワークを特定しないプラットホームBitfusion Flexにフォーカスされる。

今ベータのBitfusion Flexは、デベロッパーが単一のプラットホーム上でAIアプリケーションのライフサイクル管理ができるようにする。デベロッパーは単一のダッシュボード上で開発、訓練、そしてデプロイまでも実行し管理できる。内部的にFlexはコンテナを使って実験やモデルを複数のローカルマシンやクラウド間で容易にスケールし移動できるようにしているが、しかしベアメタル上のデプロイもサポートしている。

ただしFlexは、モデリングそのものを容易にしてくれるわけではない。TensorFlow, Torch, Caffeなど、フレームワークの選択とセットアップはアプリストア的なインタフェイスでできるが、その強みは、これらのアプリケーションを作って動かすために必要なインフラストラクチャの管理にある。したがってFlexは、フレームワークのことは気にしないし、またアプリケーションをどこへデプロイするのかも気にしない。

このサービスを利用して行う工程の管理は、Web上(ブラウザー上)のインタフェイスからでもできるし、またコマンドラインインタフェイスからでもできる。そしてたとえば開発時には、リモートのGPUをローカルなラップトップから使ったりできるのだ。

BitfusionのCEOで協同ファウンダーのSubbu Ramaはこう語る: “ディープラーニングのプロジェクトは、現状ではプロトタイプから先へ進めない人が多い。今は至るところで猫も杓子もディープラーニングをやりたがるが、Global 2000社には人がいない”。そこでBitfusionはFlexでもって、インフラストラクチャの管理という面倒な仕事を抽象化し、企業がやっと雇えたデータサイエンティストたちがアプリケーションに集中できるようにする。

Flexのベータ終了は数か月後の予定だ。オースチンに本社のある同社は、今後シリコンバレーでのプレゼンスを大きくしたい。ただし研究開発の多くは今後もずっと、オースチンでやっていきたい、という。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Facebookが最初のCaffeに大きな柔軟性を持たせたディープラーニングフレームワークCaffe2をオープンソース化

今日(米国時間4/18)FacebookはCaffe2をオープンソースにした。それは、最初のCaffeに次ぐディープラーニングフレームワークで、そのCaffeはカリフォルニア大学バークリー校で始まったプロジェクトだ。Caffe2は、効率的にデプロイできる高性能な製品を作ろうとするデベロッパーに、大幅な柔軟性を与える。

FacebookがCaffeのコミュニティにエンゲージするのは、これが初めてではない。10月にはCaffe2Goを発表したが、それはいわば、モバイルのCPUとGPU向けに最適化されたCaffe2だ。そもそも、名前の中に‘Caffe2’がある。そのときCaffe2Goが注目されたのは、リリース時期がたまたまStyle Transferと一致したからだ。

もうひとつ注目すべきは、同社が最初のCaffeのエクステンションをリリースしたことだ。それによってCaffeが、大きなオーディエンス向けのサービスを構築しているデベロッパーにとって、魅力的になった。Facebookは従来、リソースをそれほど必要としないディープラーニングのプロジェクトには、研究用途向けに最適とされるTorchライブラリ〔2015年にオープンソース化〕を使ってきた。

でも最近のテクノロジー企業はどこも、自社の機械学習フレームワークはスケーラビリティが優れている、と強調するようになった。Caffe2の開発リーダーYangqing Jiaは、MXNetと、スケーラビリティをめぐるAmazonの主張 をどう思っているだろうか。彼は比較のためのベンチマークにあえて言及しないが、しかしそれはベンチマークが無意味だからではなく、そもそも機械学習アプリケーションの性能は実装に大きく左右されるし、また学習モデルの質にも依るからだ。しかもそれらにはほぼ必ず、“DIY的な”バラつきや変動がつきまとう。

Caffe2のリーダーYangqing Jiaと事業開発のリーダーAlex Yu

“フレームワークというものには多かれ少なかれ必ずスケーラビリティの問題がつきまとうが、そんな中でCaffe2は、頭一つぐらい他を抜いていると思う”、とJiaは説明する。

Facebookは、Caffe2とPyTorchの両方に多くのリソースを注いでいる。今日の発表には、ハードウェアとデバイスとクラウドのレベルでのパートナーシップが伴っている。Caffe2の事業開発を統轄するAlex Yuは、どのカテゴリーでもパートナーとしてマーケットリーダーをねらった、と言っている。たとえばハードウェアではNvidiaやIntel、デバイスではQualcomm、クラウドではAmazonとMicrosoft、といったぐあいだ。この中にGoogleの名はないが、Google Cloud Platformとのパートナーシップも、今後無視されることはありえない。

Caffe2はリリースの前から、Facebook内部で大々的にデプロイされてきた。また、元のCaffeと同じく、デベロッパーコミュニティの育成にも力を入れる。CaffeからCaffe2へのモデルへの変換は、ユーティリティスクリプトで簡単にできる。ドキュメンテーションとチュートリアルはFacebookが提供、そしてCaffe2のソースコードはGitHub上にある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

GoogleのDeepMindが社内的に使っていたニューラルネットワークライブラリSonnetをオープンソース化

GoogleのDeepMindが今日(米国時間4/7)、同社のオブジェクト指向のニューラルネットワークライブラリSonnetをオープンソースにする、と発表した。SonnetはTensorFlowに置き換わるものではなくて、同社内部の研究のためのベストプラクティスとよくマッチした高レベルのライブラリだ。

DeepMindが同社のブログ記事で述べているところによると、このライブラリはさまざまに異なるモデルへの切り替えが容易にできるように最適化されているので、実験を行うエンジニアが自分のプロジェクトの全体を手直しする必要がない。そうするためにチームはTensorFlowに変更を加え、複数のモデルを容易に階層として見なせるようにした。DeepMindはまた、さまざまな共有形式における透明性を加えた。

Sonnetをオープンソースにするのは、DeepMind自身の利益でもある。コミュニティがDeepMindの内部的ライブラリをよく知るようになれば、ペーパー等でのモデルの共有がやりやすくなる。また逆に、マシンインテリジェンスのコミュニティが自分たちの仕事にSonnetを採用することによって、ライブラリへの寄与貢献がよりやりやすくなる。

[TensorFlowと互換性があるので、コードのミックスができる。]
[Sonnetのオープンソース化でモデルのオープンソース化も容易になる。ペーパーの共有範囲も広がる〔Sonnet語がDM方言でなく標準語(共通語)になる〕。]

DeepMindはこのところ、オープンソースに熱心に取り組んでいる。たとえばオープンソースのAPIを開発して、研究をStarCraft IIの上でできるようにしている。12月にチームはDeepMind Labをリリースして、AI研究の一般化汎用化に貢献した。それは、OpenAIのUniverseにも似ている。オープンソースプロジェクトはDeepMindのWebサイト上で自分のホームページまでもらっている。

ライブラリはGithubで入手できる。ライブラリを内部的に変えるたびに、オープンソース版のアップデートを行うつもりだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Googleの機械学習専用カスタムチップはGPU/CPUマシンの15〜30倍速い…同社ベンチマークを発表

【抄訳】
Googleが同社の機械学習アルゴリズムを高速に実行するカスタムチップを独自に開発したことは、前から知られていた。その Tensor Processing Units(TPU)と呼ばれるチップが初めて公開されたのは、2016年の同社のI/Oデベロッパーカンファレンスだったが、詳しい情報は乏しくて、ただ、同社自身の機械学習フレームワークTensorFlowに向けて最適化されている、という話だけだった。そして今日(米国時間4/5)初めて、同社はこのプロジェクトの詳細ベンチマークを共有した。

チップの設計をやってる人なら、Googleのペーパーを読んで、TPUの動作に関するややこしいすばらしい詳細情報を理解できるだろう。でもここで主に取り上げたいのは、Google自身のベンチマークの結果だ(客観的な第三者の評価ではない)。それによるとTPUは、Googleの通常の機械学習のワークロードを、標準のGPU/CPU機(IntelのHaswellプロセッサーとNvidia K80 GPUs)より平均で15〜30倍速く実行できた。また、データセンターでは電力消費が重要だが、TPUのTeraOps/Wattは30〜80倍高い。将来は高速メモリの使用により、これよりもさらに高くなるという。

なお、これは実際に使われている機械学習モデルを使った場合の数字であり、モデルの作成は関わっていない。

Googleによると、一般的にこの種のチップはconvolutional neural networks畳み込みニューラルネットワーク、画像認識などによく使われる)向けに最適化されることが多いが、Googleのデータセンターのワークロードではこの種のネットワークは全体の約5%にすぎず、大多数はmulti-layer perceptrons(多層パーセプトロン)のアプリケーションだ、という。

【中略】

Googleには、TPUを自分のクラウドの外で可利用にする気はないようだが、しかし同社は、これを勉強した誰かが将来、彼らが作る後継機により、“バーの高さをさらに上げる”ことを期待する、と言っている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Watsonみたいにクイズにめっぽう強いQA Engineを開発したStudio Ousiaが1.5億円を追加調達

ousia

Studio Ousiaが今日、Samsung Venture Investmentから1.5億円の資金を調達したことを発表した。Studio Ousiaは2016年4月にTechCrunch Japanでも取り上げたことがあるが、自然言語処理を得意とするスタートアップ企業だ。テキスト中に「ソフトバンク」という固有名詞があったときにそれが企業名なのか、野球チームのことを指しているかを区別するという「キーワード抽出」(アカデミックな世界ではエンティティ・リンキングと呼ぶそうだ)の技術や、質問応答システムの「QA Engine」などを開発している。

Studio OusiaのQA Engineは、従来からあるBM25やTF-IDFといった情報検索手法に加えて、最近ディープラーニングの文脈で注目されているCNN(Convolutional Neural Networks)を使っている。与えられた自然言語による質問文に対して、正解となる回答を予測できる。

2016年6月に開催されたNAACL(North American Chapter of the Association for Computational Linguistics)主催の歴史、文学、科学、芸術などの知識を問うクイズ・コンテストでは85問中64問に正答して優勝。2位の22問正解に対して大きく差を付けたといい、Ousiaによれば、この差は開発済みのキーワード抽出技術を使った成果でもあるという。

以下のNAACLのコンテストの様子を伝える動画で、Ousiaの技術概要の説明と、3人のクイズの得意なアメリカ人学生とOusiaのクイズ対決がみられる。IBMのWatsonが人気クイズ番組の歴代チャンピオンに勝ったときの映像を彷彿とさせる白熱具合だ。ちなみに2011年にIBM Watsonがクイズチャンピオンを負かしたときは2880個のプロセッサと16TBのメモリを搭載したモンスターマシンを使っていたが、Ousiaは学習時にGPUを使った以外は「普通のサーバー」でQA Engine動かしているそうだから、隔世の感がある。

ちなみにこのNAACLの大会で2位になったシステムですら、かつて人間のクイズチャンピオンとしてIBM Watsonに負けたという意味での「歴史的チャンピオン」となったケン・ジェニングスを打ち負かしているそうだから、なんだかもうクイズに関しては全く人間の出る幕は全くない感じだね。

Ousiaでは、このQA Engineは企業のコールセンターの回答支援システムや、人材マッチング、チャットボットに応用できる要素技術として、APIサービスとして提供していく予定という。すでに2017年1月にはチャットサポートの自動応答でクラウド会計のfreeeとの協業を発表している。Studio Ousiaは2007年創業で、これまでエヌアイディ、ニッセイ・キャピタルなどから累計2億円を調達している。

YahooがTensorFlowをApache Sparkで高度なスケーラビリティへアップ

Servers in Data Center

Apache Sparkの模範市民Yahooはかつて、CaffeによるディープラーニングモデルのスケーラビリティをSparkの並列処理で高めるフレームワーク、CaffeOnSparkを開発した。そしてそのYahooが今回は、TensorFlowOnSparkと呼ばれるプロジェクトをオープンソースで公開した。今度のそれは、SparkとTensorFlowを組み合わせることによって、大規模なクラスターで動くディープラーニングモデルを作るデベロッパーにとってTensorFlowフレームワークを、より魅力的にするものだ〔==TensorFlowのスケーラビリティを高める〕。

ビッグデータ時代の人気者になったApache Sparkは、効率の高い並列処理を可能にするオープンソースのフレームワークだ。Hadoopのようなシステムを追う形で出てきたSparkは、たとえばNetflixのような企業における大量のユーザーデータの処理を支え、リコメンデーションのスケールアップを可能にしている。

GoogleのTensorFlowやCaffeのような機械学習のフレームワークの登場によって、機械学習の専門知識のない者でもディープラーニングのモデルを作れるようになった。抽象度の高いライブラリがオープンソースで存在するからデベロッパーは、車輪を再発明する苦労から解放されて、いきなりモデルそのものを作ることができる。

ビッグデータの処理を高効率なクラスタリング並列処理で支えるSparkは、機械学習、中でもディープラーニングが必要とする膨大な量の、そして高速であることを要する、データ処理にも向いている。Yahooは自社で利用するためにCaffeOnSparkを作ったが、Caffe用のツールは機械学習のコミュニティのごく一部にとってしか恩恵がない。それに対して、人気がすごく高いフレームワークがTensorFlowだ(下図)。そこでYahooは、ディープラーニングのための大量高速データ処理をSparkにやらせるその処理枠組みを、TensorFlowに移植し、コミュニティの尊敬をかちとることを目指した。

YahooはTensorFlowとSparkのあいだに橋をかけるために、既存のツールSparkNetやTensorFrameを参考にしたが、最終的には一から自分で作る方が良い、と結論した。その結果デベロッパーは、自分の既存のTensorFlowプログラムを比較的簡単に、TensorFlowOnSparkを使うよう改造できる。

ディープラーニングのフレームワークは、デベロッパーたちが特定の“部族”に凝り固まる傾向がある。たとえばJavaで書かれたSkymindのDeeplearning4jは、最初からSparkを統合しているオープンソースのフレームワークだが、このライブラリの人気は6位と低い。そして他方には、複数種類のGPUにまたがるスケーラビリティを誇るMXNetがある。その特長がAmazonの関心をとらえ、AWSの努力によりMxNetはApacheのインキュベータに加入した

TensorFlowOnSparkはオープンソースだが、Yahoo自身による改良努力は今後も続く。入手は、YahooのGitHubから可能だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Udacityがディープラーニングのナノ学位基礎コースを立ち上げ、399ドルで志願者全員入学

tc-09

コンピューターの計算能力と効率がこのところ大幅に向上したため、至るところでディープラーニング(deep learning, 深層学習, 多段ニューラルネットワーク)が利用されるようになった。ディープラーニングは今では、自動運転車やコンビニエンスストア、それに病院などでも使われている。しかしこの分野は技術者の人材がまだ豊富でないため、優秀な人材が希少財として奪い合いになり、そのことが、応用分野を広げ、難しい問題を解決していくためのボトルネックになっている。そこでオンライン学習サイトUdacityは、この前導入したAIコースに加え、このほどYouTubeのスターSiraj Ravalとパートナーして、ディープラーニングのナノ学位*を付与する基礎コースを開始する。〔*: ‘ナノ学位’の簡単な説明はこの記事の冒頭訳注に。基礎コースは、ナノ学位のさらに初等コースで、Udacityの新企画。〕

Udacityは今後、このような単科の基礎コース(Foundation Programs)を重視していく意向だ。これは完全なナノ学位コースの受講がまだ無理な段階の初学者の、階段の一段目をとにかく上がりたい、という学習ニーズに応える。この新しいコースは、17週で多くを学ぶが、時間は毎週3〜4時間程度で、とにかくディープラーニングを利用していろんな問題を解くために必要十分な知識を習得する。Ravelはそれを、技術というより、考え方の習得だ、と説明する。

Ravalには、短時間で大量の情報を人に伝えた経験が豊富にある。YouTubeのコースでは期間が最大で2か月だが、彼自身が感心するほど、生徒たちの達成度は高い。

“最後に生徒たちは自分のGitHubアカウント上に5つのプロジェクトを与えられるが、その最終プロジェクトはGenerative Adversarial Networks*、この分野の最先端の技術だ”、とRavalは語る。“基礎とは言っても相当本格的だから、雇う側も安心できるだろう”。〔*: Generative Adversarial Networks, 仮訳: 生成的対立的ネットワーク, 参考記事

Ravalが考える理想の生徒とは、Pythonができて代数の基礎が分かること。プログラミングをまったくやったことのない人は、対象外。むしろ、現役のプログラマーがディープラーニングのスキルを身につけることが目的だ。

多くの人に‘入学’してもらいたいUdacityは、この基礎コースの特典として卒業後「自動運転車」や「人工知能」ナノ学位コースに無条件で入学を認め、100ドルの助成金を進呈する。これらのナノ・コースは、入学志願者の数%(自動運転は16%、AIは4.5%)しか入れない、競争率の高い狭き門だ。

“これはUdacityにとっても新しい展開であり、今年はナノ学位基礎コース(Nanodegree Foundation programs)をもっと増やしていく、とUdacityのCMO(chief marketing officer)Shernaz Daverは語る。

ディープラーニング基礎コースの授業料は399ドル*、入学志願の受け付けは今日(米国時間1/13)から1月20日まで。授業は20日に始まり、6ヶ月のコースを完了した者が卒業資格を得る。〔*: 基礎コースは全員入学。志願書提出時に399ドルを払う。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Apple、シミュレーション+教師なし学習の新方式でAI研究分野に参入

screen-shot-2016-12-26-at-3-05-45-am

Appleの機械学習研究が新たな先端技術をものにしようとしている。最近同社の研究者6名が結成した機械学習グループは、シミュレーション+教師なし学習の新しい方法を 論文で発表した。目的は合成訓練画像の品質改善だ。この研究は、成長の続くAI分野で明確なリーダーになろうとしている同社の意欲を表している。

GoogleFacebookMicrosoftをはじめとするIT既成勢力は、それぞれの機械学習部門を順調に拡張している。毎年発表される数百もの論文によって各社の学術的研究は詳しく公開されているが、Appleの態度は頑なだった ― 魔法は自分たちだけのもの。

しかし今月、AppleのAI研究責任者、Russ Slakhutdinovは近く同社が研究内容を公表することを発表し、変化が表れてきた。チーム初の試みはタイムリーかつ実用的なものだった。

近年、合成画像や合成映像は機械学習モデルのトレーニングによく使われるようになった。コストも時間もかかる現実世界の画像と異なり、合成された画像はコストも低く入手が容易でカスタマイズもできる。

この技法には様々な可能性があるが、わずかな不完全さが最終製品に重大な影響を及ぼすリスクもある。つまり、合成画像で実画像と同じ基準の質を得ることは難しい。

Appleは、 Generative Adversarial Networks (GAN) を使用して合成学習画像の質を改善することを提案している。GANは新しいものではないが、Appleはこの目的に合わせて修正を加えている。

上位レベルで、GANは競合するニューラルネットワーク間の敵対関係を利用して動作する。Appleの場合、シミュレーターが合成画像を生成し、それに精緻化処理を施す。改善された画像は、実画像と合成画像を区別する識別装置に送られる。

screen-shot-2016-12-26-at-2-22-52-pm

ゲーム理論の観点から見ると、各ネットワークは2人プレーヤー・ミニマックスゲームを争っていることになる。この種のゲームの目的は、発生可能な最大損出を最小に抑えることだ。

AppleのSimGANというGANの派生システムは、局所的敵対損失と自己規制の両方の項を最小化しようとする。ふたつの項は合成画像と実画像の差異を最小化すると同時に、合成画像と改善画像の差を最小化してニュアンスを保持しようとする。これは、修正を加えすぎると教師なし学習の意味がなくなるという考えに基づいている。もし樹木が樹木のようには見えず、モデルの目的が自動運転車が木をよけるためだとすれば、意味がない。

研究チームは修正の微調整も行っている。例えば、モデルが改善画像の一部を見るだけでなく修正履歴まで考慮することによって、あらゆる時点で生成画像を偽物と識別できるようにする。Appleの研究の詳細は、”Learning from Simulated and Unsupervised Images through Adversarial Training. ” という題名の論文に書かれている。

[原文へ]

(翻訳:Nob Takahashi / facebook

Facebookの人工知能研究所がオープンソースで公開したfastTextは深層学習の遅さを克服したテキスト分類ソフトウェア

facebook-search

Facebookでは毎日、何十億ものコンテンツがシェアされている。その膨大な量とペースに漏れなく遅れなく対応できるためにFacebookは、さまざまなツールを駆使してテキストを分類している。多層ニューラルネットワークのような従来的な方法は正確だが、ニューラルネットワークは訓練が大変である。

分類に正確さと容易さの両方をもたらすために、Facebookの研究部門Artificial Intelligence Research(FAIR)ラボはfastTextというものを開発した。そして今日(米国時間8/18)はそのfastTextがオープンソース化され、デベロッパーはどこででも、そのライブラリを使ったシステムを実装できることになった。

fastTextはテキストの分類と、語のベクタ表現の学習の両方をサポートしている。後者には、bag of wordssubword information(部分語情報)*などのテクニックが用いられる。skip-gramモデルに基づいて語は文字のn-gramのバッグとして表現され、それらは各文字のn-gramを表すベクタで表現される。〔*: 部分語情報、‘あかい’なら、あ、か、い、あか、かい、などが部分語。〕

“カテゴリー数のとても多いデータベース上で効率的であるために、fastTextは階層的な分類を用いる。そこではさまざまなカテゴリーがフラットなリストではなく二分木構造に編成される”、FacebookのArmand Joulin, Edouard Grave, Piotr Bojanowski, Tomas Mikolovらがドキュメンテーションでそう述べている。

bag of wordsのbag(バッグ)は、配列やリストや木(ツリー)などなどと並ぶコンピューター上の一般的なデータ構造の一種で、名前(“袋”)の名のとおり、データに順序性がなく、この場合は各語の出現頻度を各語が情報として持つ。“語(words)”は多次元空間として表現され、クェリとカテゴリー分けされた語の集合との関係を線形代数を使って計算する。コンピューターにテキストを投じたとき、それはゼロからのスタートになる。それに対して人間の大人はすでに文法知識を持ち、どこが語の始まりで終わりかを知っている。コンピューターの計算力は強力だが、そのままでは“I love TechCrunch”と“CrunchLove iTech”の違いを認識できない。そこでこのような方法では、ことばに対する定性的な分析を、統計的手法などにより、定量的な分析へと強制的に変換する。

そして数を操作する処理が主体なので、fastTextは従来の深層学習の方法(多層ニューラルネットワーク)よりも速い。下図は、Facebookが作った比較表だ。実行時間が「秒」の単位なのは、fastTextだけである:

fastTest

fastTextは英語だけでなくドイツ語やスペイン語、フランス語、チェコ語などに対しても使える。

今月の初めにFacebookは、クリックベイトをやっつけるアルゴリズムを同社のNewsfeedに実装した。そのアルゴリズムは言葉以外の要素(繰り返しパターンなど)も点検するから相当複雑だが、デベロッパーはfastTextを利用して同様のツールを自作できる。

Facebookによると、fastTextなら、“ふつうのマルチコアのCPUを使って、10億語を10分弱で学習できる。また、50万のセンテンスを30万あまりのカテゴリーに5分弱で分類できる”、という。これはすごい、かもしれない。

今日(米国時間8/18)からFacebookのfastTextは、GitHub上で入手できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Intel、ディープラーニングのNervana Sytemsを3.5億ドルで買収

screen-shot-2014-03-31-at-2-12-30-pm

米国時間8/9、Intelはディープラーニングのスタートアップ、Nervana Systems を買収すると発表した。これは同社内でのAIソリューションの役割を強化しようとする動きの一環だ。Recodeの報道によると、買収価格は3.5億ドル以上で、ここ数週間(控えめに言って)かなり活発だったIT業界M&Aのリストに名を連ねた。

「ディープラーニングのアルゴリズムを加速するNervanaの知的財産と専門知識は、IntelのAI分野での能力を拡大する」とIntelのEVP兼データセンターグループGM、Diane Bryantがブログ記事で語った。「Nervanaの持つソフトウェアの専門知識を活用することで、IntelのMath Kernel Libraryをさらに最適化し、業界標準フレームワークに統合していく」。

さらにBryantは、同スタートアップの専門知識は「IntelのAI戦略を強化し、ディープラーニングの性能や、Intel XeonおよびIntel Xeon PhiプロセッサーのTCO(総保有コスト)を改善するものである」と具体的に語った。

創立2年のスタートアップは、これまでにDFJ、Data Collective、Fuel Capital、Lux CapitalおよびAllen&Co. らの投資家から2500万ドル近くを調達している。以前同社は、AIソリューションに対するハードウェア中心のアプローチで注目を集め、以来ニューラルネットワークの学習に向けた技術開発に注力している。

カリフォルニア州サンディエゴを拠点とする48人のチームは、買収完了後IntelのData Centerグループに加わる。

NervanaのCEO・共同ファウンダー、Naveen Raoはブログ記事で、今後もディープラーニングのフレームワーク、プラットフォーム、およびハードウェア関連の開発を続けていくことを明言した。

Nervanaの技術と専門知識をIntelの戦略と組み合わせることによって、ディープラーニング/AIソリューションは次のステップへ進む。われわれは今後もサンディエゴ本社で活動を続け、会社の人材、ブランド及びスタートアップ精神を持ち続ける。

原文へ
 
(翻訳:Nob Takahashi / facebook

人工知能の暴走を抑える「人工天使」が必要だ

algorithmic_guardians_web

編集部注: Jarno M. Koponen氏はデザイナーであり人文科学社でもある。またメディア関連のスタートアップであるRandomの共同ファウンダーでもある。新しい「人間中心」のデジタルエクスペリエンスを模索している。

インターネット上のさまざまなことがアルゴリズムにより処理されるようになった。しかしどうやら「人間のため」という視点が欠落しつつあるようにも見える。実現したところで何のメリットもないような「ソリューション」が提示されることすらあるように思うのだ。

アルゴリズムにより表現される自己の危うさ

デジタルデバイスは、ポケットに入るものになり、そして身に付けるものとなって、さらには身体と一体化するようにまで進化してきている。わたしたちがオンラインで触れるものも、アルゴリズムにより決定されている面もある。近いうちには家庭や車の中に存在する現実のモノすらも変えることになりそうだ。

アルゴリズムが進化して「パーソナライズ」ということが言われるようになり、私たち自身がアルゴリズムに組み込まれることとなった。加えて、そもそも「パーソナライズ」という言葉も矛盾しているように思える。「パーソナライズ」がアルゴリズムにより行われるおかげで、私たちは「自分で」(パーソナルに)パーソナライズすることができないのだ。また、アルゴリズム的に認識されている私たちの姿を変更することも、自由に行うことはできない。これは今現在だけの問題というわけでなく、そもそも「パーソナライズ」ということが、そうした方向で実現されつつあるのだ。

「パーソナライズ」を行うアルゴリズムに、「パーソナライズ」される側から関わることはできない。「パーソナライズ」の仕組みは完全にオープンなものではなく、わかりやすいものでもない。何がどのように影響するのかがよくわからない。どのような現象を把握して、判断指標としてどの程度の重み付けをされるのかがまったく見えないのだ。自分自身の行動も、またアルゴリズムにより把握されている自分自身さえも、自分では理解できない「データの塊」として存在するようになる。

「パーソナライズ」のアルゴリズム自体が、個人の判断に影響し、ひいては行動も影響を及ぼす。「パーソナライズ」のためのアルゴリズムが存在するのは、他のだれかが、ある人物の思考ないし行動様式を理解するためだ。今、必要なものも、あるいは将来必要になるものも、アルゴリズムにより判断されて(誰か他のひとの立場から)提示されることとなる。

「パーソナライズ」のアルゴリズムは、完全に「ニュートラル」の立場にあるわけではない。もちろんだからといって、「誰かによる支配」を直ちに招くというものでもない。しかし「パーソナライズ」のアルゴリズムは(たいていの場合)誰か他の人のものの見方から生まれたものだ。アルゴリズムを生んだ人のものにくらべ、「パーソナライズ」して利用する人のものの見方が軽んじられることはあり得る。ここから自らの考えを反映しない「パーソナライズ」が生まれたり、別の人の考えを押し付けてくるような現象に戸惑ったりすることもあるわけだ。

「パーソナライズ」はごく一面的な判断に基づいて、あるいは特定の一面を必要以上に強調して為されることがある。アルゴリズムにより生み出される「アルゴリズム的自己」(algorithmic self)は細かく分断されているのだ。たとえばAmazonとOkCupidにおける自分は別の興味をもつ人物となっているだろう。これによりアルゴリズム側の行う、どのような人なのかの判断も異なるものとなる。このように、場合場合に応じて特定の一面だけをとりあげて解釈することで、「パーソナライズ」を行う世界においては、人間はかなり「一般化」され、かつ「単純化」される。把握できた人間像と不一致であり、また現在の人間像の解釈にやく立たずなデータは捨て去られる。「必要」だと判断して集めたデータがあまりに薄っぺらいものであったような場合は、アルゴリズム側で「似た人」と判断する人物のデータを流用して補正したりする。すなわち「アルゴリズム的自己」は、統一的な深みなど持たず、特定の条件に定まった反応をする、いわば成長前のフランケンシュタインのようなものとなっているのだ。

しかも、そうして生まれた「アルゴリズム的自己」が、自らのコントロールを離れてうろつき回るような状況となりつつある。デジタル環境において私たちの代理人となるような存在は消え去りつつあるのだ。すなわちデジタル界には「私たち」はいなくなり、それであるにも関わらずその「アルゴリズム的自己」に基づいてさまざまな「パーソナライズ」したサービスや情報が提供されることとなってしまっている。このような状況は変える必要があるのではなかろうか。

「アルゴリズム的自己」は、器官を寄せ集めただけの「デジタル・フランケンシュタイン」のようなもの

人工「天使」を待望する

いろいろと言ってはきたが、果たして「パーソナライズ」のアルゴリズムが明らかになれば問題は解決するのだろうか。あるいはアルゴリズムがわかったところで、さほど役に立たない話なのだろうか。

きっと有効性は低いのだと思う。私たちのために働いてくれる人工存在を生み出す方が良さそうだ。新しい概念であり決まった用語もないので「人工天使」(algorithmic angels)とでもしておこう。困ったときには助けてくれるし、いつも私たちを守ってくれ、トラブルに巻き込まれたりしないように配慮してくれる存在だ。

もちろん不器用そうなクリッパーのことではないし、微妙なことになると「わかりません」を連発するSiriでもない。IBMのWatsonでもなく、もちろん悪意を持っているHALでもあり得ない。私たちのことを学習して、ともかく私たちを守ろうとする存在を想定しているのだ。デジタル世界の「アルゴリズム的自己」のいたらない点を補正してくれる存在であることが期待される。具体的な働きをイメージしてみよう。

「人工天使」は理由なく自由を制限するような動きに対抗してくれる。「パーソナライズ」にあたっての行き過ぎた個人情報提供を見張り、場合によっては情報提供を無効化する。不必要に情報を集めまくるサービスに対抗する術を与えてくれる。

別の選択肢を示し、物事の他の見方を示してくれる。私たちは偏見をもったり、あるいは一面的な常識に囚われてしまうことがある。それがために、アルゴリズムの提示する「事実」をそのまま受け入れてしまいがちになる。そのようなときに「人工天使」が登場し、妄執を戒めてくれる。新しい世界を開き、独善的な振る舞いを改める機会を得ることができる。情報を取り入れる新しいやり方が示され、新鮮で新しい気づきをもたらしてくれるのだ。

無用な調査の対象から外してくれる。「人工天使」のおかげで、実名と匿名を適切に使い分けることができるようになる。利用するサービスに応じて、適切な設定を行ったプロファイル情報を利用してくれる。もちろん、これは「人工天使」に任せっきりにするのではなく、自分でさまざまな設定を使い分けることもできる。

自分に関するデータの扱いを、主体的に決定できるようになる。人工天使のおかげで、自分に関するデータの流れを主体的に制御できるようになるわけだ。自身の詳細な情報に誰がアクセスできるのかを決めたりすることができるようになる。必要なときには、従来のやり方ではばらばらにされて存在していた「アルゴリズム的自己」をまとめて活用することもできるようになる。もちろんデータの安全性は担保され、データの取り扱いはあくまでも所有者の主体的意志にひょり決せられることとなる。自分のどのような情報をネット上に流し、どういった情報を削除するかを自分の意志で決められるようになるわけだ。

人工天使はデバイスや環境間の違いも吸収してケアしてくれる。自身の情報は、望んだように提供/制限されるようになり、必要としないマーケティング行動のためのデータとはならない。そのために、たとえばウェアラブルなどから収集する情報についても適切に扱ってくれる。

こうした機能をもつ「天使」の存在のおかげで、リアル/バーチャルの違いなく、統合的かつ主体的に提供する自己情報に基づいて生活できるようになるというわけだ。

もちろんときにはこの「人工天使」機能をオフにしたくなることもあるだろう。天使なき世界がどのようなものであるのか、いつでも見てみることができる。

「人工天使」が無敵の人工知能である必要はない。別の表現を使うのなら、人間ほど賢い必要はない。デジタル社会の進化にともなって広がるネットワークワールドでのふるまいについてスマートであれば、それで事足りるのだ。多くの人が創造する「人工知能」とは、求められるものが異なることになるだろう。私たちは人間の立場で考え、評価し、選択する。「人工天使」は「機械」風に考え、そこで得られる知見をすべて人間のために使ってくれれば良いのだ。

「アルゴリズム的自己」の出現シーンが拡大し、そうした「自己」が活躍する分野の重要性は増してくることだろう。そのようなときには、今までよりもさらに自己情報の管理を丁寧に行うことが求められる。自律的存在であり続けるために、アルゴリズムで動作する守護天使が求められる時代となりつつあるのだ。そうした存在なしには、とてもさまざまな「アルゴリズム的自己」を活躍させることなどできなくなる。

「人工知能」の行き過ぎが危惧されることも増えてきた。「人工天使」を生み出すことにより、意外に簡単にバランスがとれる話なのかもしれない。

(訳注:本稿は昨年4月にTechCrunchサイトに掲載されました。訳出を見送っていましたが、最近の状況との絡みで面白そうだと判断して訳出いたしました)

原文へ

(翻訳:Maeda, H