AIがカメラ映像から密集度と群衆人数をリアルタイム解析、Elixが新型コロナ対策として開発

Elix(エリックス)は6月4日、群衆人数や人物同士の密集度合いの計測を可能とするAIソリューションを発表した。本日より、法人や自治体などを対象に試験提供を開始する。

同ソリューションは、新型コロナウイルス(COVID-19)感染防止対策の一環として開発されたもので、カメラが捉えた映像内の人物の数や位置情報を把握することで、群衆の検知、人物同士の密集度をリアルタイムで推定する。必要に応じてマスクの有無の検知など、導入企業に併せたカスタマイズも可能とのこと。同社は、ショッピングモールなどの商業施設やイベント会場、公共施設、オフィスビル、工場などでの利用を想定している。

同社代表の結城伸哉氏はニュースリリース内で「有効なワクチンが開発され、世界中の人々に行き渡るまでには 年単位での時間がかかると考えられます。この間、感染者数を抑える上でおそらく最も有効な手段はソーシャルディスタンシングです」と語る。「これ以上経済的損失を拡大させないためにも、ソーシャルディスタンシングを行いつつ経済活動を続けていくことが重要であり、少しでもその役に立てればという想いでこのプロダクトを開発いたしました」と続ける。

Elixは、AIやディープラーニングの技術を擁する2016年11月設立のスタートアップ。これまで、AIによる創薬や材料開発、コンピュータービジョン(画像認識)に注力した事業を展開。そのほか、自動運転やADAS(先進運転支援システム)向けのモデル開発、大企業の研究開発部門などの向けたコンサルティング、モデル開発・改良、モデルのライセンス提供なども行っている。

関連記事
Withコロナ時代の寵児となるか、オフィスの密度センサー開発のVergeSenseが9.7億円調達
群衆写真中の小さな顔の位置を特定する新技術をカーネギーメロン大学が開発

Googleの失敗から学ぶ、AIツールを医療現場へ適用することの難しさ

AIによる医療分野での魔術的な活躍がよく話題になる。機械学習モデルがまるで専門家のように問題を検出するスクリーニングという分野では、特にそれが言えるだろう。しかし、多くの技術と同じように、試験所でうまくいくことと、実社会で機能することは全く話が違う。Googleの研究者たちは、タイの田舎で行われた診療所でのテストを通じ、その厳しい事実を見せつけられた。

Google Healthは、目の画像を処理し、世界中で視力喪失の主な要因となっている糖尿病網膜症の兆候を見つける深層学習システムを開発した。しかし理論的な正しさとは裏腹に、同ツールは実際の現場テストで実用に向かないことが判明した。結果が安定せず、また現場の診療方法とうまく調和しないため、患者と看護師の両方が不満を訴えている。

ここではっきりさせておくべきことは、得られた結果は苦いものだったとはいえ、この種のテストを行うためには必要不可欠で、かつ道義性のある段階を踏んでいたという点である。また、Googleが体裁の悪い結果を公表したことは評価に値する。さらに、同社の文書を読む限り、担当チームが結果を肝に銘じていることは明らかである(ただし、ブログ記事では実際の経緯をやや楽観的に描いてはいる)。

研究報告では、タイにある数箇所の診療所で、糖尿病網膜症(DR)患者を選別する既存の手順を強化するためのツールの使用経緯が記録されている。既存の手順を手短に説明すると、看護師は糖尿病患者に1名ずつ対応し、目の画像(眼底写真)を撮影し、画像を検査して結果を報告する眼科医へまとめて送付する。患者数が多いため、通常は結果が得られるまで4~5週間かかる。

Googleシステムは、わずか数秒で眼科医レベルの専門作業を完了させる目的で開発された。社内テストでは、90%の精度でDRの度合いを判定している。これで、看護師は病院を紹介して推薦したり、さらなる検査を行う決定を1か月ではなく1分で行えることになる(自動判定は1週間以内に眼科医によってグランドトゥルース検証された)。見事な結果だ-理論的には。

目の画像(眼底写真)

理想的には、同システムはこのような結果を素早く返し、患者も確認できる

しかし、この理論は報告の著者たちが現場へ適用するやいなや、崩壊してしまった。報告には次の通り記載されている。

今回の研究では、11箇所の診療所において、目のスクリーニングプロセスをできるだけ多様に観察した。画像を取得してグレードを判定するプロセスはどの診療所でも同じである。しかし、看護師はスクリーニングのワークフロー構成において大きな自主性を持っており、また、診療所ごとに利用可能なリソースも異なっていた。

目のスクリーニングを行う環境や場所も、診療所に応じて大きく異った。高品質の眼底写真を撮影できるように、周囲を暗くして患者の瞳孔が十分に大きく映すための専用の選別室を設置した診療所は、わずか2箇所にとどまった。

環境条件とプロセスがばらばらであったため、サーバーへ送信された画像もアルゴリズムで要求される高いレベルを満たしていなかった。

この深層学習システムでは検査対象の画像が厳格な基準を満たす必要がある…画像にわずかなぼやけや暗い箇所があれば、明確に発症予測できる場合でも、システムは画像を拒否する。診療所の制約下で繰返し作業する看護師が撮影した画像の一貫性や品質は、システムが要求する高い画質を満足させなかった。このため不満が高まり、仕事量が増加した。

DRの症状を明らかに示しても画質の低い画像はシステムに拒否されるため、手順が混乱し、長引くこととなった。しかし、そもそもシステムへ画像をアップロードできなければ、こうした問題点を扱うことすらできない。

インターネット接続が良好であれば、結果は数秒で表示される。しかし、今回の研究に参加した診療所のインターネット接続は、遅くて不安定な場合が多々あった。このため、画像によってはアップロードに60~90秒かかり、スクリーニングの待ち時間が伸び、1日で処理できる患者数が減ることとなった。ある診療所では、目のスクリーニング中に2時間程度インターネット接続が途切れたため、選別した患者数は予定された200名からわずか100名へ下がった。

「最低限、危害は出ない」原則を思い出す必要があるだろう。新テクノロジーを活用する試みのおかげで、治療を受けられる患者数がかえって減ってしまった。看護師は様々な方法で埋め合わせようとしたが、画像の不安定さやその他の原因が重なり、患者に対して研究に参加しないよう勧める結果となった。

うまくいったケースでも、不慮の事態が発生している。患者は、画像送信後ただちに検査が行われて、次回の診察予約を行う準備ができていなかった。

今回の研究は、前向き研究(プロスペクティブスタディ)として設計されているため、紹介先の病院を訪れる予定をその場で立てなければならない。そのため、第4および第5診療所では、看護師は不要な面倒が増えないように、患者に対して前向き研究に参加しないよう勧告していた。

また、ある看護師はこう述べている。

「(患者)は検査の正確さではなく、その後何をしなければいけないのかを心配しているのだ。結果的に病院へ行かなければいけないのなら、診療所で検査するのは無駄なのではないかという疑問が浮かんでいる。私は患者に対し、「病院へ行く必要はない」と安心させる。彼らはまた、「もっと時間がかかるか?」「別の場所へ行かなければいけないのか?」とも聞く。出かけることができないため、研究にそもそも参加しない人もいる。40~50%の人は、病院へ行かなければいけないと考えて、研究に参加しない。」

もちろん、悪いニュースばかりではない。問題は、混みあったタイの診療所ではAIが何の役にも立たないことではない。課題と場所にソリューションをぴったり合わせなければいけないことだ。わかりやすい瞬間的な自動検査は、うまくいっている間は患者と看護師の両方から歓迎された。時には、目のスクリーニングという行為自体が緊急に対策が必要な深刻なケースを自覚させることに役立っている。当然のごとく、著しく制限されたリソース(現場の眼科医)への依存を減らすという主なメリットは、医療現場の状況を変革させる可能性がある。

しかし、今回のレポートを読む限り、GoogleのチームはこのAIシステムを時期尚早かつ部分的にのみ適用してしまった結果を真摯に受け止めているように見える。彼らはこう述べている。

新たな技術を導入したとき、企画担当者、政策立案者、技術設計者は、複雑な医療プログラムで起こる問題は流動的かつ緊急的であることを考慮していなかった。私たちは、人々のモチベーション、価値観、職業上の信念、そして仕事を形成する現行の規則と繰返し作業など、それぞれの都合を考慮することが、技術の導入を企画する際に不可欠であると考える。

この研究レポートは、AIツールが医療環境でどう効果を発揮するかを解説しており、また技術面の問題や技術を活用する人々が直面する問題の両方を理解できるため、十分に読む価値のある入門書だ。

関連記事:AIとビッグデータが新型コロナとの戦いで奇跡を起こすことはない

Category:ヘルステック 人工知能・AI

Tags:Google Google Heath 機械学習

[原文へ]

(翻訳:Dragonfly)

現実さながらのフェイク映像を簡単に作れる「Xpression」が2.3億円調達、次世代CG技術の開発加速へ

動画や静止画に映っている誰かの顔を乗っ取り、あたかも本人が実際にしゃべっているような映像をスマホから簡単に作れる——。そんなちょっと不思議だけど、ワクワクする体験を手軽に楽しめる「Xpression」というiOSアプリを知っているだろうか。

ユーザーがやることは素材となる動画や静止画を選び、スマホのカメラに向かって喋りかけるだけ。そうすれば自身の顔と素材に映る人の顔を入れ替え、現実さながらの映像をリアルタイムで生成することが可能だ。

たとえば有名人のスピーチ動画を使って本人からビデオレターが届いたような“サプライズ映像”を作ることもできるし、前もって撮影しておいた友人の動画を使って“その友人が絶対に言わなそうなこと”を言っている映像を作ったりもできる。

このプロダクトを手がけるEmbodyMeは、ディープラーニングを用いた映像生成技術などを開発する日本のスタートアップだ。同社は9月12日、複数の投資家を引受先とする第三者割当増資とNEDOの助成金により総額で約2.3億円を調達したことを明らかにした。

EmbodyMeでは調達した資金を活用してコア技術の研究開発を進める計画。「AIで目に見えるあらゆるものを自由自在に作り出す」というビジョンの下、ゆくゆくは次世代コンピューターグラフィックスの中心を担うような存在を目指していきたいという。

同社では過去にもインキュベイトファンドから9000万円、日本政策金融公庫の資本性ローンによる融資で4000万円を調達していて累計調達額は約3.6億円となった。なお本ラウンドの投資家は以下の通りだ。

  • DEEPCORE
  • インキュベイトファンド
  • Deep30
  • Techstars(米国の有名アクセラレータの1つ)
  • SMBCベンチャーキャピタル
  • 漆原茂氏

現実と区別がつかないリアルな映像をスマホから簡単に生成

Xpressionは冒頭でも触れた通りスマホから簡単にフェイク映像を作れるアプリだ。

EmbodyMe代表取締役の吉田一星氏によると、数年前に話題になった「Face2Face」など近しいコンセプトの研究はあるものの、プロダクトとして実用化しているものはまだない状況。既存の研究とは映像を生成するのに必要な素材や処理時間、動作環境などにおいても大きな違いがあるという。

「類似研究は17時間分の同じ人のビデオを用意した上で、約2週間の前処理時間が必要。なおかつリアルタイムでは動かないといった点が課題になっている。自分たちの技術は静止画や短いビデオでも問題なく、前処理は全く必要ない。さらにモバイルでもリアルタイムに動かせるのが特徴だ」(吉田氏)

実際のところXpressionはどのような技術で成り立っているのか。具体的には以下の3つのディープラーニングモデルを同時に動かすことで、リアルタイムで現実に近いコンテンツを生成している。

  • カメラ越しにユーザーの顔の形状と表情を3Dで推定するモデル
  • 素材となる動画や静止画から、3Dで顔の形状と表情を推定するモデル
  • 口の中など映像として存在しない箇所を画像生成し補完するモデル

表情を推定する技術(3D Dense Face Tracking )においては、従来使われてきた技術が70点以下の2Dのポイントを推定するのに留まっていたところ、Xpressionでは5万点以上の3Dのポイントを推定できる仕組みを構築。より詳細な表情認識を実現する。

同様の技術自体はAppleも保有しているが、3Dセンサーを使っているためハイエンドなiOSマシンが必要。Xpressionの場合は一般的なカメラがあればどのマシンでも動かせるのがウリだ。

また「存在しない箇所を画像生成する」モデルについては近年言及されることも増えてきたGAN(Generative Adversarial Network : 敵対的生成ネットワーク)を活用。吉田氏によると「静止画だけでなく動画を生成でき、モバイルでもリアルタイムに動かせるのは他にはない特徴」だという。

これらに加えて、機械学習の学習データを集める仕組みとして50台のカメラと偏光LEDライトを保有し高精度な3Dフェイシャルモデルをキャプチャできる設備も整えた。

米国の有名アクセラに採択、「ミーム」文化に合わせた新アプリも

EmbodyMe代表の吉田氏は前職のヤフー時代から、スマホのインカメラを使ってキャラクターや他の人物になりきれる「怪人百面相」や自分の分身となるアバターを生成し動かせる「なりきろいど」を開発してきたエンジニアだ。

2013年ローンチの怪人百面相は「Snapchat」や「SNOW」に搭載されているフェイスエフェクト機能のようなもの、2015年ローンチのなりきろいどはVTuberになれるアプリに近い。これらの技術をいち早くプロダクト化してきた吉田氏を中心に、EmbodyMeには先端技術の開発に携わった経験を持つエンジニアが集まっている。

EmbodyMe代表取締役の吉田一星氏

2018年にローンチしたXpressionは、同社が現在取り組む基盤技術を実用化したプロダクトの1つという位置付け。同サービスに関する論文はSIGGRAPH Asia Emerging Technologiesに採択されるなど、技術的な観点でも注目を浴びている。

現時点のアプリダウンロード数は非公開だが、海外比率が約7割と海外ユーザーの利用も多い。今年に入って米国の著名アクセラレータープログラム「Techstars」にも採択され、現地のプログラムに参加。ポジティブな反響も多かったようで、年内を目安にコミュニティ要素などを加えて大幅にバージョンアップしたアプリ(サービス名は同じ予定)を公開することも計画している。

「米国には大きな『ミーム』文化があり、大雑把に説明すると日本における『ボケて』のようなアクションが大規模に行われていて、いろいろな人が同じネタをパロディ化してYouTubeなどに投稿することが広がっている。(Xpressionは)その文化にすごく合致するので、ユーザーが面白い動画を投稿したり、楽しめるようなコミュニティを作っていきたい」(吉田氏)

近年、特に海外ではディープフェイク技術がフェイクニュースなどに使われる可能性も懸念されている。Xpressionもその性質上、悪用される恐れもあるが、電子透かし技術(対象となる映像が自分たちの技術で作られたのか判別できる技術)などを取り入れながら対策をする方針。著作権についても企業と組みクリアにした形で、より多くの素材を使える仕組みを作っていきたいという。

狙うは次世代コンピュータグラフィクスの中心を担う存在

EmbodyMeのメンバー

現在EmbodyMeは基盤技術の研究開発に軸足を置いている段階で、今回の資金調達もそれを加速させることが大きな目的。「アプリは技術のショーケース的な意味合いもある」と吉田氏が話すように、会社としては今後同サービスに限らず、自社技術を用いた別領域のプロダクト開発も検討していく。データを集めながら基盤技術を育てていくことが狙いだ。

たとえばXpressionの技術を使えば「事前に自身のスーツ姿や仕事スタイルの映像を撮影しておくことで、パジャマやすっぴんの状態でも“ちゃんとした格好に見える”ビデオ会議ツール」なども実現可能。動画広告用のクリエイティブ作成やVTuber用のアプリなどエンタメ領域、AIスピーカーと絡めた映像生成ツールなども同様に基盤技術の活用方法として考えられるそうで、すでにプロトタイプの開発が進んでいるものもあるという。

また日本政府がXpressionの技術を使ってG20サミットのプロモーション映像を制作した事例など、他社と共同でプロジェクトに取り組むケースも生まれている。同アプリとほぼ同じものをスマホSDKとして提供する、コア技術の一部を提供するなど座組みは都度異なるが、引き続き他社とタッグを組むことによる技術のアップデートも視野に入れていく。

吉田氏いわく現在は「研究としても初期段階で、自分たちの将来的な構想を踏まえても10%ぐらいまでしか到達していない状況」なのだそう。まずは声や文字だけから表情を動かせる技術、その次は頭部や体全体を動かせる技術などへ少しずつ技術を拡張していくことを目指すが、最終的に見据えているのは「コンピュータグラフィックス(CG)領域での挑戦」だ。

「CGは90年代にアニメーションやゲーム領域で商業的にも大きく成功したが、2020年代にかけてディープラーニングの発展などにより従来とは全く違う形で映像や画像を生成できる技術が生まれ、今までのCGを置き換えていくと考えている。あらゆる人がものすごく簡単にどんな映像でも作れる時代がきた時に、いち早くプロダクトを出して中心的なポジションにいたい」(吉田氏)

初のトランジスタ数1兆のチップを製造するためにCerebrasが克服した5つの技術的課題

Cerebras(セレブラス)に最高があふれている、これまで密かに次世代のシリコンチップ製造を進めて来たこの会社は、Amazonから歯磨き粉を買うことと同じくらい素早く、ディープラーニングモデルを生み出せるようにすることを目指している。

ほぼ3年にわたる沈黙の開発の後、米国時間8月19日、Cerebrasは新しいチップを発表した。それはとてつもない製品だ。その「ウエハースケールエンジン」(Wafer Scale Engine)は、1.2兆個のトランジスタ(史上最大)を持ち、面積は4万6225平方ミリメートル(史上最大)で、18ギガバイトのオンチップメモリ(今日の市場のチップの中で最大)と、40万個プロセッシングコア(おそらく最大だろう)で構成されている。

CS Wafer Keyboard Comparison

Cerebrasのウエハースケールエンジンは典型的なMacのキーボードよりも大きい。(提供:Cerebras Systems)

それはスタンフォード大学で開催中のホットチップス会議で大きな驚きを巻き起こした。この会議は製品とそのロードマップを紹介するためのシリコン業界の大きな催しだが、出席者の間からは様々などよめきの声が挙げられた。FortuneTiernan Rayでこのチップの詳細詳細を読んだり、Cerebras自身によるホワイトペーパーを読んだりすることができる。

これが最高であることはともあれ、Cerebrasがこのマイルストーンにたどり着くために乗り越えなければならなかったいくつもの技術的挑戦は、より興味深いストーリーだと私は思う。今日の午後、私は創業者兼CEOのアンドリュー・フェルドマン(Andrew Feldman)にインタビューを行い、その173人のエンジニアたちが、この数年間Benchmarkやその他のVCから得た1億1200万ドル資金で、何を密かに作ってきたのかについて話を聞いた。

大きくなるということは、挑戦以外の何物でもない

まず、世の中で使われている携帯電話やコンピューターを駆動するチップが、どのように作られるかについて、簡単に背景を説明しよう。TSMCのようなファブメーカーは、標準サイズのシリコンウエハーに、光を利用してトランジスタをエッチングして、それを個別のチップへと分割している。ウエハーは円形で、チップは正方形である。そのためその円形をきれいな個別のチップの並びへと分割するためには、ある程度の幾何学が必要となる。

このリソグラフィプロセスにおける大きな課題の1つは、製造プロセスにエラーが忍び込んでしまうことである。このため品質を検証するためには厳しいテストが必要となり、製造業者は品質の悪いチップを廃棄することを余儀なくされている。チップが小さくコンパクトになるほど、個々のチップが動作不能になる可能性は低くなり、製造業者の歩留まりは向上する。歩留まりが高くなるほど、利益も大きくなるのだ。

Cerebrasは、多数の個別のチップを1つのウエハー上にエッチングするというアイデアを捨て去り、その代わりにウエハー全体を1つの巨大なチップとして使用することにした。これにより、個々のコア同士をすべて、直接接続することができるようになるため、ディープラーニングアルゴリズムの中で使われる重要なフィードバックループの速度が大幅に向上する。だが引き換えに、そうしたチップを製造し管理するために、製造と設計に対して厳しい挑戦が突きつけられることになる。

CS Wafer Sean

Cerebrasの技術アーキテクチャと設計は、共同創業者のショーン・リー(Sean Lie)氏によって主導された。フェルドマン氏とリー氏は以前、SeaMicroという名のスタートアップで一緒に働いていた(SeaMicroは2012年にAMDに3億3400万ドルで売却された)。(提供:Cerebras Systems)

フェルドマン氏によれば、チームが最初に遭遇した挑戦は、「スクライブライン」(ウエハー上で個々のチップとチップの間にあるギャップ)を横切る通信の処理だった。Cerebrasチップはウエハー全体に広がっているのに、既存のリソグラフィ装置は、シリコンウエハー上に個々のチップがエッチングされつつあるかのように動作する必要があるからだ。そのため同社は、そうした個々のチップがウエハー全体で相互に通信できるようにするための、新しい技法を考案する必要があった。同社はTSMCと協力して、通信用の新しいチャネルを発明しただけでなく、1兆個以上のトランジスタを搭載したチップを扱うための、新しいソフトウェアを作成する必要があった。

2番目の課題は歩留まりだった。シリコンウエハー全体を覆うチップの場合、そのウエハーのエッチングに1つでも欠陥があると、チップ全体が機能しなくなる可能性がある。これはウエハー技術全体に対して何十年も障害として立ち塞がっていた問題なのだ。物理学の法則によって、1兆個を超えるトランジスターを完璧に正確に繰り返しエッチングすることは、本質的に不可能なのである。

Cerebrasは、チップ全体に余分なコアを追加することで生まれる冗長性を使ってこの問題にアプローチした。ウエハー上の隣接するコアにエラーが発生した場合には、この冗長なコアがバックアップとして用いられるのだ。「たった1%、あるいは1.5%の不良コアを取り除くだけで良いのです」とフェルドマンは私に説明した。余分なコアを残すことで、チップは本質的に自己修復を行い、リソグラフィエラーを回避し、ウエハーシリコンチップ全体を実行可能にする。

チップ設計の未知の領域に入る

これらの最初の2つの挑戦(スクライブラインを介したチップ間通信と歩留まりの向上)は、ウエハーチップを研究してきたチップ設計者たちを何十年も困らせてきた。だが、それらはいわば既知の問題であり、フェルドマン氏は、最新のツールを使用してそれらに再アプローチすることによって、予想された問題をより容易に解決することができたと語った。

彼はこの挑戦をエベレスト登山にたとえている「これは最初の登山隊がエベレスト登頂に失敗して『ええい、こんちくしょう、この最初の部分は本当に厄介だ』と言うようなものです。そして次の登山隊がやってきて、こう言うのです『そんなの大した問題じゃないね。最後の100ヤードこそが問題なんだ』と」。

そして実際のところ、フェルドマン氏によれば、Celebrasにとって最も困難な挑戦はそれに続く3つのものだった。なぜならば過去のチップ設計者たちは誰も最初の2つの挑戦(スクライブライン通信と歩留まり)を乗り越えられなかったので、その後に何が待ち構えているかを知ることができなかったのだ。

Cerebrasが直面した3番目の課題は、熱膨張の処理だった。チップは動作中に非常に高温になるが、異なる材料は異なる比率で膨張する。つまり、チップをマザーボードにつなぐコネクタも、両者の間にクラックが発生しないように、正確に同じ比率で熱膨張する必要があるのだ。

フェルドマン氏は言う「どうすればそれに耐えられるコネクターを手に入れることができるのでしょう?それまでにそれをやった人が誰もいなかったので、私たちは材料を発明しなければなりませんでした。そのため私たちは、材料科学の博士を雇い入れて、その違いを吸収できる材料を発明しなければなりませんでした」。

チップが製造されたら、最終顧客(データセンターあるいは消費者向けラップトップ)が使用する製品にチップを組み込むOEM(Original Equipment Manufacturer)業者に出荷するために、チップのテストとパッケージングを行う必要がある。しかしそこにも挑戦課題がある。市場にはウエハー丸ごとのチップを扱えるようにデザインされている機器が皆無なのだ。

CS Wafer Inspection

Cerebrasは、チップを処理する独自のテストおよびパッケージングシステムを設計した(提供:Cerebras Systems)。

「一体どのようにパッケージングすれば良いのでしょうか?まあ、その答えは、ガラクタを山ほど発明することになるということです。それが真実なのです。このサイズのプリント基板を持っているところはありませんでした。コネクターもありませんでした。コールドプレートもありませんでした。ツールもありません。それらの位置を調整するツールもありません。それらを扱うツールもありません。そしてテストするソフトウェアもありませんでした」とフェルドマン氏は説明する。「誰もやったことがなかったので、この製造フロー全体を設計したのです」。Cerebrasの技術は、販売するチップだけではなく、実際にそれらのチップを製造およびパッケージングするために必要な、すべての関連機械も含んでいるのだ。

そして最後に、1つのチップが提供するこの処理能力は、膨大な電力と冷却を必要とする。Cerebrasのチップは、動作させるために15キロワットの電力を使用する。これは、現代的なサイズのAIクラスターにある程度匹敵するものだが、1つのチップとしては驚異的な量である。そうした電力は、冷却も必要とする。そしてCerebrasはこのような大きなチップに、電力と冷却の両者を提供する、新しい方法を設計する必要があった。

ここではフェルドマン氏が「Z軸の使用」と呼んでいる、チップを縦に置くことでその問題の解決が図られた。そのアイデアは、従来のようにチップ全体に水平に電力と冷却を届けるのではなく、縦に置いたチップ全体に対して電力と冷却が均一で一貫したレベルで届くようにしようというものだ。

ということで、これら、熱膨張、パッケージング、電力/冷却が、次に現れた3つの挑戦だったのである。同社は過去数年間にわたってこの問題に昼夜を問わず取り組んできたのだ。

理論から現実へ

Cerebrasはデモチップを用意している(私はその実物を見たが、それは私の頭のサイズとほぼ同じ大きさだった)、レポートによれば、同社はそのプロトタイプを顧客に提供し始めている。だが、すべての新しいチップの場合と同様に、本当に大きな挑戦は、顧客の需要を満たすために生産を拡大することだ。

Cerebrasにとって、状況は普通のものとは少々違っている。1つのウエハーに非常に多くの計算能力を搭載しているため、顧客は必ずしも数十または数百のチップを購入してそれらをつなぎ合わせて、計算クラスターを作成する必要がない。その代わりに、彼らはそのディープラーニングに対するニーズのために、ほんの一握りのCerebrasチップを必要とするだけだろう。同社にとって、次の主要なフェーズは、規模を拡大しチップを安定して供給できるようにすることだ。これは、独自の冷却技術も含むシステム全体を「アプライアンス」としてパッケージングすることである。

特にディープラーニング処理ワークフローの将来に対する競争が激化する中、Cerebrasテクノロジーのさらなる詳細を、今後数ヶ月以内に聞くことができることを期待しよう。

画像クレジット: Cerebras Systems / Cerebras Systems

[原文へ]
(翻訳:sako)

東大・松尾研発AIスタートアップACESが資金調達、画像認識アルゴリズムをパッケージ化して提供へ

AI研究で著名な東京大学松尾研究室発のAIスタートアップACES(エーシーズ)は5月22日、AI技術に特化したVCファンドのDeep30と経営共創基盤を引受先とする第三者割当増資を実施したことを明らかにした。

具体的な調達額は非公開だが数千万円規模になるとのこと。調達した資金は本日公開した画像認識サービス「SHARON(シャロン)」の研究開発や人材採用の強化に用いる計画だ。

合わせてACESでは東京大学工学系研究科教授の松尾豊氏と経営共創基盤パートナーの川上登福氏が顧問に就任したことも明かしている。

ディープラーニングを用いた画像認識技術を社会実装へ

ACESは2017年11月の設立。同社のCEOで現在も松尾研究室(以下 松尾研)の博士課程に在籍中の田村浩一郎氏を含む6人のメンバーが立ち上げた。6人中3人が松尾研に所属、5人はエンジニアとしてのバックグラウンドを持つなど、AI領域への知見と技術力が強みだ。

田村氏自身、起業前から松尾研を通じて複数の企業との共同研究プロジェクトに参画。当初は研究者への道も考えたそうだが、ディープラーニングの可能性や社会へのインパクトなども踏まえ、自分たちでこの領域に特化した会社を作ることを決めたという。

ACESのメンバー。左から3番目がCEOの田村浩一郎氏

創業からこれまでの期間はディープラーニングを用いた画像認識技術を社会実装するべく、企業と共同研究を実施。同社のコアとなるヒトの行動や感情を認識、検出するヒューマンセンシングのアルゴリズムを中心にプロジェクトを進めてきた。

たとえば共同研究パートナーの1社である電通とは、姿勢推定・行動認識技術を用いてスポーツ選手の動作分析を行うプロジェクトに取り組んでいる。このプロジェクトでは野球中継動画から選手の体の位置や行動を抽出し、細かく定量化。取得されたデータを分析することで個々の特徴や傾向を割り出す。

具体的には「ある投手の各球種ごとの姿勢(フォーム)や体の使い方の違いなどからクセを見つける」といった用途をイメージしてもらうとわかりやすいかもしれない。

「以前から球界では言及されていたこと。ただこれまでは知見や経験を基にしていて、身体情報を定量化することによる科学的なアプローチは十分にできていなかった。大量のデータ・画像を処理できるディープラーニングの力を使えば、このようなアプローチも可能になる」(田村氏)

この事例のように、ACESではこれまでディープラーニングと繋がっていなかった領域を始め、様々な分野で共同研究やアルゴリズムの研究開発に取り組んできた。大手企業では電通のほかエムスリーやテレビ東京、SOMPOホールディングスなどが同社のクライアントだ。

主な流れとしてはビジネス課題を踏まえたAI導入の要件定義フェーズから顧客に伴走。データの収集や初期実験、モデルの開発・検証、システムへの導入に至るまで一連のフローをサポートする。

磨いてきたアルゴリズムをパッケージ化して外部提供

これまでACESでは1年以上に渡って企業との共同研究開発を軸に事業を運営してきた。その中で田村氏が意識していたと話すのがアルゴリズムのパッケージ化だ。

「AIのプロジェクトは1件1件が典型的な受託開発になりがちで、過去にやった研究開発を次の案件で活かしづらい側面がある。それを避けるため、自社では当初から顧客との共同研究を担当するエンジニアと基盤のアルゴリズムを開発するエンジニアを分け、強みとなる複数のアルゴリズムがパッケージとして社内に蓄積されていく仕組みを作った」(田村氏)

秘匿性の高い顧客データの管理には配慮した上で、コアとなる各アルゴリズムについては社内の各プロジェクトで共通して使える体制を整備。それによって毎回ゼロから時間をかけて学習モデルを生成する必要がなくなった。

田村氏いわく「社内的には受託の最適化」を続けることで、各顧客に対してより本質的なサポートを提供できたという。

そしてこのアルゴリズムパッケージを外部の企業が使いやすいようにプロダクト化したものが、まさに本日ACESが新たに公開した画像認識サービス「SHARON」だ。

同サービスでは物体認識、顔・表情認識、姿勢推定・行動認識といった画像認識アルゴリズムをパッケージとしてAPIなどで提供する。

ACESが開発したアルゴリズムを用いて手軽に、かつ安価に実ビジネスへのAI導入を実現できるのが特徴。各アルゴリズムは定期的にアップデートされるので常に先端のモデルを活用できるほか、社内でデータを蓄積して個別に学習することで、使えば使うほど精度の向上も見込める。

ユースケースとしては工場での作業など身体動作を伴う業務のパフォーマンス分析や、マーケティング用途における人の心の動きを可視化する技術の活用を始め、健康状態の管理や防犯、3Dの生成、異常検知など多様な応用例が考えられるという。

「SHARONは人の行動や表情など、これまではぼやっとしていたものをデータ化し、よりクリアに見通せるようにする仕組み。そのための画像認識アルゴリズムを(個々で共同研究をするのに比べて)よりリーズナブルで楽に導入できる形にすることで、いろいろな企業に活用してもらいたい」(ACES取締役COOの與島仙太郎氏)

SHARONでは個々の企業に対して導入時のヒアリングや要件定義などを含めたシステム構築サポートを行っていく計画。今の所は「月額数万円から誰でも使えるSaaS型のプロダクト」という訳ではないが、それでも個別で共同研究をする場合に比べると、コスト面では1/5〜1/10くらいになるそうだ。

ゆくゆくは特定の領域に特化した自社プロダクトの展開も

冒頭でも触れた通り、今回の資金調達はSHARONの研究開発や組織体制の強化を主な目的としたもの。顧問に就任した松尾氏と川上氏のサポートも受けながら、さらなる事業成長を目指すという。

田村氏によると自身の中では会社のフェーズを大きく3つに分けてイメージしているそう。松尾研のネットワークや知見も活かしながら、他社と共同でAIプロジェクトを進めてきたこれまでは第1フェーズに当たる。

第2フェーズは開発してきたアルゴリズムの中で共通化できるものをパッケージとして外に出していくと共に、会社としても共同研究事業に次ぐ新たな柱を作っていくタイミング。現在のACESはまさにこの段階に差し掛かっている状況だと言えるだろう。

そして同社が中長期的に見据える第3フェーズでは、業界特化など特定の用途に合わせたバーティカルな自社プロダクトを展開していく計画だ。

具体的な領域に関しては今後検討を進めていくが「ディープラーニングを用いることで課題が解決されるような産業・領域に対して、独自のアルゴリズムを活かした製品を自社で作っていきたい」(田村氏)という。

イスラエルのAIチップメーカーが最新ディープラーニングチップを発表

Hailoは、テルアビブに本拠を置くAIチップメーカーだ。米国時間の5月14日、同社初のディープラーニングプロセッサとなるHailo-8チップのサンプル出荷を開始すると発表した。このチップは、1秒あたり最大26テラオペレーション(TOPS)が保証されている。現在、何社かの選抜された顧客とともにテスト中で、その多くは自動車業界だ。

Hailoは、昨年になって表舞台に登場した会社で、シリーズAラウンドで1250万ドル(約13億7000万円)を調達した。その時点では、まだチップのサンプル出荷もできていなかった。同社によれば、Hailo-8は他のあらゆるエッジプロセッサの性能を凌駕し、しかもより小さなチップサイズ、より少ないメモリサイズで、その性能を達成できるという。「ニューラルネットワークの中核的な性質に特化したアーキテクチャを設計することにより、エッジデバイスはディープラーニングのアプリケーションをフルスケールで、しかも従来のソリューションよりも効率的かつ効果的に、さらに持続可能な状態で実行できるようになりました」と、同社は説明している。

Hailoでは、自社のチップが、Nvidiaの競合するJavier Xavier AGXよりも、いくつかのベンチマークで優れていると主張している。しかも、消費電力も少ないので、比較的低温で動作するという。これは、小さなIoTデバイスでは特に重要な特長と言えるだろう。

もちろん、さらに多くのエンジニアがこうしたチップを手にしたとき、それらが実際にうまく動作するのか、ということも確かめる必要があるだろう。しかし、エッジ領域でのAIチップに対する需要が増え続けることは疑いようがない。なにしろ市場は数年前に、演算処理をクラウド内に集約化することをやめ、エッジに分散することにシフトしたのだから。それは、応答時間を短縮し、バンド幅のコストを削減し、ネットワーク性能に依存しない安定したプラットフォームを提供するためだ。

後にIntelに買収されたMobileyeという先例と同じように、Hailoも自動車業界のOEMや1次サプライヤと協業してチップを市場に供給することになる。しかしHailoでは、スマートホーム製品などの垂直市場も視野に入れている。実際には、物体の検出や識別のために高性能のAIチップを必要としている、あらゆる業界が対象となりうる。

「近年、ディープラーニングが応用可能な分野が増加し続けるのを目の当たりにしてきました。それはサーバークラスのGPUによって可能となったことです」と、HailoのCEO、Orr Danon氏は述べている。「しかし、産業はAIによってますます大きな力を獲得し、むしろかき回されているような状況もあります。そのため、類似したアーキテクチャで過去のプロセッサを置き換え、エッジ領域のデバイスでディープラーニングを可能にすることが、切実に必要となっているのです。Hailoのチップは、最初から、まさにそのために設計されたものなのです」。

関連記事:ディープラーニング専用チップのHailoが$12.5Mを調達、従来型CPUの数倍の性能を達成

原文へ

(翻訳:Fumihiko Shibata)

自分やアイドルの顔と声から抽出した人工遺伝子で「自分だけのアイドル」を作るゲームがあるらしい

ディープラーニングで「アイドル自動生成AI」を開発するデータグリッドは3月19日、東京大学松尾研究室のスピンアウトVCであるDeep30から1500万円の資金調達を実施したと発表した。

このスタートアップが持つ技術はいろいろな意味で非常に面白い。その技術とは、GAN(敵対的生成ネットワーク)と呼ばれるモデルを利用してアイドルの顔画像を学習し、それらの特徴を組み合わせることで「架空のアイドル」の顔画像を生成するというもの。

ここで登場するGANとは、画像などのデータから特徴を学習することで、実在しないデータを生成したり、存在するデータの特徴に沿って変換する技術のこと。例えば、シマウマの画像と走るサラブレッドの画像を学習させることで、実際には存在しない「走るシマウマの画像」を生成することができる。

データグリッドは、この技術を利用してオルツおよびICOVO AGというスタートアップの3社合同で「GENE A.I.dols(ジーンアイドル)」というゲームを開発中だ。このゲームでは、データグリッドがもつ技術により、画像を学習させて「人工遺伝子」を作成し、それを組み合わせていくことによって「自分だけのアイドル」を作ることができる。

また、オルツが持つ話者適応技術(少量の音声データから、その人の音声を真似する技術)を利用することで、アイドルの声も生成する。そうすることで、世界で1つの容姿と声を持つアイドルが生まれるというわけだ。アイドルファンにはたまらないゲームだろう。

それと、この人工遺伝子はこのゲームで生成したアイドルからだけでなく、実在する人物からも抽出することができる。だから、例えば自分の画像や声から抽出した人工遺伝子と、ゲームから生まれたアイドルの人工遺伝子を組み合わせれば、自分とそのアイドルの「子ども」も作り出せてしまう。うーん、じつに奥が深い。

同社は将来的に、ジーンアイドルのVRへの対応、および人工遺伝子に書き込まれたアイドル個々の音声モデルと対話エンジンの開発も行う計画だという。それが実現すれば、VRを使って自分が生んだ架空のアイドルと“会って会話する”ことも夢ではない。

ジーンアイドルは2019年春にリリース予定。気になる読者はこのページからサインアップすることができるので、チェックしてみてほしい。

LINEに食材の画像を送るだけでレシピ提案、ライオンが「レシピアシスタント β版」を公開

ライオンの調理サポートブランドのリードは2月7日、同社いわく「レシピチャットボットサービスで初めて」食材の画像によるレシピ検索を可能とした「レシピアシスタント β版」を公開した。共同開発会社はfoo.log(フードットログ)およびFRAMELUNCH

同サービスは、僕にとっては考えるだけでも面倒な「毎日の献立作り」をAIレシピアシスタントが手伝ってくれるサービスだ。使いたい食材の画像、もしくは食材名をテキストや音声で送るだけで、リード製品を使った関連レシピや調理方法が検索できる。

使い方は、まずはLINEで友だち登録。食材の写真やテキストなどを送信するとレシピ検索が開始される。

複数の食材でも検索できるので、試してみたところ、テキストで豚肉と送信すると「豚の生姜焼き風」など111件がヒットし、続けてトマトの画像を送ると「トマト酢豚」など豚肉とトマトを両方使ったレシピ17件がヒットした。

レシピアシスタント β版で画像認識が可能な食材は100種類以上。2月7日現在で630件以上のレシピを公開しているが、今後も拡充していく予定だ。

画像解析には食材認識モデルの構築のためにディープラーニングを活用。投稿されたデータや、環境情報をもとにチャットボットの応答を最適化するためのモデル生成も随時行う予定だという。

推論過程をGPUで加速するAmazon Elastic Inferenceはディープラーニングのコストを75%削減する

Amazon Web Servicesが今日、Amazon EC2のどんなインスタンスでもGPUによる推論の加速ができるサービスAmazon Elastic Inferenceを発表した。これにより、ディープラーニングのコストが最大75%削減できるという。

AWSのCEO Andy Jassyは、今朝のAWS re:Inventのステージでこう述べた: “従来のP3インスタンス(GPU常備のインスタンス)では通常、GPUの利用率がせいぜい10%から30%ぐらいで、エラスティックな推論用としては無駄が多い。それだけの費用やGPUを、無駄に使うべきではない。Amazon Elastic Inferenceでは、もっと費用効率の良い方法で推論エンジンを動かせるから、きわめて画期的なサービスだ”。

Amazon Elastic Inferenceは、モデルの作成/学習ツールAmazon SageMakerのノートブックインスタンスとエンドポイント用にも利用でき、“内蔵アルゴリズムとディープラーニングの環境を加速できる”、と同社はブログ記事で言っている。機械学習のフレームワークは、TensorFlow, Apache MXNet, そしてONNXをサポートしている。

[顧客の皆様には、仕事の性質に合った正しいツールを使っていただきたい。このたび発表するAmazon Elastic Inferenceを使うと、エラスティックな(伸縮性のある)GPUサポートを加えて、どんなEC2インスタンスの上でもスケーラブルな推論ができ、大幅な経費節約が可能だ。]

三つのサイズが提供されている:
(混合精度, mixed-precision, FP16とFP32の併用使い分け)

  • eia1.medium: 8 TeraFLOPsの混合精度パフォーマンス
  • eia1.large: 16 TeraFLOPsの混合精度パフォーマンス
  • eia1.xlarge: 32 TeraFLOPsの混合精度パフォーマンス

この新しいサービスを詳しく知りたい方は、こちらへ

more AWS re:Invent 2018 coverage

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Amazon Comprehendでは機械学習の技術とは無縁なデベロッパーでも専門用語で自然言語処理モデルを訓練できる

昨年Amazonは、自然言語処理のツールComprehendを発表した。それは情報のコーパスから、よく使われている語や語句を取り出し、ドキュメントを分類する。今日Amazonは同社のデベロッパーカンファレンスRe:inventに一週間先駆けて、Comprehendの機能向上を発表した。それにより機械学習の専門知識のないデベロッパーでも、専門用語や語句のリストを作るだけで機械学習のモデルを構築できる。

その機能アップを発表するブログ記事で、AmazonのディープラーニングとAIのゼネラルマネージャーMatt Woodがこう書いている: “本日Comprehendに新しいカスタム化機能を導入することを嬉しく思う。これによってデベロッパーは、Comprehendを拡張して自然言語で書かれている用語を見つけ、チームや企業や業界にとって専門的なテキストを分類できる”。

重要なのは、すべての複雑な処理をAmazonが面倒見るので、機械学習や自然言語処理の素養のないデベロッパーでも言葉のリストをシステムに与えるだけで、テキストからそれらの語を検出/取り出しできるようになることだ。Woodは書いている: “カスタマイズされた機械学習のモデルを構築、訓練、そしてホストする重労働はすべてComprehendが行い、これらのモデルをプライベートなAPIでデベロッパーが利用できるようにする”。

これには、二つの部分がある。まず、デベロッパーは専門用語などのリストを作る。それは、たとえば法律事務所なら法律用語、自動車会社なら部品番号のリストだったりするだろう。デベロッパーがすることは、これらの用語のリストを公開するだけだ。Comprehendがカスタマイズされた言葉を見つけることを学習し、そのリストに基づくプライベートでカスタマイズされたモデルを作る。

第二の部分は、分類のカスタマイズだ。言葉のリストを作ったら、次は、それらの用語が現れる論理(ロジック)のリストを作る。それについてWoodは、こう書いている:

“言葉の用例がわずか50件でも、Comprehendはカスタムの分類モデルを自動的に訓練し、それを使ってユーザーのドキュメントを各カテゴリーに分類する。たとえばカスタマーサポートのメールを、担当部門ごとにグループ化したり、ソーシャルメディアのポストを製品別に分類、あるいはアナリストの報告書を事業部別に分類したりできるだろう”。

これらの雑多で大量のドキュメントは、カテゴリー分けして初めて役に立つし、適切な担当者にそれを渡したり、あるいはアプリケーションがプログラムの一環として利用したりできるようになる。

Comprehendはユーザーに、カスタマイズされた機械学習のモデルを作る方法を、上述のようなごく単純な方法として提供し、楽屋裏の細部は自分でやる。一般的に言っても、クラウド企業は複雑難解なものを単純化して、専門的な知識や技能のないデベロッパーでも一連のサービスを利用できるようにする。Comprehendの場合は、機械学習の知識のない者がカスタマイズされたモデルを作れる方法を提供する。

Comprehendのこの新しい機能は、今日(米国時間11/19)から利用できる。

〔参考記事
Amazon Comprehend日本語ドキュメンテーション(1)
Amazon Comprehend日本語ドキュメンテーション(2)
Amazon Comprehend用例解説(1)
Amazon Comprehend用例解説(2)
「amazon comprehend 日本語」でググると、さまざまな日本語ドキュメンテーションが出てきます。〕

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

iPhoneの赤外線奥行きセンサーで人間の感情を読み取るObservant

Observantは、iPhone X, XS, XRの、赤外線を利用する奥行き(z軸方向)センサーの、新しい使い方を見つけた: ユーザーの顔の表情を分析して、製品やコンテンツに対する反応を読むのだ。

ObservantはY Combinatorの本年冬季の‘生徒’だったが、3月のデモデーの時点でもステルスだった。作者は、バグを報告するBuglifeを作ったのと同じ企業で、CEO Dave Schukinによると、彼のチームがユーザーの反応を正しく知りたいためにObservantを作った。

本誌TechCrunchはWebカメラ視標追跡(eye tracking)を使う方法を過去にも取り上げてきたが、CTOのDaniel DeCovnickと共に同社を興したSchukinによると、それらの方法はObservantに比べて精度が低い。とくにそれらは、表情の細かいニュアンスを捉えることができず、また十分明るくないと使えない。

彼によると、赤外線を用いる奥行きセンサーは、照度が低いところでも顔を詳細に捉えることができる。またObservantは独自のディープラーニング技術により、顔のデータをリアルタイムで感情に翻訳できる。

Observantは、どんなiOSアプリからでも利用できるSDKと、そのバックエンドとしてのリアルタイムの感情分析ストリームと、アプリ内イベントに対応するユーザーの反応のスナップ・ショットを提供している。今は完全招待制だが、Schukinによると、すでに一部のリテールやeコマース、それにフォーカスグループテストでも利用されている。

Observant

自分のiPhoneがこっそり自分の表情を捉えている、と後で知ったら誰しも気分悪いので、Schukinは事前にユーザーに知らせることを強調する。“ユーザーはそれがどのように使われるか明確に知っている”のだそうだ。またすべての分析はユーザーのデバイス上で行われるので、顔の映像やバイオメトリクスデータなどがどこかへアップロードされることはない。

この技術には、もっといろんな用途がありうる、とSchukinは主張する。たとえば消費者へのリコメンデーションの質をアップしたり、チャットボットが“感情認識能力”を持ったり、居眠り運転を検出したり、などなどだ。

現在、特定のスマートフォンの特定の三機種でしか使えないことに関してSchukinは、赤外線による奥行きセンサーがあるのは、開発を始めた当時iPhone Xだけだった、と言う。そして、いずれはAppleのiPhoneとiPadの全機種に搭載されるだろうし、Androidにも載るだろう、と彼は考えている。

現時点でObservantの将来性を占うのは時期尚早だが、Schukinによると、わずか一機種だったのがすぐに三機種になったのだから、今後この技術が広まっていくことは確実だ、という。

画像クレジット: Observant

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AmazonのAlexaは深層学習に基づきユーザーのやりたいことに関して‘勘’を働かせる

Amazonのビッグな ハードウェアイベントは、確かにハードウェア山盛りだったが、それ以外のものもあった。Amazonは、同社のバーチャルアシスタントAlexaを、人間のやることに対して、もっとお利口にし、もっと直観的な理解や判断ができるために何をしているか、を説明した。一家にたくさんのインターネットに接続されたスマートホームデバイスがあるときには、それ〔ユーザーが今何に対して何をしたいのかという直観、勘〕がとくに重要だ。

Amazonは木曜日(米国時間9/20)のイベントで、Alexa Hunchesと呼ばれる機能を発表した。この機能によりバーチャルアシスタントは、ユーザーの振る舞いに関する手がかりを知り、それに基づいて提案をする。そのためにAlexaは、ニューラルネットワークによるディープラーニングを利用して、人間の振る舞いを理解し学習する。〔hunch == ‘勘’〕

Alexaは人間の脳が対応できる判断をしなければならないし、そのためにはデータを必要とする。今のところ“Hunches”は、そんなデータが得やすいという意味で、スマートライトやセキュリティカメラのようなコネクテッドデバイスにフォーカスしている。たとえばユーザーが、“Alexaおやすみ”とか、“Alexa目ざましをセットして”と言ったら、毎日そんなコマンドを聞いているAlexaは、振る舞いに関するデータに基づいて勘を働かせる。そしてAlexaは、“ポーチのライトが点いたままだと思います。私が消しましょうか?”、と答えるかもしれない。

ずっとこの勘機能をテストしてきたAmazonは、機能のローンチを今年の終わりごろと予定している。勘機能は、時間とともに学習し改良されていく。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

NvidiaがローンチしたTesla T4は最速のデータセンター用推論プラットホームだ

Nvidiaが今日(米国時間9/1)、データセンターにおける機械学習と推論のための新しいGPUを発表した。そのTesla T4 GPUs(TはNvidiaの新しいアーキテクチャTuringを指す)は、クラウドコンピューティングのメジャーなプロバイダーのほとんどが現在提供しているP4 GPUsの後継機種だ。Nvidiaによると、GoogleはT4 GPUsをクラウドプラットホームで採用する最初の企業のひとつだ。

Nvidiaによると、T4はP4よりも相当に速い。たとえば言語の推論では、T4はCPUを使うよりも34倍速く、P4より3.5倍速い。T4のピーク時性能は4ビットの整数演算で260TOPS、浮動小数点演算で65TOPSだ。T4は、標準的な75ワットのLow Profile PCI-eカードに載っている。〔関連記事

しかしもっとも重要なのは、Nvidiaがこれらのチップを、AIの推論専用に設計したことだ。NvidiaのVPで同社のTeslaデータセンター事業部のGM Ian Buckはこう語る: “Tesla T4が推論用としてこれほど効率的なGPUであるのは、Turingアーキテクチャの新しいテンソル・コアのせいだ。CEOのJensen Huangがすでに述べたように、そのTensorコアはゲームやレンダリングやAIにも有効に利用できるが、設計の前提は推論だ。トータルでこのチップには、320のTuting Tensorコアと2560のCUDAコアがある”。

Nvidiaは今回、新しいチップのほかに、同社のソフトウェアTensorRTの、ディープラーニングのモデルを最適化するアップデートをローンチした。この新しいバージョンには、TensorRT推論サーバーも含まれており、それはデータセンターの推論のための完全にコンテナ化されたマイクロサービスとして、既存のKubernetesインフラストラクチャにシームレスに接続する。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

ディープラーニング専用チップのHailoが$12.5Mを調達、従来型CPUの数倍の性能を達成

これまであまりにも長く、チップは退屈な話題だった。でもでディープラーニングというコンピューティングの革命のおかげで新しい市場が開け、スタートアップがディープラーニングとモデルの計算を加速する専用チップを作って、売ることができるようになった。イスラエルのHailoもそんなスタートアップのひとつで、同社は組み込みデバイス用のディープラーニングチップを作っている。同社は今日(米国時間6/5)、シリーズAで1200万ドルの資金を調達した。

投資家はイスラエルのクラウドファンディングプラットホームOurCrowdのほか, Maniv Mobility, Next Gear, それに複数のエンジェル投資家で、その中にはHailoの会長Zohar Zisapel, Delek MotorsのGil Agmonらがいる。

これでHailoの調達総額は1600万ドルになるが、資金はもっぱら今後のディープラーニングプロセッサーの開発に充てられる。同社の予測では、最初の製品のサンプルを市場に出せるのが2019年の前半だ。それらのチップは主に、ドローンや自動車、各種スマートホーム製品、カメラなど多様なデバイスの、組み込みAIアプリケーションを駆動する。

しかしHailoの主力市場は自動車産業だ。その意味では同社は、最近Intelが買収した同じくイスラエルのMobileyeの後を追う形だ。

HailoのCEO Orr Danonはこう述べる: “これまでのプロセッサーのアーキテクチャは70歳の老人で、今日のディープラーニングやAIの処理ニーズに適していない。Hailoはプロセッサーの革命的なアーキテクチャにより、ディープラーニングの処理を数倍速くする。われわれはコンピューターのアーキテクチャの基本要素であるメモリーとコントロールとコンピュートと、それらの間の関係を、完全に新しい設計にした”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AI特化型インキュベーターのディープコアが60億円ファンドを設立へ、LPには親会社のソフトバンクも

写真左より、ディープコア代表取締役の仁木勝雅氏と、新ファンドの第1号案件となったVAAK代表取締役の田中遼氏

AI特化型インキュベーターであるディープコアは5月31日、シード・アーリー期のスタートアップ投資を目的としたファンド「DEEPCORE TOKYO」を設立したと発表した。同社が目標とするファンド規模は総額60億円だ。

設立時にも紹介したディープコアは、主にディープラーニングを中心とするAI領域でビジネスを行うスタートアップを対象としたインキュベーターだ。同社は2018年夏に東京の本郷にコワーキングスペース「KERNEL HONGO」をオープンする予定となっている。

ディープコアが今回立ち上げたファンドは、シードラウンドやシリーズAラウンドでの投資を目的としたもので、今年12月のファイナルクローズまでに約60億円の出資金を集めることを目指しているという。現時点で、LPにはディープコアの親会社であるソフトバンクグループのほか、ソフトバンク、ヤフーが参加することが決定している。

ディープラーニングを活用するスタートアップがまず必要とするのは、計算資源を整えるためのまとまった資金だ。ディープコアはその資金を直接スタートアップに供給するとともに、ソフトバンクグループが出資するNVIDIAの計算資源と技術コンサルティングを提供するとしている。これは、ディープラーニングを活用してビジネスを立ち上げたい起業家にとって大きなメリットとなるだろう。

ファンド運営を担当する渡邊拓氏は、「当社の調べでは、ディープラーニングを活用したビジネスを行う日本のスタートアップは、米国と比べて10分の1程度の数しかない。コワーキングスペースの運営から出資まで一貫して行うことで、その数を増やしていくことが目的だ」と語る。

ところで、ディープコアはソフトバンク子会社であるものの、彼らはその事実を積極的にアピールはしていない。その理由として、同社CFOの雨宮かすみ氏は「ディープコアのミッションは、ソフトバンクグループとシナジーを生み出すスタートアップを発掘することではなく、日本におけるAIスタートアップのエコシステムを活性化すること」だと語り、“ソフトバンクグループ色”を前面に出さずによりオープンな支援を行なっていくためだと説明する。

ディープコアによれば、同社はすでに防犯カメラの映像解析を手がけるVAAK(約5000万円)と、名称非公開のスタートアップ1社への出資を実施済みだ。同社は今後も1社あたり数千万円程度の出資を続け、最終的には100社近くのAIスタートアップに出資を行っていくという。

Linux Foundationにディープラーニングのオープンソース団体が加わる

名前はLinuxでも、Linux Foundationかなり前から、Linuxのためだけの団体ではない。今ではCloud Foundry, Automotive Grade Linux Initiative, Cloud Native Computing Foundationなど、さまざまなオープンソースの財団やプロジェクトを支えている。そして今日(米国時間3/26)Linux Foundationにはさらにもうひとつの財団、LF Deep Learning Foundationのサポートが加わった

LF Deep Learning Foundationの目的は、“人工知能や機械学習、およびディープラーニングのオープンソースのイノベーションをサポートして支え、これらの重要な技術を世界中のデベロッパーとデータサイエンティストにとって可利用にすること”だ。

創設メンバーは、Amdocs, AT&T, B.Yond, Baidu, Huawei, Nokia, Tech Mahindra, Tencent, Univa, そしてZTEだ。今後、さらに増えていくであろう。

The Linux Foundationの事務局長Jim Zemlinはこう述べている: “AIや機械学習およびディープラーニングのエコシステムにおける多くのプロジェクトに長期的な戦略と支援を提供し続けることを目的とする団体をご提供できることは、きわめて喜ばしい”。

同団体の最初の公式プロジェクトはAcumos AI Projectで、これはLinux Foundationがすでにホストしている、AT&TとTech Mahindraのコラボレーションだ。Acumos AIは、AIのモデルとワークフローを開発、発見、そして共有するためのプラットホームだ。

Linux Foundationが支えるそのほかの団体と同じく、LF Deep Learning Foundationもさまざまなレベルの会員資格を支援企業に提供し、また非営利団体も会員として受け入れる。LF Deep Learningの会員は、同時にLinux Foundationの会員にもなる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

IBMが“サービスとしてのディープラーニング”をWatson Studioから提供、簡単・易しいを重視

機械学習のワークフローと訓練モデルを作るサービスWatson Studioに今日(米国時間3/19)、新しいサービスDeep Learning as a Service(DLaaS)が加わった。すでに類似サービスもあるこのサービスは、機械学習の最新の進歩を、その難解さの敷居を下げ、企業ユーザーにとって使いやすい形で提供する。

この新しいツールを使うデベロッパーは、彼らがすでに使っているオープンソースのフレームワーク(TensorFlow, Caffe, PyTorch, Kerasなど)を使って自分たちのモデルを開発できる。実際にはIBMのこの新しサービスはこれらのツールを、基本的にクラウドネイティブなサービスとして提供し、デベロッパーはふつうのREST APIを使って、彼らが望むリソースや予算内でモデルを訓練できる。このサービスはコマンドラインインタフェイスと、Pythonのライブラリ、あるいは対話的ユーザーインタフェイスを提供し、それによりたとえば、NvidiaのGPUのどれを使うか、といったオプションを指定できる。

このような、ディープラーニングのための管理を伴う環境(managed environment, マネージドエンバイロメント)は、必ずしも新しいものではない。MicrosoftはAzure ML Studioで、高度なグラフィカルな環境によるMLモデルの構築を提供している。しかしIBMは、いくつかの独自のアドバンテージを主張しており、その中にはドラッグ&ドロップによるニューラルネットワークビルダーなどがある。それは、ノンプログラマーでもニューラルネットワークの構成や設計ができる、というものだ。

さらにIBMのツールでは、ハイパーパラメータがユーザーのために自動的にチューニングされる。これは従来、手作業でやると多くの時間を消費するプロセスであり、科学だけでなく一種のアートの側面も持つ。〔参考: Google Cloud ML Engine, Wikipedia

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

新惑星の発見に貢献したNASA/Googleの機械学習システムAstroNetをあなたも利用できる

おぼえておられると思うが、昨年12月に、NasaのデータとGoogle Brainの脳力を利用する機械学習により、二つの新しい惑星が見つかった。あなたがそれと同じことをやってみたいなら、そのシステムを作ったチームが今日(米国時間3/8)、その天文学的偉業の達成に使われた、AstroNetと呼ばれるプログラムのコードをリリースしたから、試してみたらどうだろう。

NASAのKepler宇宙望遠鏡は、銀河系を何年もかけてスキャンし、惑星サイズのオブジェクトが星の前面にあって、そこだけやや暗くなってるところ(上図)を観察した。

そのデータセットは、機械学習のシステムにとってすばらしい遊び場だ。量が膨大でノイズも多いため、微妙な変異を単純な統計学的方法や人間による精査では見つけることができない。そのような、データの泥沼からおもしろい結果を取り出すためには、畳み込み式ニューラルネットワークが格好のツールだった。

しかし例によってAIは、人間がやった先例に従わなければならない。そのニューラルネットワークは、すでにラベルがついていて惑星か非惑星かを検証されている何千ものKeplerのスキャンデータで訓練された。この訓練されたモデルが、Kepler-90iとKepler-80gの発見に貢献した。

研究者たちによると、プロジェクトのソースを公開したことによってそれがさらに正確になり、研究がもっと早いペースで進み、また新しいデータセットも取り入れることができる、と期待される。ドキュメンテーションを読んでコードをフォークしてみたい人は、GitHubへ行ってみよう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

MITの新しいチップはニューラルネットワークを電池駆動のガジェットの上でも動かせる

MITの研究者たちが開発したチップは、ニューラルネットワークをスピードアップするとともに、その消費電力を最大で95%も引き下げる。その基本的なコンセプトはチップの設計を単純化して、チップ上の複数のコンピューター間のデータの行き来をなくすことだ。

MITの院生Avishek Biswasのチームが開発したこの新しい方法の利点は、ニューラルネットワークをスマートフォンや家電製品やそのほかの機会器具類の上で動かせるので、膨大な電力を消費するサーバーが要らないことだ。

それがなぜ重要なのか? つまりそうなると、このチップを使っている未来のスマートフォンは、高度な音声認識や顔認識などを、ニューラルネットワークやディープラーニングをローカルに動かして実行できる。原始的なルールベースのアルゴリズムを使わずにすむし、データをクラウドに送って処理の結果をもらうことも、する必要がない。

センサーがデータを集めている現場で、必要なデータ処理をすべて行うことを、‘エッジにおけるコンピューティング’、エッジコンピューティングと呼ぶが、それが一般企業のレベルで実用段階になりつつある。この新しいチップ設計の方法は、今成長中の機会がさらに商用化大衆化していくとき、業界に大きなインパクトを与えるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

ソフトバンク子会社がAI特化のインキュベーション事業を開始、学生も対象で創業支援

ディープコアのメンバー。写真中央が代表取締役の仁木勝雅氏。

ソフトバンクグループの100%子会社であるディープコアは1月29日、学生や起業家が対象となるAI分野に特化したインキュベーション事業を開始すると発表した。

ディープコアはもともと、「汐留事業4号株式会社」という変わった法人名がつけられていた企業で、ソフトバンクがいつ新規事業を立ち上げてもいいように用意したペーパーカンパニーだった。同社は2017年9月に法人名を現在のディープコアに変更。今回発表したインキュベーション事業が現在の主要事業だ。

そんなディープコアのインキュベーション事業が特に注力する分野がディープラーニングだ。ディープラーニングといえば、Preferred Networksがトヨタ自動車から約105億円の資金調達を実施するなど、日本でも大企業とスタートアップとの協業が活発的に進みつつある分野である。ディープコアは東京大学松尾研究室と共同研究契約を締結し、企業との共同プロジェクトの実施や起業家育成を進めていく。

また、同社は東京大学に近い本郷にコワーキングスペースを開設し、NVIDIA(ソフトバンクが約1兆円を出資したとされる)の協力の下で用意したコンピューティング・リソースを提供する。起業意欲がある優れたメンバーについては創業支援も行うという。

ソフトバンクグループでは投資部門を担当してきたディープコア代表取締役の仁木勝雅氏は、“求める人材像”についてこう語る。

「一定のAIスキルを持っている理系学生、大学院生、エンジニアなどで、『現在は特にビジネスに係わっていないが、経験してみたい』だとか、『AIの技術を使って、面白いことをやってみたい』という人だ。既に起業意欲を持っている人は大歓迎だが、現時点で、必ずしも具体的なテーマやアイデア、起業意欲を持っている必要はない。企業との実証実験などへ参加してもらうことで、社会における実課題に取り組む機会を提供する」(仁木氏)

ディープコアは50人のプログラムメンバーを2018年2月1日より募集開始する。インキュベーション施設は2018年春に開設予定だ。その他の詳細は同社のWebページに随時アップデートされる。