顔認識技術のTrueface.aiがIFTTTを統合して多様な実用的利用が可能に

500 Startupsと多くのエンジェル投資家が支援している、まだステルス状態の顔認識スタートアップTrueface.aiが、IFTTTとの統合により、デベロッパーたちが同社の技術をいろいろ試せるようにしている。

CEOのShaun Mooreによると、IFTTTとの統合により初めて、同社の顔認識技術が、複雑なコードを理解する必要なく、多くの人が利用できるようになる、という。

同社は最初、ハードウェアとソフトウェアのベンダーだったが、2017年にハードウェアの取り扱いをやめて、ソフトウェアにフォーカスするようになった。

“われわれ自身がもっと幅広いアプローチを取ることによって、ハードウェアのデベロッパーが自分のやりたいことをできるようになる、と考えた”、とMooreは語る。

Trueface.aiが今集中しているデジタルの認識確認技術は、たとえば誰かが銀行の口座を開こうとするときの本人確認や、公証事務のデジタル化などに応用できる。しかも、“本人性や所有権の確認をリモートでできるようになる”。

その目標は、顔認識技術を誰でも使えるようにすることだ。そしてそのための第一歩が、IFTTTの統合だ。それによってデベロッパーやメイカーたちの知名度を上げることができる、とMooreは考えている。

  1. screen-shot-2018-01-25-at-2-52-47-pm.png

  2. screen-shot-2018-01-25-at-2-53-05-pm.png

  3. screen-shot-2018-01-25-at-2-53-17-pm.png

  4. screen-shot-2018-01-25-at-2-53-24-pm.png

“これ(IFTTTの統合)は、一般的にサードパーティがうちの技術を利用するときの、ひとつの形だと思う。たとえばスマートロックのLockitronがあれば、Truefaceが来客の顔を認識し、その判定に基づいてIFTTTがドアをアンロックする”。

その顔認識に使われる技術は、今やおなじみのディープラーニングだ。ソフトウェア専門で行く、と決める前のTrueface.aiは、本誌TechCrunchのニューヨークオフィスにやってきて、その前身的技術であるChuiをデモしたことがある(下のビデオ)。

その機械学習のモデルは、数百万もの顔の画像で訓練され、そしてユースケースによっては、人間の顔の数学的表現を生成することもできる(これを数学用語で埋め込み(mbedding)と言う)。

埋め込みを保存しておくと、他のモデルが本人性の推断に利用できる。同社のモデルは、生きた本人でなく、本人の顔写真でシステムを騙そうとしても騙せないようにできている。スマホのロック画面なんか、もうだめだからね。

IFTTTの統合とともに同社は、そのIDVerifyプロダクトによって同社の技術にユーザーを慣れさせようとしている。

すでに同社の技術は150か国以上の本人性証明ドキュメントと互換性があり、それらをTrueface.aiのWebアプリケーションやモバイルアプリケーションで利用できる。

Mooreは曰く、“何かを自分で作ることの好きな人たちも、うちの技術の立派なユーザーだ、と考えているよ”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleが音声合成を機械学習で訓練する方法Tacotron 2を発表、システムの調教が楽になる

本物らしい良質な合成音声を作ることは今、ホットな研究開発テーマだが、一歩リードしているのはGoogleだろう。同社は今日、Tacotron 2なるものを発表して、さらにその差を広げたかもしれない。これは人工知能にテキストを読ませてリアルな音声を作り出すための、ニューラルネットワークの新しい訓練方法で、ユーザーには文法知識がなくてもよい。

この新しいテクニックは、Googleのこれまでの音声生成プロジェクトWaveNetと初代Tacotronの良いとこ取りをしている。

WaveNetは、ぼくの感想では“気味が悪いほど本物そっくりの”音声を作り出し、しかも一度に一つずつのオーディオサンプルを作るので、あまり実用向きではない。WaveNetは有能ではあるけど、最初に言語に関する大量のメタデータを必要とする。発音や、言語のさまざまな特徴などだ。

初代Tacotronは、イントネーション(抑揚)や強弱などを含む、より高いレベルの音声合成ができるが、実用的な最終製品を作るのには向いていない。

Tacotron 2は、この両者を利用している。ぼくはこの方面の技術には疎い方だけど、理解できる範囲で言えば、このシステムは、言葉のルールを明示的に教えなくても、テキストの原文とナレーションからそれらのルールを予測推定する。テキスト本体は、Tacotronがリズムや強調を得るために使う“メル尺度スペクトログラム(mel-scale spectrogram)”に変換され、語そのものはWaveNet的なシステムを使って生成される。

これでよく分かるはず!?

そうやって得られた音声は、ここにサンプルがあるが、今世の中にあるものの中では最良ではないだろうか。語りのリズムは自然だが、ちょっと快活すぎるかもしれない。わかりにくい発音のある語ではつまずくが、それらは主に、アメリカ英語に外から輸入された語、たとえば“decorum”をこのシステムは第一音節を強調するし、フランスのワイン用ぶどうの品種“Merlot”は書かれた綴りをそのまま発音するので笑わせる。研究者たちは、“極端なケースでは奇妙なノイズをランダムに生成することもある”、と書いている。

また、音声の口調…元気である、心配しているなど…をコントロールすることはまだできない。アクセントなどは、WaveNetでできたように、できる。

訓練システムの敷居を下げれば、もっと良質な訓練ができるだろう。Googleのこの新しい方式では言葉や話法に関する複雑なルールを、言語や音声スタイルが変わるたびに手作業で教えなくてもよい(ニューラルネットワークを実例で訓練するだけだ)。

研究者たちは結果をIEEEのカンファレンスInternational Conference on Acoustics, Speech and Signal Processingで発表する予定だが、そのためのペーパーはarXivで読める

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AWSがAIを利用する企業顧客へのコンサルティング事業と高度な画像認識機能を発表

例年の大型カンファレンスre:Inventを来週に控えたAmazonのAWSが、人工知能関連の新たな展開を二つ発表した。まず、AWSは、機械学習のラボML Solutions Labを開き、機械学習のエキスパートと、AIによるソリューションを作ろうとしている顧客を結びつける。さらにAWSは、ディープラーニングによる画像認識APIベースAmazon Rekognitionの機能を拡充し、リアルタイムの顔認識と画像中のテキストを認識する機能を新たに加える。

新たなラボと画像認識プラットホームの拡充は、AmazonとAWSのAI推進努力の一環であり、社内利用とB2Bビジネスの成長材料の二面をねらっていると思われる。1か月前にAWSは、デベロッパーが自分のアプリケーションやサービスのために機械学習のモデルを構築し利用するためのディープラーニングライブラリGluonをMicrosoftと共同開発する、と発表した。

Amazonは昨年のre:InventでAWSのAIリソースのデベロッパー向け総合窓口Amazon AIを発表しているが、今年この時期(感謝祭の前日)にこれら二つの発表をしたということは、今年のre:Inventのための足固めか、それとも今年はAIにあまりハイライトを当てないことを意味するのか。

Solutions LabはAWSのBusiness Supportの顧客に提供されるが、これはAIだけでなく企業向けのコンサルティングサービスでもある点が興味深い。IBMのような企業ITの古顔企業では、コンサルティングサービスこそがつねに、ビジネス開拓の鍵を握っている。

Amazon AI担当のVP Swami Sivasubramanianはこう語る: “デベロッパーたちがAmazonのML Solutions Labで機械学習への取り組みを開始するのを、じっと待ってるわけにはいかない。Amazonが抱える機械学習の最良の科学者と実践者の専門的知識技能に、顧客の深いビジネス知識を組み合わせることによってのみ、AmazonのML Solutions Labは顧客元における機械学習の迅速な立ち上げを支援し、彼らの社内における機械学習の実用稼働をスタートできる”。

すでに、Washington Postや、Johnson & Johnsonの製薬部門Janssen、World Bank Groupなどが最初の顧客として確定している。

一方Rekognitionの新しい機能は、コンピュータービジョンにおけるAmazonの継続的進展を示すだけでなく、プロダクトとして外部の顧客が利用でき、Amazonの収益源にもなるという点が、強い姿勢として目立つ。

注目すべきは、Rekognitionの新機能のビッグな顧客のひとつがPinterestであることだ。画像による検索や分類はPinterestの最重要な機能だが、同社はそれを内製せずに外部のサービスやAPIを使おうとしている。

しかしPinterestはAWSにとって長年の顧客であり、AmazonのクラウドストレージS3の上には何百万もの‘Pin’が保存されている。だからAmazonがこのような大型顧客の便宜のために、画像中のテキスト認識機能を開発したとしても、おかしくはない。

PinterestのCTO Vanja Josifovskiがこう言っている: “Pinterestはビジュアル専門のプラットホームだから画像処理のスピードとクォリティーに大きく依存している。でも、画像中のテキストは、それらがコンテキストを提供し、Pinをアクションに誘うために、きわめて重要だ。画像中に興味深いテキストがあれば、われわれの2億あまりの‘Pinner’たちは、それへの何らかの反応を誘われるのだ。これからは、Amazon S3に保存されている数百万のPinsから、リッチなテキストを素早く取り出せることができるようになる。Pinterestのユーザーのユーザー体験とビジネスの高品質化と高速化のためにも、AWSとのパートナーシップをさらに発展させていきたい”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Apple Watchなど心拍計のあるウェアラブルは高血圧症や睡眠時無呼吸を正確に検出する

ヘルステックスタートアップのCardiogramとカリフォルニア大学サンフランシスコ校(UCSF)による最新の調査によると、Apple WatchやFitbitなどのウェアラブルには、高血圧症(過緊張)や睡眠時無呼吸など、一般的によくある危険な状態を正確に検知できる能力があることが分かった。

両者のこの前の研究では、Apple Watchには不整脈を97%の精度で検出できる能力があることが、実証された。今回の調査では、Watchが90%の精度で睡眠時無呼吸を検出し、高血圧症を82%の精度で検出することが分かった。

American Sleep Apnea Association(アメリカ睡眠時無呼吸協会)の推定によると、アメリカでは2200万人の大人に睡眠時無呼吸症があり、中程度から重度の患者の80%が診療を受けていない。しかしこれは、睡眠時に呼吸が止まって死に至ることもある症状だから、たいへん深刻な状況である。

またCenters for Disease Control(CDC)(疾病管理センター)によると、アメリカ人の大人のうち7500万人が高血圧であり、合衆国で死亡原因のトップである心臓病や脳卒中のリスクを抱えている。

自宅でくつろいだ状態で、しかもシンプルなデバイスを使って、睡眠時無呼吸症や高血圧症を検知できるようになれば、医療は大きく変わるだろう。これまでは多くの患者が、ときどき思い出したかのように医者へ行き、長い時間待たされて検査を受けている。これでは、急な血圧上昇などをお医者さんに知ってもらうことができないし、本人が寝ているときの呼吸停止ともなると、家族はおろか、本人にも分からない。

今回の調査では、6000名あまりの標本がCardiogramアプリを搭載したApple Watchを一定期間装着した。そしてDeepHeartと呼ばれるディープラーニングのアルゴリズムが分析した結果では、1000名あまりに睡眠時無呼吸が、2000名あまりに高血圧症が検出された。

DeepHeartは標本の70%から得られたデータで訓練され、その結果を残る30%に対してテストした、とCardiogramの協同ファウンダーBrandon Ballingerが述べている。

今回使用したデバイスはApple Watchのみだが、Cardiogramの協同ファウンダーで今回の調査を担当したJohnson Hsiehによると、心拍計のあるウェアラブルならどれでも同じ結果が得られたはず、と言う。“それらは、基本的に同じ技術だから”、と。

Hsiehはこう語る: “ウェアラブルのメリットは、高血圧症などの診断が、自覚症状のない人や多忙な人に対しても継続的にできる点にある。そして症状を検出できた人を確実に医療にアクセスさせ、より本格的な検査や治療を講じることができる”。

心臓の健康に関する今回の調査研究は、医療にディープラーニングが本格的に利用された三度目のケースだ。その前には、2016年12月のGoogle Brainによる網膜検査による糖尿病の検出と、今年の1月のスタンフォード大学による皮膚がんの検出があった。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

エッジ処理向けの深層学習モデルを開発、LeepMindがIntel Capitalなどから11.5億円調達

企業向けのディープラーニング・ソリューション「JUIZ DoT」などを提供するLeepMindは10月23日、合計7社を引受先とする第三者割当増資を実施し、総額11.5億円の資金調達を完了したと発表した。

投資家リストは以下の通り:

LeapMindは、高い処理能力や高電力を前提としたこれまでのディープラーニング(深層学習)とは違い、小さなコンピューティングリソースでも動くような計算処理を圧縮した独自モデルの開発を行うスタートアップだ。

通常、ディープラーニングというと大きなコンピューティングリソースを利用したものを想像する人が多いと思う。たとえば、人間のプロ囲碁棋士を打ち負かしたことで話題になったAlphaGoにはCPU1202個とGPU176基がものリソースが利用されていた。

もちろん、そんな巨大コンピューターをいちいち移動させたり色々な場所に配置したりする訳にはいかない。だから、処理を行うサーバーは離れた場所に置かれ、データを取得する端末とネットワークを介して通信することになる。いわゆるクラウドコンピューティングだ。

クラウドのメリットは、たとえ端末自体の処理能力が低くても、外部のリソースを活用することでディープラーニングのような複雑な処理ができること。逆にデメリットとして挙げられるのは、離れた場所にあるサーバーと通信を行う以上、処理結果が返ってくるまでに多少の遅延が発生してしまう点だ。

でも、人のいのちに関わる自動運転の分野などでは、そのような遅延は許されない。そこで自動運転の発展とともに注目され始めているのがエッジコンピューティングだ。これは、端末の近くにサーバーを分散配置することで遅延を少なくするというもので、クラウドとは異なる発想をもつコンピューティング技術だ。

エッジコンピューティングで利用できるリソースは限られている。巨大なコンピューターをクルマに積むことなんてできないからだ。すこし前置きが長くなってしまったけれど、LeepMindはそんな小さなコンピューティングリソースでもディープラーニングを行えるよう、計算量を圧縮した独自モデルの開発をしている。

従来モデルの500分の1のサイズ、10倍の処理速度

LeepMindによれば、同社の独自モデルはケンブリッジ大学が開発した「SegNet」と比べて500分の1のサイズでありながら、精度は5%ほどの低下に留めることに成功したという。また、LeepMindが提供するSaaS型ディープラーニングサービスであるJUIZを利用してFPGA(参考)上に専用回路を構築することで、CPUでの処理に比べて10倍の速度で処理を完了することができるという。

また、FPGAに構築されたモデルは従来のものに比べて省電力であり(約12分の1)、電力が限られたIoTデバイスでもディープラーニングが行えるように開発されている。

LeepMindが掲げる「DoT(Deep Learning of Things)」という言葉のとおり、エッジ上で精度の高いディープラーニングを行うことが可能になれば、自動運転だけでなく、ドローンに高度な画像認識モジュールを搭載するなど様々なことが可能になりそうだ。

今回のラウンドには米国のIntel Capitalがリード投資家として参加しているけれど、彼らは注力分野としてAI、FPGA、IoT、自動運転などを挙げている。それを考えれば、LeepMindはIntel Capitalにとって絶好の投資先だったのかもしれない。

LeepMindは今回調達した資金を利用して、「ソフトウェアとハードウェアの両領域におけるソリューションの研究開発、またそれに伴う世界中からの優秀な従業員の雇用、さらには海外を含めた事業開発/営業基盤の拡大に充当する予定」だとしている。

過去に、同社は2016年8月のシリーズAで3.4億円を調達している。

Nvidiaに負けたくないIntelがニューラルネットワーク専用プロセッサーNervanaを年内発売

今朝(米国時間10/17)WSJのD.LiveイベントでIntelが公式に、同社のニューラルネットワークプロセッサーNervanaを披露した。この機械学習のユースケースを想定したチップ系列は、開発時のコードネームがLake Crestだった。

このチップの基本技術は、Intelが昨年8月に3億5000万ドルで買収したNervana Systemsに負っている。このニューラルネットワークプロセッサー(Neural Network Processor, NNP)チップは標準的なキャッシュ階層を廃し、チップ上のメモリをソフトウェアが管理することによって、ディープラーニングのモデルの訓練を高速化する。

Intelはここ数か月、Nvidiaに完敗することを避けようと躍起になっていた。今成長著しいAI市場に向けて舵を切ることにより、このレガシーのチップメーカーは、これまでに築いた業界とのコネを利用して生き残ろうとしている。その点に関してIntelの目標は、2020年のAI部門の売上を現在の100倍にすることだ。

NervanaはNNPとしてスケーラビリティと数値計算の並列化を売りにしている。また、強力な双方向データ転送能力も、重要なセールスポイントだ。Intel独自の数値フォーマットFlexpointを使うことによって、スループットを上げているという。また回路のサイズを縮小したことによって並列処理を高速化し、同時に電力消費量を減らしている。

もちろんニューラルネットワークのパラメーターを大量のチップに分散して効率を上げることは、他者も当然ねらっている。Nervanaと並んで今後市場にどんなものが出てくるか、今から楽しみだ。

今日の発表には、ベンチマークがなかった。間に合わなかった。発売は年内だそうだが、大丈夫か。Facebookは技術情報をIntelと共有して、このチップの開発に協力してきた。

Intelは、Nervanaを軸とする総合的な製品ラインを目指しているようだ。次に出るAI向けXeonプロセッサーは、噂ではコードネームが“Knights Crest”だそうだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

デベロッパーが使う機械学習のモデルがグローバルなトレンドに合うようにするTensorFlow Lattice

GoogleのTensorFlowのチームが今日(米国時間10/11)、デベロッパーが使用する機械学習のモデルが、訓練データにノイズがあった場合でもグローバルなトレンドに合っているようにするためのツールTensorFlow Latticeをリリースした。Latticeはルックアップテーブルのようなもので、それにより、モデルを制約するマクロのルールを定義する過程を単純化する〔単なる表で表す〕。

ルックアップテーブル(lookup table, 参照表)は、データの入力(キー, 鍵)と出力(ヴァリュー, 値)を対照させたデータ表現だ。一つのキーに一つのヴァリューが対応している形がいちばん理解しやすいが、複雑な多次元のファンクションではキーが複数になることもある。TensorFlowのチームのアプローチは、訓練データを使ってルックアップテーブルのヴァリューを訓練し、一定の制約下で精度を最大化するものだ。

このやり方にはいくつかの利点がある。まずそれは上述のように、単調関係(monotonic relationship)を定義しやすい。もっとふつうの言葉で言えば、入力がある方向に動けば出力も同じ方向に動く、というデータ間の単調な関係をデベロッパーに保証する。

チームは、車と交通量の例を挙げている。車が増えれば交通量も増える、という単調関係。このような状況では、単調性がルックアップテーブルのパラメータの制約として表現される。これらの制約は、事前の知識を利用して出力(結果)を改良する。モデルが、ユニークだけれども前と似た問題に適用されるときには、とくにそれができる。

さらにまた、高価な計算に頼るよりも単純な参照表を使った方が効率的な場合があり、そのときは一つ一つの入力/出力ペアをいちいち計算するよりも推定(補完)で間に合う。それにラティステーブル(格子表)は、従来の方法に比べて、デベロッパーにとっての透明性が増す。

TensorFlowは、デベロッパーがラティステーブルを使ってさまざまな問題を解くときのために、4種類の推定ファンクションを提供している。さらに詳しい情報は、GitHub上にある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Deepgramがディープラーニングを利用する機械書き起こしサービスを無料で公開、データの獲得をねらう

オーディオデータを機械学習で処理するDeepgramが今日(米国時間10/10)、同社の機械書き起こしサービスを無料で公開した。これからはTrintのようなサービスにお金を払って自動化書き起こしという汚い仕事をやらせなくてもすむわけだ。無料化の秘密は、“データの取得”にある。

機械書き起こしは、完成された技術ではない。というか、機械何々はどれも未完成だ。それでも最近は、機械何々を完成させるためのデータを得ようと、各社が競っている。Deepgramのやり方は、書き起こしサービスを無料にして多くの人にオーディオデータをアップロードしてもらい、そのお礼に検索可能なテキストを渡すことだ。

前述のように、このやり方はそれほどユニークではない。誰もが、データを求めている。Image Captchasも、ラベルをつけた画像データを一般消費者に送ってもらって機械学習のモデルに利用することが目的だ。

Deepgramの書き起こしツールは、ディープラーニングを利用している(驚き!)…今やおなじみの、畳み込み型/再帰型のニューラルネットワークだ。無料バージョンでは何もかも一般化されるが、有料バージョンでは企業名や製品名、業界の専門用語などで訓練をカスタム化できる。

一週間前にやった1時間のインタビューで、このサービスをテストしてみた。レストランの騒音の中で二人の人間が対話をしている。書き起こしの質は、完全にはほど遠い。でも、今市場に出回っているサービスに比べて、極端に悪いというわけではない。

記憶している語句で検索することもできたし、三回目の結果の中に、探していた特定の箇所が見つかった。それをここに引用すると相手が怒りそうだからやめるが、記事を書くためには十分なコンテキストが得られた、と言えよう。音声による検索には5分ほどかかったが、テキストと違って音声による“語”には、似たような音(おん)が多いので、必要以上のマッチを見つけるのだろう。それでも、人間がやってくれる書き起こしサービスに比べると安い(無料!)し、今後少しずつ良くなっていくだろう。

Deepgramの協同ファウンダーでCEOのScott Stephensonはこう説明する: “音声認識の自動化は、まだ完成された技術ではない。特定のデータセットに対しては有能だが、ノイズが多いとだめだ。うちのサービスの結果も、良くないね”。

Deepgramは、機械書き起こしのAPIも無料で提供している。でも、有料サイトに100万分(ふん)の音声データをアップロードしたら、目の玉の飛び出る料金になるだろうから、その500テラバイトのファイルはDeepgramにトロルした方がよいかもね。

書き起こしはまだまだ人力には勝てないが、人工的に合成した音声なら機械学習にも勝つチャンスがあるかもしれない。テキストから音声を生成するWaveNetLyrebirdのようなプロジェクトを利用して、Deepgramのような機械翻訳システムを、機械が間違えやすい語で訓練すれば、その能力もアップするだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

画像認識リアルタイム百科事典Google Lensが今年の終わりごろPixelスマートフォンで実用化

Googleが、Google Assistantに接続する画像認識アプリLensを初めてデモしたのは、5月に行われたデベロッパーカンファレンスGoogle I/Oだった。当時それは、大いに人気を博したが、そのときの発表の多くがそうであったように、リリースの日程などは明らかにされず、“近く”(soon)という言葉だけがあった。それからほぼ5か月になる。

今日(米国時間10/4)のGoogleのハードウェアイベントでは、Lensの最初のプレビューが同社のPixelスマートフォンに今年の終わりごろ登場する、と発表された。あくまでも、プレビューだ。そしてそのほかのデバイスには、“随時”ということだ。

LensはGoogleのさまざまな機械学習サービスを利用している。画像認識の能力にGoogle Translateのリアルタイム翻訳と、Google Assistantを結びつける。たとえば花のスナップと撮ると、Lensが花の名前を教え、そのほかのことも教えてくれる。ランドマークや名所旧跡、それにレストランですら、情報を教える。

I/Oで拍手の音がたぶんいちばん大きかったのは、Wi-FiルーターのSSIDとパスワードを読んで、ユーザーのスマートフォンをそこに自動的に接続するLensの機能だった。



[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Rasa Coreはチャットボットのコンテキスト判断用機械学習モデルを人間参加の半自動で作る

会話を扱うコンピューターシステムにとっては、コンテキストがすべてだ。人間はそのことを意識しないけど、日常のとてもシンプルな会話でさえ、複雑なコンテキストの産物だ。会話システムが人間の能力になかなか追いつかないのも、コンテキストという難問があるためだ。しかしベルリンのRasaは、対話的な学習とオープンソースのコードを利用して、この会話するAIの問題を解決しようとしている。

そのRasa Coreというシステムのやり方は、多くのAIスタートアップと似ていて、Amazonの
Mechanical Turkのような人力サービスを利用して機械学習のモデルが持つ不正確さを修正する。ただしRasaが使うのはMechanical Turkではなく、誰でも参加できる方式で、開発中のボットと人が短い会話をし、それによりモデルを訓練しアップデートしていく。

人とボットが会話をする様子を、上の図で見ることができる。上図では「利息を比較する」にチェックが入っているが、それは、ユーザーが求めている確率がもっとも高いと思われるアクションだ。それを見た人間トレーナーは、正しい/正しくないで答える。その結果をモデルは学習し、次に同じ状況に直面したら、もうその質問をしない。

Rasaのチームによると、ボットが使い物になるまでに行う人間とのサンプル会話は、数十回で十分だ。しかし、もっとたくさんやれば精度は上がるし、ユーザーフレンドリーにもなるだろう。

“IBMがWatsonで作った会話モデルを見たけど、ちょっとがっかりした”、とRasaの顧客の大手保険会社Helveticaに勤務し、会話型AIのプロマネでもあるFlorian Nägeleは述べる。“決定木が一つだけで、コンテキストをほかの木に持っていけない”、と彼はWatsonについて言う。

Rasaのよいところは、訓練データなしで顧客が自力でモデルを作れることだ。理想的には誰もがサンプル会話の自分用の大きなコーパスを持っていて、それを使って会話システムを訓練することだが、技術スタッフのいない企業では、それも難しい。

Rasa Coreは、オープンソースとしてGitHub上にある。またRasa Coreと本誌が昨年12月に取り上げたRasa NLUには、企業向け有料バージョンもある。有料版には、アドミン用管理インタフェイスや、カスタマーサポート、テストの自動化、コラボレーションによるモデルの訓練、といったサービスが付随する。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

NvidiaがスマートシティプラットホームMetropolis AIでAlibabaやHuaweiとパートナー

NvidiaのスマートシティプラットホームMetropolis AIは、まるでDC Comicsのスーパーマンの漫画にあったような名前だが、実際にはそれはGPUを使用するインテリジェントなモニタリングツールで、渋滞の解消とか、行政サービスの適正配分、迷子の老人や子どもの発見など、さまざまな業務を助ける。このほど同社は、Mtropolisの本格的な普及を目指してAlibabaおよびHuaweiとパートナーし、またMetropolisの一般供用バージョンにはそのSDK、DeepStreamを含めることになった。

Metropolisはビデオを使用し、2020年までには10億台以上の、インターネットに接続されたカメラを世界中の都市に据え付けて、警察や都市計画などあらゆる行政サービスをアシストするデータ分析AIアプリケーションを稼働させる。

Nvidiaは今日北京で行われた同社のGTXカンファレンスで、そんなアプリケーションの一端を紹介した。たとえば中国のHikvision Research Instituteのプロジェクトは、Jetson, Tesla P4, DGX-1といったNvidia製品〔主にディープラーニング関連〕を組み合わせて、顔画像と個人プロフィール情報のマッチングを90%の確度で行う。

こういった監視システムにはオーウェルの‘ビッグブラザー’的な気色悪さがつきまとうが、円滑で安全な都市交通ネットワークのための自動化情報システムが実現するためには、それが必要な第一歩だろう。たとえばAlibabaが考えているのは、都市計画部門における行政サービスの改善だ。またHuaweiなどは、もっぱら警察用アプリケーションに注力している。後者はそれこそ、ビッグブラザー問題を内包するかもしれない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

PyTorchとCaffe2両モデル間の変換ツールをFacebookとMicrosoftが共作、機械学習商用化のスピードアップ

FacebookとMicrosoftが今朝(米国時間9/7)、互いブログ記事で、ONNX、すなわちOpen Neural Network Exchangeというものを発表した。機械学習のデベロッパーはこのツールを使って、PyTorchとCaffe2のあいだでモデルを互いに変換し、研究開発や実装に要する時間を節約できる。

Facebookは前から、機械学習に関してFAIRとAMLという二つのグループを区別している。Facebook AI ResearchすなわちFAIRは最先端の研究開発を担当し、Applied Machine Learning, AMLはさまざまなプロダクトにインテリジェンスを実装する。

この両者は、使用するディープラーニングフレームワークも異なる。FAIRはPyTorchを使い慣れているが、こちらはリソースの制約がないコンピューティング環境でもっとも高度な研究開発の成果を追究する。

しかしユーザーのスマートフォンやコンピューターには能力の制約が当然あるから、実装役のAMLは、リソースを有効利用できるよう最適化されているCaffe2を使う。とくにその実装系のCaffe2Goは、非力なモバイルデバイスの上で機械学習のモデルを使えるよう、最適化されているCaffe2だ。

FacebookとMicrosoftが今日発表したツールを使うと、PyTorchのモデルとCaffe2のモデルを互いに容易に変換できる。二つのフレームワークを容易に行き来できることにより、 研究の伝播を広く早くし、また商用化の過程もスピードアップできる。

しかしながら、すべての企業がPyTorch/Caffe2のペアを使っているわけではない。TensorFLowベースの研究はきわめて多いし、そのほかの重要なフレームワークも使われている。また機械学習の商用化のレベルでは、モデルを特定のデバイスに最適化されたフォーマットに容易に変換するための研究開発も行われている。

たとえばAppleのCoreMLは、ごく限られた数のモデルを変換できる。しかし現時点でCoreMLはTensorFlowすらサポートしていないし、コンバーターの自作はかなり難しそうだ。GoogleやAppleが、特定のハードウェア向けの、機械学習フレームワークの最適化をもっとサポートするようになると、今度はそれらの相互運用性が課題になってくる。

Open Neural Network Exchangeは、Githubのここでリリースされている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

両義的な文の機械翻訳で正しい訳語をガイドするGoogleのTransformerシステム

機械学習が翻訳にも大きく貢献することが実証されてきたが、弱点もある。たとえば翻訳モデルには、逐語主義(一語々々仕事をしていく)という性癖があり、それが深刻なエラーに導くこともある。Google Researchの今日(米国時間8/31)のブログ記事が、この問題の性質と、それに対する解決方法を詳述している。

同社の自然言語処理の部署にいるJakob Uszkoreitが、問題をうまく説明している。次のような二つのセンテンスがあるとしよう:

I arrived at the bank after crossing the street.

I arrived at the bank after crossing the river.

もちろん、これらの“bank”の意味は同じではない。でも、その意味はセンテンスを最後まで読まないと分からないから、アルゴリズムはこの語を拾ったとき間違った訳を与えるかもしれない。いろんな文章を注意して読むと、このような曖昧性は至るところにあることに気づく。

ぼくならセンテンスを書き換えるが(StrunkとWhiteはこれについて警告している)、もちろんそれは翻訳システムの能力にはない。また、このような曖昧なケースのすべてに対応できるように、ニューラルネットワークの振る舞いを変えることも、たいへんすぎて非現実的だ。

Googleのソリューションは、Attention Mechanismと呼ばれる。同社はそれを、Transformerと名付けたシステムへ実装した。それはセンテンス中の各語をすべてのその他の語と比較して、お互いのあいだにどれぐらい重要な影響関係があるか調べる。たとえば、“he”が話しているのか、“she”が話しているのか、それとも“bank”のような語に特別の意味があるのか…。

訳文を構築するとき、Attention Mechanismは各語を、他のすべての語の末尾につけた形で比較する。下のGIF画像は、その様子を表している。…ある程度はね。

今週のこの記事〔未訳〕を読まれた方は、すでにAttention Mechanismの用例をご存知だろう。その記事では協同ファウンダーが、この問題にはいちばん苦労した、と言っている。そして、Googleのポストが参考にしているコーネル大学のペーパーも教えてくれた。もちろん、Googleがそのペーパーの記述を模倣しているわけではない。しかしDeepLの実装はとても効果的で、Googleのよりも良いかもしれない。

Googleのやり方には、面白い副作用があって、システムのロジックをのぞき見できる: Transformerは各語に、すべてのほかの語との関連性をスコア(得点)で与える。下図では色の濃淡がスコアだが、左のセンテンスではitはanimalとの関連性が濃く、右のセンテンスではitはstreetとの関連性が濃い: 〔tired(疲れている)のはanimal、wid(広い)のはstreetだ〕

これは、うまいやり方だよね。少なくともぼくは、そう思う。この例では“it”がstreetかanimalかに関して曖昧性があり、最後の語を知らないとどっちが正しいか分からない。人間は教わらなくても分かるが、機械には、何でも教えなければならないのだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

IntelがMovidius Myriad Xを発表、ディープラーニング機能が組み込まれたコンピュータービジョンチップだ

IntelはMovidius買収1周年を迎え、新しいチップMyriad Xを披露した。

Myriad Xは一見、Myriad 2の「Pro」バージョンのように見えるものの、コンピュータビジョンを意識したチップとして大幅に再設計が行われたものだ。その新しい「Neural Compute Engine」を使って、新しく洗練されたディープラーニング機能を提供する。このことによって、Myriad Xを搭載したデバイスが環境からの情報を解釈することが容易になる。

Intel Movidiusの幹部Remi El-Ouazzaneは「このデバイスに直接埋め込まれた高速なインテリジェンスを使うことで、私たちの世界をより安全で、より生産的で、そしてよりパーソナルなものにする可能性は無限に広がります」と、ブログに投稿した

専用のコンピュータビジョンチップは、ほぼすべての電子デバイスで利用できると思われるが、Movidius Myriadチップを実装するインテルの主な目的は、ドローン、VR/ARヘッドセット、ロボット、そしてスマートカメラなどへの応用である。低消費電力SoCにより、デバイスは環境内のオブジェクトを識別し、変化を迅速に検知することに、より多くの能力を振り向けることができる。

Myriad 2は1秒間に約1〜1.5兆回の処理を実行したが、Myriad Xは1秒間に4兆回の処理を行なうことができる。より現実的な観点からすれば、インテルの最新のMovidiusチップを搭載したスマートなビデオカメラは、単に写真に人物がいるかどうかを認識できるだけではなく、その性別や年齢も識別できる可能性があるということだ。Neural Compute Engineは、相当に重い画像処理をエッジで行うことを可能にする。

このAIに最適化されたVPU(visual processing unit:視覚処理装置)は、コンピュータビジョンSoCでAIとディープラーニングにどのようにアプローチしていくかというMovidiusの野望を、Intelの買収がどのように拡大したかを良く示すものだ。

最新のMyriad 2チップは、引き続きIntelのビジュアル処理部品として大きな部分を占める。同社は価格設定について直接コメントしていないが、Myriad Xは間違いなくデバイスメーカーにとってより高価なオプションになるだろう。

[ 原文へ ]
(翻訳:Sako)

Microsoftがディープラーニングを超高速化するFPGAシステムBrainwaveをベンチマーク結果と共に発表

今日(米国時間8/22)の午後Microsoftは、クラウド上で遅延のほとんどないディープラーニングを動かせるFPGAベースのシステム、Brainwaveを発表した。初期のベンチマークによると、IntelのStratix 10 FPGAsを使った場合Brainwaveは、大きなGated Recurrent Unit(GRU)の上でバッチなしで39.5 Teraflopsを維持できる。

MicrosoftはこれまでFPGAに注力し、FPGAの大きなクラスターを同社のデータセンターでデプロイしている。アルゴリズムはFPGAに書き込まれ、高い効率を得るとともに、プログラムの書き換えを容易にしている。FPGAのこのような専用化により、機械学習、とくにそのための並列処理が効率化される、と期待されている。

これらの成果を踏まえてMicrosoftは、FPGA中へ専用プロセッサーDPU(Dataflow Computing Unit)ないしDNN(Deep Neural Network)プロセシングユニットを合成した。このようにディープニューラルネットワークにフォーカスすることによってMicrosoftは、そのインフラストラクチャを研究のニーズに応じて高速化し、リアルタイムに近い処理を提供できる、と期待している。

FPGA自体はレトロな技術だが、最近ではその開発対応の素早さが見直されている。FPGAに取り憑かれているかのようなスタートアップMipsologyは、Amazonと密接に協働して、Amazon Web Servicesやそのほかのプラットホームでその技術を使えるよう、努めている。

これまでの数十年間が汎用CPUとその進化の過程だったとすると、最近の数か月は汎用の逆の、特定のタスクに秀でたカスタムチップに開発の主力が移行している。そして中でもとくにその注力が厚いのが、機械学習のための専用チップだ。

いちばん知名度が高いのが、GoogleのTensor Processing Unit、TPUだ。このチップはTensorFlow向けに最適化され、初期のベンチマークは将来有望と見なせる結果だった。しかしそのほかの主要テクノロジー企業も、その多くがサイドプロジェクトとして未来のコンピューティング、量子チップやFPGAなどに取り組んでいる。そして大企業がそうなら、スタートアップもそのゲームに参加しようとする。RigettiMythicWaveなどが、そんなスタートアップの例だ。

BrainwaveがMicrosoft Azureの顧客にいつから提供されるのか、それはまだ不明だ。現時点でこのシステムは、人気の高いGoogleのTensorFlowと、MicrosoftのCNTKに対応している。同社はこの技術を利用して、ディープラーニングのパフォーマンスを画期的に向上させるつもりだから、今後もさまざまなベンチマークが相次いで発表されることだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

IBMがディープラーニングのモデルの訓練を分散並列処理で短時間化するライブラリを発表

二か月前にFacebookのAI研究所FAIRが、大規模な分散ビジュアル認識モデルの、かなり感動的な(==短い、はやい)訓練時間を発表した。今日(米国時間8/7)はIBMが反撃に出て、独自の数字を発表した。IBMの研究グループによると、1000のクラスに対応する画像分類モデルResNet-50を、256のGPUを使用するシステムで50分で訓練できた。つまり、Facebookのモデルよりもはやい、と言いたいのだ。FacebookがCaffe2を使った結果では、同じResNet-50を、8kのミニバッチ方式で、256のGPU上で1時間で訓練できた。

しかしそもそも、それのどこが重要なのか? 分散処理はAIの研究でも重要な関連分野だが、でもそれは、科学的というより、あまりにも技術的なテーマだ。しかもディープラーニングのような大きなジョブは、ジョブを分割し、複数のCPU(ここではGPU)に分担させて同時並行的にやるのが、大規模高速コンピューティングの昔からの定石だ。

しかしディープラーニングのモデルの訓練では、GPUの台数と処理速度が単純に比例しない。1台のGPUで2分かかる訓練が、2台のGPUだと1分で済むか、というとそうは行かない。タスクの分割と結果の再結合という面倒な処理が、かなりの時間を食う。

IBMが約束しているのは、大きなディープラーニングの問題を数百の小さな問題に分割して効率的に行う、分散ディープラーニングライブラリだ。それらは単一のコンピューティングジョブが目的ではなくて、IBMやFacebookが毎日のようにやっているのは、何百万もの顧客のためのモデルの訓練だ。大手のテクノロジー企業はどこもそんな課題を抱えているが、企業により問題により変数の数や性質が異なるため、それらを単純に横並びで比較することはできない。

しかし、分散処理の漸進的な改良にもそろそろ限界があるのではないか。IBM Researchでシステムのスピードとメモリを担当しているディレクターHillery Hunteによると、今やどこも最適解に近づいている、という。

“今やシステムの能力の限界まで来ているから、最適解に近いと言える。今後の改良の大きさがどの程度になるのか、そもそも学習時間にこれ以上の改良は可能なのか、そろそろ問うてみる必要がある”。

IBMは今後ResNet-50だけでなくResNet-101も分散訓練を試してみる予定だ。101は50よりもずっと大きくて複雑なビジュアル認識のモデルだ。チームによると、GPU 256基の分散システムの上で、データセットとしてImageNet-22kを使って行ったResNet-101の訓練では7時間を要した。それは、かなり良好な結果だそうだ。

“この分散訓練は小さなシステムにもメリットはある”、とHunterは言う。“しかもGPUが256とか、システムが64までは(小さなシステムでは)要らないからね”。

このディープラーニングライブラリは、TensorFlowやCaffe、Torchなど、主なオープンソースのディープラーニングフレームワークで利用できる。自分で試してみたい方は、PowerAIから入手できる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

目の画像だけからVR体験中のユーザーの気分や感情を判断するディープラーニング技術

[↑幸せ: 確率0.90]

目を見れば、それが本当の笑いか分かる、とよく言われる。もちろんその言葉は、私たち人間には、偽(にせ)笑いという、生得ではなく学習によって身につけるスキルがあることを、意味しているにすぎない。でも、人間の眼球に微妙な表現力があることが、役に立つこともある。VRの研究者たちが、目の画像だけから表情全体を推測する技術を編み出したのだ。

Google Researchが発表したその、おもしろい小さなプロジェクトは、VRヘッドセットを装着した人間の目だけを見て、表情を判断する。開かれた目の形、視線の方向、まぶたの状態、目尻の皺(がある人の場合)などなどを総合すると、実は相当大量の情報がそこにはあるのだ。

[↓無感情: 確率0.91]

ディープラーニングのシステムにとっては、いくつかのベーシックな表情と、その程度・度合いを表す測度があれば十分だ。たとえばそこには、“幸せ(Happiness)”や“驚き(Surprise)”があるだろう。ベーシックとは言えない“schadenfreude”(ひとの不幸を喜ぶ)や“mischief”(おちゃめ)などは、もっと学習しないとだめだけど。

もちろん実用化のためには、ヘッドセットの中にアイトラッキングのカメラが必要だ。そうすれば、ユーザーの今の気持ちや感情がリアルタイムで分かるようになる。

この研究を記したペーパーもあるし、それを近く開催されるSIGGRAPHで見ることもできる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

Qualcommのモバイルチップ化したディープラーニングフレームワークが完全にオープン化

モバイルのチップメーカーQualcommは、あらゆる種類のデバイスの上でディープラーニングを利用するソフトウェアの開発ができるようにしたい。同社がそのSnapdragonシリーズのモバイルプロセッサー用にNeural Processing Engine(NPE)を作ったのも、そのためだ。そのNPEのソフトウェア開発キットを、誰もがQualcomm Developer Networkから入手できるようになった。これはそのSDKの最初の一般公開リリースで、スマートフォンや車載プラットホームなど、さまざまなデバイスの上で行うAIコンピューティングの、大きなそして多様な可能性を開くものだ。

このフレームワークの目的は、SnapchatやFacebookなどがモバイルのカメラアプリでやっているような画像のスタイル変換〔eg.“ゴッホふう”〕や各種のフィルタなどのUXの実装を簡単に可能にし、ユーザーの写真に対するもっと精度の高いアプリケーションを作れるようにすること。また、シーン検出や顔認識、オブジェクトの追跡や回避、自然言語処理といった各種のファンクションをディープラーニングのアルゴリズムによって高性能にすることも、目的に含まれる。要するに、これまでは強力なクラウドサーバーや先進的なプロセスにお願いしていたようなタスクを、デバイス上でローカルにできるようにしたいのだ。

NPEの初期的アクセスを獲得したデベロッパーの中にはFacebookもおり、同社はすでに画像やライブビデオ上のARの性能を、QualcommのSnapdragon SoC上のAdreno GPUを使って従来の5倍にすることに成功している。

NPEはTensorflowやCaffe2など一般的によく使われている一連のディープラーニングフレームワークをサポートし、Snapdragon 600/800シリーズのプロセッサープラットホームで使用できる。

今後ますます多くのテクノロジー企業がAIベースの計算機能をリモートサーバーからローカルなプラットホームへ移して、信頼性を高めるとともにネットワーク関連の面倒な要件から逃れようとするだろう。そうなるとこれはQualcommにとって巨大な財産になり、モバイルの次に優勢になるテクノロジーのトレンドが何であれ、それに乗り遅れるおそれはなくなるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

ディープラーニングエンジンをUSBチップ化してエッジコンピューティングをサポートするMovidius、Intelに買われてから快調

MovidiusとIntelが79ドルの小さなUSBスティックに、ディープラーニングを収めた。これでハードウェアのAI化が、超簡単になる。

昨年の4月にMovidiusは、このデバイスの最初の試作機を披露した。当時の名前はFathom Neural Compute Stickだったが、結局発売まではこぎつけず、同社はその後、Intelに買収されることに忙殺された。

Movidiusの長年の目標は、このような画像を扱うディープラーニングを、同社のビジュアルプロセシングユニット(VPU) Myriad 2を使ってクラウドからエッジへ移すことだった。そのチップは、セキュリティカメラやドローン、ARヘッドセットなど、至るところで使われ、まわりのいろんなものを認識していた。

今回Movidius Neural Computer Stickと名前を改めた製品は、同社のそんなVPUをUSB 3.0のスティックに放り込んで、デベロッパーや研究者たちが、プロトタイピングやヴァリデーション、推論などのアプリケーションをオフラインでデプロイできるようにする。クラウド依存に比べると、レイテンシも電力消費も一挙に激減する。

これをRaspberry Piのような定置型(notモバイル)のコンピューターに接続すると、そのデバイスがプル&プレイのインテリジェンスを持つ。実はこのニュースは、Intelが自社のコンピュートモジュールEdison, Joule, Galileoから手を引いたと報じられてからちょうど1か月後に出てきたのだ。

買収されたことによってMovidiusの自由度が増し、ひとつのデバイスに複数のスティックをプラグインして強力なディープラーニング能力を持たせる、なんてこともできるようになった。製造環境も断然良くなったため、お値段もかつての99ドルから79ドルに下げることができた。量産も、完全にOKだ。

さっそく買ってみたい人は、RS ComponentsMouserへどうぞ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))

企業の非技術系一般社員でも機械学習を利用できるようにするH2O.aiのDriverless AI

Driverless AIH2O.aiの最新のプロダクトで、企業におけるデータサイエンスの活用の、敷居を低くすることをねらっている。このツールは、非技術系の社員たちを助けて、データの準備、パラメータの調整、当面の問題に対する最適アルゴリズムの判断などのタスクを、機械学習を利用して行う。

機械学習で解こうとする問題は、研究者のレベルでは複雑で予測不可能なものが多い。前例のないユースケースでGANや強化学習などの新しい技法を使っていくためには、高い技術力が必要だ。しかし企業が機械学習を使っていく場合は、比較的予測可能な問題が多い。たとえばサポートベクターマシンを使ってデフォルト率を評価する、など。

でも、そんな比較的簡単な問題でも、非技術系の社員の手には負えないことがある。企業は営業や人事など、データ分析とは無縁だった分野でも、最近ますますデータサイエンスを利用しようとしているが、そのために彼らを再教育するのはコスト的にたいへんすぎる。

H2O.aiのプロダクトはどれもAIを使いやすくしてくれるが、でもDriverless AI(運転者不要のAI)はさらに一歩進んで、モデルを準備するときに必要な難しい決定の多くを自動化する。Driverless AIは、feature engineering(特徴量工学、特徴量の選択・作成・変換)を自動化する。特徴量とは、いろんな変数/変量がある中で、モデルの構築に利用すべき重要な変数変量のことだ。

Driverless AIにはよく使われるユースケースが組み込まれているが、どんな機械学習の問題でも解ける。うまくいけば標準的なモデルを見つけて十分にチューニングし、そのロングテールの少なくとも一部を自動化する。

同社は1月にDeep Waterをローンチしたとき、今日のリリースを暗示した。Deep Waterは、ディープラーニングとGPUを一般ユーザーが利用するためのプラットホームだ。

機械学習による自動化は、まだまだ初期的段階だ。GoogleのCEO Sundar Pichai は今年のI/Oカンファレンスで、試行錯誤と大量の計算処理で機械学習の問題を解くための、最良のモデルと特徴を自動的に選び出すAIツールを作っていると述べて、会場をどよめかせた。

Driverless AIはAIを非技術系ユーザーのために民主化し抽象化する旅路の第一歩だ。ダウンロードして実験してみたい人は、ここからどうぞ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa))