Lobeで機械学習利用アプリを誰でも簡単に開発できる――デモではジェスチャーを絵文字に変換

機械学習はトレンドだ。CERNの素粒子の探求からGoogleによる人間の声の合成まであらゆる場所に用いられている。ただしハードルが高い。 しかしビデオ編集、音声編集の実際の動作は複雑きわまるものだが、好奇心さえあれば子供でも手を出せるくらい優れたUIが数多く実用化されている。

それなら機械学習でも同じことができるはずだ、というのがLobeのファウンダーたちのコンセプトだ。LobeはLEGOブロックを組み合わせるのと同じくらい簡単に機械学習モデルを作れるようにするプラットフォームを提供するスタートアップだ。

共同ファウンダーの一人でこれまでの各種の優れたデジタル・インターフェイスをデザイナンしてきたMike Matasに話を聞くことができた。Matasはこのプラットフォームの目的や開発の動機について話をしてくた。

「これまでもAIを使ったらこんなことができるはずだというアイディアを思いつくものの、実行するのに十分な知識がないという状況が多々あった。いくらいいアイディアでもAI専門家のチームを雇うことできなければ意味がなかった」とMatasは言う。

実は彼自身、こういう状況を経験した。

そこで私は自分でAIモデルを作れるものか調べてみた。たしかに入り口にはたくさんの術語、フレームワーク、数学といった難題が立ちふさがっていた。しかしそこをなんとかくぐり抜けると、コンセプト自体は直感的に理解しやすいものだった。機械学習は人間にものを教えるのと基本的に同じやり方だから、普通のプログラミングよりやさしいぐらいだ

そうは言っても術語は難解だし、開発デバイスはまだまだ荒削りだった。機械学習は強力な手法だが、UIとしてはまだPhotoshopで画像編集をするようなレベルになっていなかった。

これまでの機械学習ではいろいろな要素を自分で組み合わせる必要があった。ダウンロードが必要なコードが多数あった。実は私もフレームワークを始めとしてダウンロードして組み合わせなければならないソフトウェアの数があまりに多く、ので嫌になった。私はUIデザイナーなので、それならこういう複雑な状況を整理して誰でも理解できるようなUIを構築するチャンスではないかと考えた

MatasとMarkus Beissinger、Adam Mengesが共同ファウンダーとなってスタートさせたLobeは機械学習を利用して大量のデータから意味のある特徴を抽出し、ラベル付けするための直感的に理解しやすいビジュアルなインターフェイスを作っている。下にエンベッドしたデモ・ビデオでは、手のジェスチャーをカメラで読み取って絵文字に変換するアプリを作るプロセスが詳しく紹介されている。アプリを開発するのにコンピューター言語の知識は必要ない。コードの処理は1行も出てこない。ましてコードを書く必要はない。もちろん必要なら(また能力があれば)詳細レベルに立ち入って調整することはできる。Lobeのプラットフォームは非常に使いやすく、処理も高速だ。十分なデータがあり機械学習による処理の可能性を感じているものの技術的ノウハウがないユーザーが簡単に新しいアプリを開発する可能性を開くものだろう。

Matasはこの状況をパソコンの初期に例える。

それまでコンピューターを扱えるのは専門のエンジニアと計算機科学者だけだった。「専門家しかコンピューターを扱えなければコンピューターの利用法を考えられるのも専門家だけになる。しかし80年代の後半になるとコンピューターにはクリエーティブな使い方が数多く登場した。それは大部分UIの改良によるものだった。

Matasは機械学習に関しても使いやすいUIの登場によって入門のハードルが下がれば新しいアプリが洪水のように登場するとみている。「データサイエンス以外のフィールドの人々も自分たちの課題に機械学習が適用できると考え始めている。しかも今後はアイディアからプロトタイプを作ることを機械学習専門家の手を借りず、自分たちでできるようになる」という。

機械学習の応用が期待される分野は無数にあるが、Lobeでは簡単なモジュールで計測認識、ジェスチャー認識、読唇術、花びらのような対象をリアルに再現するなど多数のアプリが可能となることを示している。学習のベースとなるデータはユーザーが用意しなければならない。しかし機械学習で処理するのは今後は困難な部分ではでなくなるという。

機械学習コミュニティーはオープンソースに徹することをモットーとしている。 Lobeも独自のAPIを通じてLobeのサーバーでしか作動しないようなモデルは採用していない。「LobeのアーキテクチャはTensorflowのようなオープン規格をベースとしている。Lobeで学習、テスト、調整などをした後は、どんなプラットフォーム向けにもコンパイルして作動させることができる」ということだ。

現在Lobeはまだクローズド・ベータの段階だ。 「問い合わせが殺到している。強い関心を呼んでいるのは確かだ。公開は徐々にしていくが、できるかぎり小さく始めるつもりだ。われわれは急がず身の丈にあったやり方をしていく」とMatasは語った。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Microsoft翻訳が新AIアルゴリズムでオフライン化――サードパーティーのデベロッパーも利用可能

外国に旅行するとき自動翻訳アプリをインストールしていく人は多いだろう。しかしいざというときにインターネット接続がなかったら? 旅行先ではありがちだ。たいていの翻訳アプリはオフラインでも作動する。しかし高度な、ということはつまり処理量の大きいクラウド上の機械学習アルゴリズムを利用することができない。これまではMicrosoft Translatorもその例にもれなかった。

しかし今日(米国時間4/18)からAmazon FireAndroidiOSのアプリはオフラインでも(多少の変更は行われているものの)ニューラルネットワークを用いた翻訳が実行できるようになる(iOSユーザーあと数日待つ必要あある。現在アプリをAppleがレビュー中)。

このアップデートで興味深いのはMicrosoftがどんなプラットフォームでもAI処理を実行できるということだ。これまでのようにAI処理専用のカスタムチップを必要としない。

Microsoftの Arul Menezesは私の取材に対して、「新しい翻訳アプリは劇的に改良されている」と答えた。従来のアプリが依拠していた古い機械学習が不自然な文を生成しがちだったのに対して、今回のバージョンで採用された新しい機械学習のアプローチははるかに優れているという。しかもアプリのサイズも従来の半分だ。現在対応言語はアラビア語、簡体字中国語、フランス語、ドイツ語、イタリア語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語、タイ語だが、今後さらに言語を増やしていくという。

Menezesによれば、Microsoftはこのローカルデバイス上のニューラルネット翻訳をHuaweiと共同で昨年から開発を始めたのだという。当初、Mate 10と Honor 10のAIコ・プロセッサを利用したが、Menezesによれば「細心の注意を払ったエンジニアリング」のおかげで開発チームはAI専用チップの必要を失くすことができた。

またデータセンターのサーバーに比べればモバイル・デバイスの能力は限定的なのでチームはモデルを多少スケールダウンせざるを得なかった。つまりオフラインで翻訳をさせた場合、オンラインの品質に達していない場合があり得る。しかしMicrosoftでは「オンラインとオフラインの翻訳品質の差はほとんど気づかれない程度だ」と述べている。「新しいニューラル翻訳はオフラインであってもわれわれの古いオンライン翻訳をはるかに上回っている。その差は大きい」という。MenezesはMicrosoft翻訳をGoogle翻訳と比べることもためらわなかった。

今回のアップデートでオフライン翻訳が可能になったが、同時に、Microsoftは他のAndroidアプリのデベロッパーにもこの能力を開放していく(もちろん有料だろう)。つまりサードパーティーのアプリはバックグラウンドでMicrosoftの翻訳アプリを呼び出し、翻訳を実行させ、表示することができる。オフラインであれば、アプリは翻訳アプリをオフラインで動かし、オンラインであればクラウド上で実行し、結果を受け取ることになる。

画像:Christophe Morin/IP3 / Getty Images

[原文へ]

(翻訳:滑川海彦@Facebook Google+

人工知能でスーパーマーケットの陳列棚はどう変わるか

(編集部注:本稿を執筆したJoseph Byrumは、Principal Financial Groupのチーフ・データサイエンティストだ。彼は遺伝学の博士号を保有している)

人工知能は、AlexaやSiriに「電気をつけて」とお願いしたり、「後で牛乳を買う」といった用件をリマインダー設定したりするためだけのものではない。

実際、人工知能や機械学習が本領を発揮するのは、それまで少数の専門家しかできなかったようなことを、誰でもできるようにすることにある。その結果、無人自動運転の車でスーパーマーケットに行くと、そこでは高品質の食材がこれまでにない低価格で売られている、というようなことになるかももしれない。

それは、膨大な量のデータを取り込んでパターンを見つけ出し、どういう行動をとればよりいい結果が得られるのかを統計学的に考えることで実現する。

例えば、Googleの自動運転車は路上で起こり得るあらゆることを分類するのに機械学習を用いている。車が走っているレーンの前方に、搭載するセンサーがゴミ収集トラックを認識したとき、多くの場合はウィンカーで合図を出すことなくトラックを避けるためにレーンを変更する。そうしたパターンをGoogleの自動運転車は情報として蓄積する。そして、ウィンカー合図なしのレーン変更が招くかもしれない事故の可能性を最小限に抑えようと走行レーンやスピードなどを調整するようになる。

危険を予知しながらの運転は、多くの人にとっては当たり前のものだ。しかし、数年前までこうした技術を機械に持たせることは考えられなかった。ハンドルを握る人の運転レベルはさまざまで、交通よりスマホに注意を向けているドライバーだっている。そうしたカオスを呈している交通状況に、機械はいま強力なアルゴリズムで対応できるようになった。

人工知能と農業

驚くかもしれないが、機械学習を農業に応用することは桁違いに難しい。例えば、交通網であれば地図という確固とした情報がある。頻繁に変更されることはなく、アルゴリズムはこの情報をもとに判断を下せる。

だが農業ではそうはいかない。素人目には問題ないように見える小麦畑でも、実際のところはカオスだ。天候は予測がつかず、土壌の状態も変わるし、いつ害虫や病害が発生するかわからない。同じ畑の中でも場所によってコンディションは変わってくる。当然のことながら、農家は最終的に収穫するまでどれくらいの収量になるかわからないのだ。

農業向けAIシステムは成長の可能性大

ある作物のタネをアイオワの畑にまくとしよう。そして同じタネをブラジルにもまく。その栽培結果はおそらくまったく異なるものになるだろう。もし同じだったとしても、次に実験すると結果は違うものになるかもしれない。作物栽培には土壌の栄養状態、天気、降水量、気温、害虫の有無といったさまざまな要素が絡んでいるためだ。

そうしたカオスをさばくのに機械学習は力を発揮する。畑に設置したリモートセンサーは、畑がどういう状況にあるのか統計データとして情報収集する。そのデータをアルゴリズムにかけると、最も考えられる収穫結果を予想する。

こうしたAIアルゴリズムを利用すれば、農家は収穫量を増やすために適宜手を加えることができる。育種家であれば、作物の品種改良にAIアルゴリズムを活用することができる。結果として、スーパーに並ぶ商品の価格を下げることにつながるはずだ。

農業の専門的ノウハウを誰でも使えるように

今までの農業のあり方を考えると、AIの活用は変革と言ってもいいだろう。何世紀にもわたり、農家は作物を栽培するのに勘に頼ってきた。長年の経験に基づいて、何が最善の策なのか直感的にわかるのだ。農家がコンピューターを活用したがらなかったのではなく、当初コンピューターは完全に役に立つものではなかった。二値論理をとる初期のコンピューターは、極めて流動的な要素を抱える農業に適していなかったのだ。

それゆえに、農家は経験に頼らざるを得なかった。しかし、もし経験のない農家でも状況に応じて正しく判断し、栽培できるようになったらどうなるだろう。これは、経験を積んだ農家が少ない発展途上国においては特に重要な意味を持ってくる。

管理型農業の導入の高まりは、機械学習のメリットを広く浸透させることにつながるだろう。リモートセンサー、衛星、無人航空機を使えば、作物の状態、土壌のコンディション、気温、湿度など、農地の情報を24時間いつでも収集できる。情報は膨大な量となるが、アルゴリズムがそれらを処理し、使えるデータにしてくれる。

次の課題は、集めたデータを活用し、どうすれば収穫量を確実なものにできるか、その答えに導くようなアルゴリズムを開発することだ。これが実現すれば、栽培にかかるコストを抑制でき、結果として消費者が恩恵を受ける。

AIで品種改良も

農業においては、何世紀にもわたって作物が干ばつや害虫に強くなるよう、品種改良が行われてきたが、この分野にも機械学習アルゴリズムを応用できる。これまでの品種改良といえば、作物の外観や、日持ち、味をよくするために、一番いい品種を掛け合わせるというものだった。しかしAIを活用すると、強い品種を選ぶため、それに伴い収穫量も増える。

機械学習は、どの作物を植え、どの新品種をテストすべきかといった面でもアドバイスしてくれる。人間が試行錯誤するプロセスをアルゴリズムは短縮することができ、改良した作物が実際に栽培され、そしてスーパーに並べられるのがこれまでになく早くなる。繰り返しになるが、機械学習の活用で作物は高品質になり、値段は下がる。

農業分野でのAIシステムはかなり成長する可能性を秘めている。アルゴリズムが賢くなればなるほど、その恩恵はスーパーに現れるはずだ。

[原文へ]

(翻訳: Nariko Mizoguchi)

あなたの頭の中の言葉を読み取るマシンをMITのチームが開発、すでに確度92%

音声コンピューティングには、大きな問題がつきまとっている。まわりにほかの人たちがいるところで音声アシスタントに話しかけたら、たいがいおかしな結果になるだろう。音声コンピューティングが家の中で普及し始めたのには、理由がある。家の中なら、マシンに話しかけるとき、あまり自分を意識せずにすむからだ。

言葉を使わない、マシンに話しかけないデバイスが登場してきたのも、必然的なことだ。あるMITのチームもそんなデバイスに挑戦しているが、しかしそのハードウェアはまだ、完全に自分を意識しないで使えるところまでは、行ってないようだ。

そのAlterEgoと名付けられたデバイスは、頭に、というより顎(あご)に装着する。そしてその電極が、神経筋の信号を読む。それにより、“頭の中の言葉”を読める、という。

“知性拡張(intelligence-augmentation)デバイス、略してIAデバイスを作りたい”、と院生のArnav Kapurがニューズリリースで言っている。“人間の外部ではなく、内部にあるコンピューティングプラットホームを、作れないものだろうか。人間とマシンが融合して、まるで自分の意識の延長のように感じられるコンピューターを作れるはずだ”。

これまで10名の被験者がそれぞれ、そのマシンが自分の神経を読めるようになるまで訓練した。一定の調整を経てそれは、92%の確度でコマンドを読めるようになった。92%なら、ぼくが今使ってる音声アシスタントといい勝負だ。

機械が自分の頭の中の言葉を読む、という一種の気持ち悪さを克服できたら、このようなデバイスは消費者にさまざまな利便性をもたらすだろう。中世の歯科医の道具のような外観も、なんとかしてほしいね。チームは今、骨伝導によるオーディオ再生に取り組んでおり、それが完成したらシステムを完全に無音にできる。そして、もっと特殊な目的にも使えるようになるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Linux Foundationにディープラーニングのオープンソース団体が加わる

名前はLinuxでも、Linux Foundationかなり前から、Linuxのためだけの団体ではない。今ではCloud Foundry, Automotive Grade Linux Initiative, Cloud Native Computing Foundationなど、さまざまなオープンソースの財団やプロジェクトを支えている。そして今日(米国時間3/26)Linux Foundationにはさらにもうひとつの財団、LF Deep Learning Foundationのサポートが加わった

LF Deep Learning Foundationの目的は、“人工知能や機械学習、およびディープラーニングのオープンソースのイノベーションをサポートして支え、これらの重要な技術を世界中のデベロッパーとデータサイエンティストにとって可利用にすること”だ。

創設メンバーは、Amdocs, AT&T, B.Yond, Baidu, Huawei, Nokia, Tech Mahindra, Tencent, Univa, そしてZTEだ。今後、さらに増えていくであろう。

The Linux Foundationの事務局長Jim Zemlinはこう述べている: “AIや機械学習およびディープラーニングのエコシステムにおける多くのプロジェクトに長期的な戦略と支援を提供し続けることを目的とする団体をご提供できることは、きわめて喜ばしい”。

同団体の最初の公式プロジェクトはAcumos AI Projectで、これはLinux Foundationがすでにホストしている、AT&TとTech Mahindraのコラボレーションだ。Acumos AIは、AIのモデルとワークフローを開発、発見、そして共有するためのプラットホームだ。

Linux Foundationが支えるそのほかの団体と同じく、LF Deep Learning Foundationもさまざまなレベルの会員資格を支援企業に提供し、また非営利団体も会員として受け入れる。LF Deep Learningの会員は、同時にLinux Foundationの会員にもなる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

売上と共に増大するテクノロジー企業の社会的責任

主要プラットフォームが成長を続けるなか、FacebookやApple、Google、Amazonをはじめとする大手企業は人類全体にまで影響を及ぼすようになった。そしてその影響はポジティブなこともあれば、そうとは言えないときもある。

そのため大手のプラットフォーマーは、ユーザーの行動を把握するだけでなく、どんな場合にユーザー(もしくはプラットフォーマー自身)が不正をはたらいたり、悪意を持ってサービスを操作したりするか、ということを理解しなければならない。同様に、AIのような個別のテクノロジーやそのほかの先進的な技術、そしてそれらの影響についても各企業が責任を負わなければならないのだ。

これこそが、テキサス州オースティンで先週行われたSouth by Southwest(SXSW)に共通するテーマだった。

勢いを増すAI議論

先述の通り、各プラットフォームがこの問題に深く関わっている一方で、テック界のアイコン的存在であるイーロン・マスクは、SXSWのQ&Aセッションのなかで、AIの暴走に対して不安の声を挙げた。彼は、狭義の意味での(そしてあまり賢くない)AIの時代が近いうちに終りを迎え、もっと汎用性の高いAIの時代が訪れると考えているのだ。特にマスクは、強力なAIが発展をとげるうちに、いずれ人間と同じような能力を持った機械が誕生することを懸念している。なお、既に弊誌のJon Shieverが指摘している通り、もちろんマスク自身は自らが構築してきた企業群を、来るべき終末の時への対策として考えているようだ。

SXSWに登壇したイーロン・マスクとJonathan Nolan(Photo: Getty Images/Chris Saucedo)

「狭義の意味でのAIは種の存続を脅かすレベルのものではなく、その影響はスキルの転移や職業の喪失、兵力の増強といった程度――つまり人間の存在を揺るがすような根本的な影響力は狭義のAIにはない。しかしデジタル・スーパー・インテリジェンスについてはそうは言えない」とオーディエンスに向かって語ったマスク。

さらに彼は、人類への影響という点において、未来のAIは核兵器をも上回るかもしれないと述べた。

テック企業の責任

あなたがマスクの意見に賛同するにしろしないにしろ、はたまた彼が自分のビジネスを推進するために虫のいいことを言っていると考えているにしろ、マスクはテクノロジー界のスタートアップ、そして大手起業が共に考えなければならない責任について触れていると言えるのではないだろうか。

少なくとも、CNNのDylan ByersとSXSWのステージに上がったAppleのEddy Cueはそう考えているようだ。彼はインタビューのなかで「テクノロジーは人類の可能性を広げる素晴らしいものだが、それ自体が善というわけではない。つまりテクノロジーを生み出す人たちがその方向性を決めるのだ」と語った。

確かにTwitterの共同創業者たちは、10年以上前に同サービスを作ったときに、そのうちボットが誕生して選挙に影響を与えることになるとは思ってもいなかっただろう。しかし時間の経過とともに、Twitterだけでなく主要プラットフォームすべてに関し、ユーザーはさまざまな動機を持ってサービスを利用しているということが明らかになった。そして各プラットフォーマーは、一部のユーザーが他の人たちを操作するためにサービスを使っていることがわかった時点で、何かしらの対策をとらなくならなければいけなくなったのだ。

SXSWの壇上で話すAppleのEddy Cue(Photo: Ron Miller)

ByersがApple以外の企業について何度も質問したにもかかわらず、CueはFacebookやGoogleといった企業の内情については知らないため、彼自身はAppleについてしか話すことができないとその質問をかわした(Cueは具体的な競合の名前さえ挙げなかった)。「Appleはあなた(Byers)が挙げたような企業とは違う。私たちは顧客のプライバシーを最重要事項として考えている」(Cue)。また彼は、Appleは広告企業ではないため、収集するデータの量もプラットフォーマーより少なく、「ユーザーの購買行動には興味がない」とさえ語った。

「フェイクニュース」対策としてのAI活用の課題に関するパネルディスカッション中には、Facebookのグローバル・ポリシー・ディベロップメント・チームのAndy O’Connellが、不正な操作が行われているとわかったときに、Facebookは何らかのアクションをとる責務を負っていると述べた。さらに、「フェイクニュースは社会全体の問題である一方で、私たちはテクノロジーの力を使って(その影響を抑える)対策を練っているほか、投資によって改善できる部分もある」と語ったO’Connel。彼によれば、Facebookの共同創業者・CEOマーク・ザッカーバーグは、プラットフォームの安全性を高める上でフェイクニュースの拡散が課題になっており、Facebookに流れ込む虚偽もしくは誤解を招くようなニュースの数を減らしていかなければならないと考えているようだ。

テクノロジーの限界

O’Connellの指摘通り、フェイクニュースはFacebookやテクノロジーの力だけでどうにかできるものではない。これは社会問題であり、社会全体が問題解決にあたらなければいけないのだ。もちろんテクノロジーがその助けになることもあるが、すべての問題についてテクノロジー頼みというわけにもいかない。ここで難しいのは、あるテクノロジーが誕生した時点では、それがどのような行動をとるかや、人がどのようにそのテクノロジーを使うかといったことを予測できないということだ。

(Photo: Ron Miller)

結局のところ、この記事で触れたような問題(なかには問題になるとさえ思われなかったものさえある)の解決は一筋縄ではいかない。どんなに善意を持って問題の解決にあたったとしても、すべてのアクションやその反応によって、さらに予想だにしない結果が生まれる可能性さえある。

しかし、あるテクノロジーがもたらす膨大な経済的利益や社会への影響に見合った責任を受け入れられるかどうかは、そのテクノロジーを生み出した企業にかかっている。この点についてCueは、「全員に(あるところで境界線をひく)責任がある。これこそAppleが行っていることであり、私たちがAppleという企業を運営する上で大切にしていることだ。今日の世界では誰もが責任を負わなければならず、私たちもそうしようとしている」と語った。

そうはいっても言うは易し行うは難し。暴走を止めるには十分な思慮や緻密さ、対応力が必要であり、ひとつひとつの決断がもたらす影響についても吟味しなければならない。

原文へ

(翻訳:Atsushi Yukutake

ELSAはAI利用の優れもの英語発音学習アプリ――資金調達に成功、創業者はベトナム出身女性

ELSAといっても『アナと雪の女王』のキャラクターではない。English Language Speech Assistantの頭文字で、AIを利用して各国の学習者が英語の正しい発音を習得する手助けをするアプリだ。このほどELSAは320万ドルの資金を調達することに成功した。

文法や語彙に重点を置く他の学習プラットフォームとは異なり、 ELSAではAIを利用した音声認識システムにより学習者の音声を解析してただしい発音を身につけられるようにする。

今回の320万ドルはいわゆるプレ-シリーズAで、シードラウンドとシリーズAの中間に位置する性格だ。ラウンドのリーダーはシンガポールに本拠を置き、東南アジアでこの種の投資を専門とするMonk’s Hill Venturesだ。同社の共同ファウンダー、パートナーのPeng T. Ongはこれを機にELSAの取締役に就任した。

ThELSAはサンフランシスコのスタートアップで、2015年にスタンフォード卒のVu Van(ELSA CEO)とDr. Xavier Anguera(AIと音声認識)によって創立され、2016年3月のSXSWでプロダクトがデビューした。その後、SXSWeduのローンチ・コンペで優勝している。

Vanは生まれ育ちともベトナムの女性だが、ELSAは自分が英語を習得した際の体験に基いて発想されたという。

Vanは「私はスタンフォード大学でMBAと教育学修士の資格を得るためにアメリカに移りました。スタンフォードでの最初の1年は語学の能力を身につけるための苦労の連続でした。言っているこを分かってくれないことがたびたびありました」という。

Vanは英語の読み書きにはあまり不自由しなかったが、通じる英語を話せるようになるために訛を減らす必要を感じた。ところがこれに適したプロダクトがほとんどなかった。

「ソリューションの数がとても少なかったのです。…スピーチ・セラピストに通えば発音を聞いて直してくれますが1時間に150ドルもかかります。 YouTubeやNetflixならそんなお金はかかりませんが一方通行で聞くだけです」という。

この経験がきっかけとなりVanはELSAの創立を思い立ったという。独自の音声認識テクノロジーを開発するためにこの分野の専門家、 Dr. Angueraが加わった。

ELSAアプリはiOSとAndroidからダウンロードできる。5分間の能力判定テストが用意され、ユーザーの学習段階に適したカリキュラムが作成される。

ELSAには600種類のレッスンがあり、家族や経歴などを含めた自己紹介や就職面接、ビジネス一般、旅行などさまざまな場面を想定し、3000語以上が用いられている。アプリは定期的にアップデートされ、季節(夏休みなど)や話題の映画(スターウォーズなど)に関連する話題が随時提供される。これは現実のコミュニケーションでも学習者を助けるだろう。

各レッスンは2分程度しかかからない。課題文は発音、語彙ともやさしいものから順次難しいものに移る。

ユーザーがマイクに向かって課題文を読み上げると、ELSAはAIで発音を解析し、一般的なアメリカ英語の発音をするためのヒントを示す。 ユーザーの発音の結果は赤、黄、緑などで成績が示されるのでわかりやすい。フィードバックには正しい発音をするための口の構えや舌の動かし方などのヒントも含まれる。

ELSAが開発したAIテクノロジーについてVanは「既存の音声認識テクノロジーは[ELSAとは]方向が違っていました。つまり話者の発音が違っていても意味をくみとろうとするわけです。ELSAが目指すのはその逆です」と説明する。

2年前に一般公開され以後、100以上の国で数百万のユーザーがELSAを使うようになった。現在ユーザーの半数は東南アジアから来ているが、ラテンアメリカや東欧などにも急速に普及しており、毎週数百万のレッスンが実行されている。

  1. progress.png

  2. assessment.png

  3. topic-view.png

  4. skill-view-2.png

  5. skill-view.png

  6. feedback-for-conversation.png

  7. dictionary.png

  8. wordfeedbackscreen.png

今回調達した資金はELSAを教室で使えるように拡張するために利用されるという。このツールでは教師はカリキュラムに応じて新しい文や単語を追加できる。APIの開発に加えて英語以外の他の言語の発音習得に役立つプラットフォームの開発も始めるという。またAI分野における人材獲得も行う。

現在ELSAは7日間の無料トライアルの後、月額3.99ドル(29.99/年)の有料購読というビジネスモデルを採用している。

ELSAアプリはiOSAndroidで利用できる。

〔日本版〕アプリを最初に開くと使用法が表示されるのでよく読み、順次右へスワイプする。タップして課題文を表示し、画面の指示によってマイク・アイコンをタップして課題文を読み上げるとELSAが成績を判定し、改善を要する点があれば具体的に指摘する。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

画像検索エンジン、Google LensがAndroidのGoogleフォトにやって来る

Googleのビジュアル検索エンジン、Google Lensは写真をスキャンして「何が写っているのか」を認識する。たとえば名刺をカメラで撮影するとLensは自動的に内容を認識し、連絡先に追加したりできる。

このGoogle LensがAndroidのGoogleフォトのユーザーに公開された。これはGoogleにとって最初の本格的なLensの普及の試みだ。これまでLens機能は最新のPixelスマートフォンでしか使えなかった。PixelではGoogle Assistantを通じてLensが利用できたが、他の機種のAndroidユーザーはアクセスできなかった。

GoogleではiOS版のGoogleフォトでもLensが「近々公開される」としているが、正確なスケジュールは明らかになっていない。

Lensは非便利であることもあれば、失望させられることもある。絶対に必要なツールかといえば今のところそこまでの完成度はないが、うまく作動するときはすばらしい能力を見せる。もちろんエッフェル塔の前に立っているときにGoogleレンズが「エッフェル塔です」と認識してくれても(時差ボケがよほどひどくない限り)それ自身ではあまり役に立たない。しかしいちいち文字を入力しなくても即座にエッフェル塔に関する詳細情報、歴史とか開館時間を知ることができるのは非常に便利だ(Googleマップからの検索でも有用な情報を手早く知ることができる)。

一方名刺スキャン能力はビジネスに大いに役立つ(相手が名刺の代わりにLinkedInのプロフィールで済ませている場合はダメだが)。

個人的にはLensの能力が不可欠だったという経験はまだしていない。最初は面白がってもやがて存在を忘れてしまいそうだ。しかしGoogleのことだから日々能力が改良されていくに違いない。やがて世界のどこで何を撮っても、名所であれレストランであれ、即座にそれが何であるか検索できるようになるのだろう。

画像: nurphoto/Getty Images

〔日本版〕右側のカット写真はサンフランシスコのテレグラフヒル地区の名所、コイト・タワー。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

5万件の画像タグ手打ちからファッションAI開発へ——ニューロープが5000万円を資金調達

2014年設立のニューロープは、ファッションに特化した人工知能によるサービスを展開する、ファッション×AIのスタートアップだ。同社は3月5日、Reality Accelerator大和企業投資、都築国際育英財団を引受先とした第三者割当増資等により、約5000万円を調達したことを明らかにした。

写真右から大和企業投資 仙石翔氏、Reality Accelerator 郡裕一氏、ニューロープ代表取締役 酒井聡氏とニューロープのメンバー

ニューロープは創業後、モデルやインスタグラマー約300人と提携して、コーディネートスナップを紹介するメディア「#CBK(カブキ)」をリリースした。“モデル着用アイテムに似たアイテムが買えるメディア”という点では、2017年10月にスタートトゥデイの傘下に入ったVASILYが提供する「SNAP by IQON」(2017年3月公開)と同様だが、カブキでは当初、写真に付けるアイテムタグを、なんと全て人力で入力していたそうだ。タグ付けしたリアルなスナップのデータは5万件にも及ぶという。

その後、登録されたデータを元にして、2015年10月からディープラーニングを活用したAI開発に着手。2017年4月、ファッションに特化した人工知能をリリースした。

ファッションとAIとは実は相性がよいらしく、スタートアップによるプロダクトもいろいろ出ている。先述したSNAP by IQONもインスタグラマーのコーディネートに似たアイテムを、ディープラーニングによる画像解析で探し出して購入できるサービスだし、SENSY(旧カラフル・ボード)も人工知能がスタイリングを提案するアプリやサービスを提供している。

こうした競合サービスが多い状況について、ニューロープ代表取締役の酒井聡氏は「僕たちは2014年にガチでデータを集めるところから始めて、1年半の開発期間を経てAIをリリースした。そこは自信を持っている」と話している。

ニューロープが開発した人工知能は、機能で大きく2種類に分けられる。ひとつはファッションスナップを自動解析する「#CBK scnnr(カブキスキャナー)」。一般向けには、LINEにスナップを送信すると解析結果を教えてくれる「ファッションおじさん」として公開されている。

もうひとつはコーディネート提案AIだ。ファッションアイテムに対して、コーデすると合うアイテムを数秒で提案してくれる。カブキスキャナーの画像解析機能と併用すれば、着合わせをリコメンドすることもできる。こちらも、LINEにスナップを投稿するとコーディネートを提案してくれる「人工知能ショップ店員Mika」が公開されている。

ニューロープではこれらの人工知能をAPIとして提供し、事業を展開している。ファッションECのマガシークには、画像検索レコメンド機能を提供。マガシークのアプリで画像データを読み込むと、販売アイテムの中から写真に近いものを検索できる。オークションサービスのモバオクが運営するウェブマガジン「M/Mag」(スマートフォン版のみ)でも、掲載記事のコーデからモバオクに出品されている類似アイテムを買うことが可能になっている。

またSTYLICTIONが運営するファッションメディア「itSnapマガジン」にもAIを提供。掲載記事のスナップを解析してタグ付けを行い、複数のコマースサイトの類似アイテムをまとめて表示し、アイテムが購入されるとメディアにフィーが入る仕組みとなっている。

このほかにも「百貨店などのデジタルサイネージの前で衣装合わせをすると、コーディネート提案が表示されるといった使い方や、SNS上にある『#コーデ』タグがついた画像を分析することで、トレンド予測を行う、というような事業も検討している」と酒井氏は話している。

AIを導入する企業が増え、ニューロープのサービスも引き合いが多くなっていると酒井氏は言う。今回の調達資金の使途について、酒井氏は「API提供だけではなく、企業からの要望にも対応しているので、アプリケーションの開発にどうしてもエンジニアのリソースが取られがち。エンジニア採用にも投資し、既存AIの強化や新規AI開発など、AI自体の強化開発を進めたい」と述べていた。

スマートカメラ、Google Clipsレビュー――機械学習が人、イヌ、ネコ、ウサギを自動認識する

今日(米国時間2/27)、GoogleからClipsが登場した。これはGoogleによれば「スマート・カメラ」だ。セキュリティーカメラでもないし、アクションカメラでもない。そういう用途ならすでに多数の製品が市場に出ている。シンプルで親しみやすい外見の内部にはきわめて高度かつ洗練されたテクノロジーが詰め込まれている。Clipsは見たところInstagramのアイコンのようなデバイスだが、妖精が魔法の杖を一振りして自ら撮影する現実のデバイスに生まれ変わらせたとでも言おうか。まったく新しいカテゴリーのカメラだ。

このカメラが最初に紹介されたのはPixel 2が発表された昨年のプレスイベントだ。このときGoogleは「設定したら後は忘れていい」ようなお手軽デバイスだとしていたが、現実の製品は非常に高度なものだ。Clipsは日常生活の中で、普通なら見逃され、したがって撮影されることもない瞬間を捉えるためのカメラだ。人工知能と機械学習を組み合わせたシステムが人物やペットを個別に認識し、記録すべき瞬間を判断する。

AIとMLのコンビネーションはすべてオンボードで、つまりカメラ内で作動する。データがGoogleのクラウドに送られることはない。これにより処理がリアルタイムとなる上にプライバシーも守られる。撮影された内容はユーザーが転送しないかぎりカメラの外に出ることはない。

これは小さな子どもの両親には特に興味あるプロダクトだろう。始終カメラやスマートフォンを手にしていなくてもClipsが子どもたちのかわいい瞬間を記録してくれる。ただしその価格は249ドルだ。

レンズは固定焦点

Clipsをできるだけシンプルなものにしようと大変な努力が払われたようだ。その結果、写真のようなミニマリスト的デザインとなった。サイズは1辺5センチの正方形で、レンズは固定焦点だ。レンズ部分をひねるとオンになる。本体に内蔵された3つのライトが光って撮影中であることを示す。Googleによれば、これは周囲の人々に「これはカメラであり撮影中だ」ということを知らせるためのデザインだという。なるほどこの筐体はカメラのマンガのようなデザインだから始めて見たら本物のカメラだと気づかない人もいるだろう。

レンズの下にはタッチセンサー式のボタンが内蔵されている。これはこのデバイスで唯一のボタンでシャッターの役割だ。おそらくベータ版をテストしているときにユーザーからの要望で後付けしたのだろう。このシステムは機械学習で自動的に撮影すべき瞬間を決定するというのがセールスポイントだが、ときには人間が介入したくなることもあるはずだ。

本体底部にはUSB-Cポートが1つありバッテリーを充電できる。システムをリセットするためのピンホールも設けられている。本体裏側にはGのロゴ以外はなにもない。液晶モニターもファインダーもない。これは操作をシンプルにすると同時にバッテリー駆動時間を伸ばすためだという。

Clipsを設置する位置やアングルはユーザーが直感的に決める。固定焦点レンズなのであまり多彩なことはできない。Googleは撮影対象から1メールから2.5メートル程度となる位置を推奨している。Clips専用のアプリ、Live Previewを使えば、カメラが何を写しているか確認することができる。もちろんClipsは水平な場所に置くほうがよい。

すべてはリバーに流れる

Clipsの使い方はシンプル過ぎるほどシンプルだ。デフォールトで7秒の動画が撮影される。Googleはこれをclipと呼んでいる。今は無くなってしまったが、TwitterのVineを使ったことがあるだろうか? あれと同じようなものだ。Apple Live PhotosやGoogle自身のMotion Photosにも似ている。

キャプチャーされたビデオはまず静止画として一列にリバー表示される。静止画をスクロールすると動画になり7秒が再生される。

タップすれば静止画もビデオも編集可能だ。Clipは一連の静止画として記録されているのでどの瞬間でも編集できる。Photoオプションを利用して気に入った1枚を選び、jpeg画像にして保存することが可能だ。ビデオについてはトリミングして長さを調整するオプションがビルトインされている。

ML―機械学習

Clipsではときおり右上隅でアイコンが点滅する。これは「Clipsのおすすめ」を意味し、システムが「よく登場する人物やペット」を認識したというサインだ。この機能を使いたい場合はデバイスをGoogleフォトに接続し、顔認識情報を取得する必要がある。

Clipsはそのままでも人物の顔を素早く認識できるが、テストしてみたところでは当たり外れが激しかった。現在のところClipsのMLは人間、犬、ネコを認識するようトレーニングされているという。

ついでに言えば、ビデオでわかるとおりClipsはウサギもきちんと認識する。搭載AIの機能はあまりに複雑でGoogleの開発チームもなぜウサギをうまく認識できるのかはっきりした説明はできないようだ。たとえばこの機械学習は「4つ足で立つ」という特徴を探すようトレーニングされているが、ウサギはあまりそういう姿勢を取らず、後足を畳んで座っていることが多い。しかしGoogleの人工知能はこういう障害を乗り越えた。Clipsでペットのウサギを撮りたいユーザーには朗報だ。

完璧な1枚

Clipsはここぞという瞬間をなかなかうまく捉えてくれる。もちろん完璧というわけにはいかない。完璧な1枚を選ぶにはやはり人間の介入が必要だ。Clipsは膨大な枚数の写真を撮影するが、ユーザーが友達などに公開するのはほんの一部だろう。

デバイスの内蔵ストレージは16GBあるので1080ピクセルで7秒間のビデオなら相当多数が記録できる。ビデオを削除して場所を空ける必要が出てくるのはだいぶ先だ。バッテリーは連続3時間の撮影ができる。動きを認識しない時間が続くと自動的にスリープモードに移行する。

1080ピクセルのビデオからの静止画は普通のスマートフォンのカメラで撮影した写真程度の画質だ。ということは暗い場所は苦手で、彩度が下がって全体にグレーになり、動く対象はぼやける。彩度やホワイトバランスはカメラが自動的に設定する。専用アプリからでも設定の変更はできないが、この程度のカメラの場合、人間が操作できるようにすると、Googleが狙っている操作のシンプルさに反するし、かえって画質を下げることになる可能性が高い。

価格は安くはない…?

以前私はセキュリティーカメラを家に設置したことがあったが、 結局アラートの通知を切ってしまった。間違いアラートが多すぎたからだ。たとえ私が地球の裏側にいても、家でウサギが動くたびにアラート送られてくるのがうるさすぎた(その後メーカーは人間と動物を識別する機能を付け加えた)。

Clipsが試みているのはその反対のシステムで、テクノロジーによって興味ある瞬間を自動的に記録しようとしている。人間がスマートフォンやアクションカメラなどのテクノロジーによって縛られないようにすることを目指すテクノロジーだ。いくぶん奇妙であり野心的な目標なのでメインストリームでユーザーを見つけるまでにはしばらくかかるかもしれない。

上で触れたように小さい子どもの両親は大きくなりすぎないうちに、かわいい写真をできるだけたくさん撮っておきたいだろう。犬、、ネコ、ウサギのオーナーにも魅力的なデバイスだ。Clipsを利用すればソーシャルメディアで人気が出そうな写真を簡単に大量に撮れる。ただしそのための価格は249ドルとなる。

〔日本版〕日本のGoogleストアにはまだ情報がない。

[原文へ]

(翻訳:滑川海彦@Facebook Google+


【以上】

MIT発のスタートアップFeature Labsは機械学習アルゴリズムの開発を加速する

MITで始まった研究にルーツを持つスタートアップのFeature Labsは、データサイエンティストたちが機械学習アルゴリズムをより迅速に構築することを支援する一連のツールを、本日(米国時間2月22日)正式にリリースした。

共同創業者兼CEOのMax Kanterによれば、同社はデータサイエンティストたちにしばしば手作業を強いて時間のかかる「特徴量設計(feature engineering)」を自動化する方法を開発したのだと言う。「Feature Labsは、企業がインパクトのある機械学習プロダクトを企画し、実装し、そして何よりも大切なことですが、デプロイすることを支援します」とKanterはTechCrunchに語った。

「Feature Labsは、機械学習アルゴリズムの実行に使う生データから、ドメイン知識を使って新しい変数を抽出するプロセスである特徴量設計を自動化した点が独創的なのです」と彼は付け加えた。

同社は、”Deep Feature Synthesis”と呼ばれるプロセスを使用して、これを実現している。これは例えばウェブサイトの訪問回数や放棄されたショッピングカートアイテムといった生の関連するトランザクションデータ・セットから特徴量を生成し、自動的にそれを予測シグナルに変換するのだ、とKanterは説明した。

これは、現在の時間がかかりエラーが発生しやすい、人間主体のプロセスとは大きく異なると彼は述べている。自動化された特徴量設計は、データサイエンティストたちが手作業で作成したものと同様の変数を提供するが、準備作業に沢山の時間を割く必要がなくなるため、遥かに作業が効率化される。「データサイエンティストたちにこの自動化されたプロセスを提供することで、彼らは予測する必要があるものを見つけ出すことに、より多くの時間を費やすことができるようになります」と彼は言う。

写真: Feature Labs

同社はこれを、幾つかの方法を通して実現している。まず最初に、同社はFeaturetoolsというオープンソースのフレームワークを開発した。これは、開発者たちがFeature Labsのツールセットを使い始めるための手段を提供するものだ。Kanterによれば、開発者たちはこれらのツールを使用して、小さなプロジェクトを構築して、アルゴリズムを使うことに慣れることができると語る。彼は「この提供の目的は、開発者たちに、新しい機械学習問題に対して自動特徴量設計を適用する実験を行う機会を提供して、私たちのビジョンを共有することです」と会社の発足を発表したブログ記事に書いている。

とはいえ、ある企業が実験段階を超えて、プロジェクトを拡大しようとしたときには、彼らはFeature Labsの商用製品を購入する必要がある。製品は顧客の必要に応じてクラウドもしくはオンプレミスの形態で提供される。初期の顧客には、BBVA Bank、Kohl’s、NASA、そしてDARPAが含まれている。

同社はまた、実際には昨年の3月にクローズした150万ドルのシードラウンドも発表した。このラウンドは、First Star Venturesと122 West Venturesから参加し、Flybridge Capital Partnersが主導したものである。

Feature Labsの製品は、Kanterと彼の共同創業者Kalyan VeeramachaneniとBen Schreck(MITのComputer Science and AI Lab(CASL)所属)による研究に基いているものだ。同社のアイデアは2015年に形を取り始め、ここ数年は初期顧客を相手にどの製品を洗練させていた。このことによって本日の発表にたどり着いたのだ。

[原文へ]
(翻訳:sako)

新しいGoogleフライトは出発遅延を予測――AIで航空会社より早く教えてくれる

フライト検索エンジン、Googleフライトがアップデートされ、さらに便利になった。飛行機を利用する旅行者にとっていちばんいらだたしいのは、新しいベーシックエコノミー運賃の複雑さとフライトの出発遅延だ。新しいGoogleフライトはこの点で新機能を追加した。出発遅延については単に通知してくれるだけなく、当の航空会社より早く教えてくれる。蓄積された過去のデータと機械学習アルゴリズムを利用して航空会社が警告する前にGoogleフライトは遅延を察知するという。

Googleの説明によれば、 過去のデータとAIテクノロジーの組み合わせにより、航空会社の公式発表以前にGoogleフライトが遅延に気づく場合があるという。ただしGoogleは「確信度」が80%以上にならなければアプリに「遅延」のフラグを立てない(もちろんユーザーは遅延があっても定刻に空港に到着している必要がある。しかし遅れることを事前に知っていれば好都合だ)。

またGoogleフライトには「天候」、「到着遅れ」などと出発遅延の理由が示される。

ユーザーはフライト番号、航空会社名、ルートなどでフライトの状況を検索できる。出発遅延が予想される場合はここで表示される。

今日(米国時間1/31)追加されたもうひとつの機能はベーシックエコノミー運賃の表示だ。

節約派の旅行者には好都合なベーシックエコノミー・クラスだが、航空会社ごとにさまざまな制限が設けられていることに注意しなければならない。

Googleフライトはベーシックエコノミーを検索した際に、オーバーヘッドコンソールが使えない、座席を選択できない、持ち込み手荷物その他の制限を表示する。Googleが世界でこの機能を導入するのは当初アメリカン、デルタ、ユナイテッドのフライトになる。

Googleフライトは1月前にもメジャー・アップデートを実施し、料金とホテルの空室料金が検索でき、ユーザーは予約に最適のタイミングを知ることができるようになった。

Googleフライトの料金トラッキングはKayakなどのスタートアップの機能と似ており、今回のアップデートを含めて、Hopperなどトラベル系スタートアップに影響を与える可能性がある。Hopperは最近ホテル検索機能を追加し、ビッグデータ・テクノロジーを用いて航空運賃その他、旅行で重要となる要素を解析している。Googleの旅行アプリGoogleTripsと一部競合するTripItも最近、セキュリティーゲートでの待ち時間を表示する機能を追加した。Googleはユーザーのロケーション情報から個々の店舗やビジネスの混み具合を推測し、Googleマップで提供している。Googleフライトの次回のアップデートでセキュリティーゲートでの待ち時間の予測が追加されても驚くべきではないだろう。

Googleフライトの新機能の中でも、出発遅延の予測は現実のビッグデータに対して機械学習を適用して解析した結果だという点が重要だろう。 しかし旅行者は航空会社が正式に出発遅延のアラートを出すまでは行動を変えることができないので、そうしたアラートはストレスの多い空路の旅行にさらに不安な要素を持ち込んでいた。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

GoogleのAutoMLで誰もが機械学習を利用できる――プログラミング不要、ビジネス利用へも

今日(米国時間1/17)、Googleはいくつかの重要な発表をしたが、 AutoML Visionα版公開もその一つだ。このサービスはML(機械学習)についてまったく経験のない層も含めたデベロッパーに対して、カスタマイズされた画像認識モデルの構築を可能にする。Googleではカスタム機械学習モデルをAutoMLと名付け、画像認識以外の分野に応用を拡大していく計画だ。

現在AutoMLがサポートするのはコンピューター・ビジョン関連だけだが、近い将来Googleは機械学習が用いられる各種の分野(音声認識、翻訳などの自然言語処理、ビデオ処理等)でAutoMLのビルディング・ブロックが使えるようにしていくはずだ。

Googleによれば、AutoMLの基本的なコンセプトは、高度なプログラミングの能力を必要とせず、誰でも画像をアップロードするとGoogleのシステムが自動的に機械学習モデルを作成してくれるというものだ。

Googlによれば、すでにディズニーがこのシステムを利用してオンラインストアにおける検索機能の強化に成功している。ストアの訪問者がたとえば『カーズ』に登場するキャラクター、ライトニング・マックイーンを検索した場合、実際にその名前でタグづけされている商品だけでなく、ストア内のおしゃべりなレーシングカーの画像を横断的にピックアップできる。

このプロセスはデータのアップロードからタグづけ、MLモデルのトレーニングまですべてドラッグアンドドロップのインターフェイスで実行できる。MicrosoftもAzure ML Studioを提供しているが、Googleのサービスはこれとは全く性格が異なる。Azure MLはいまは亡きYahoo Pipesに似たインターフェイスを利用してユーザー自身がモデルを構築、訓練、評価するものだが、Googleの場合はシステム側が面倒な作業をすべて実行する。

最近の機械学習ブームで一般企業が機械学習やデータサイエンスのエキスパートを採用することはほとんど不可能になっている。需要の大きさに人材供給がまったく追いついていないのが実情だ。

GoogleのAI/ML担当チーフ・サイエンティスト、 Fei-Fei Liは今週開かれたプレスイベントで「人工知能、機械学習は依然として参入障壁が高い分野です。企業は専門的能力と大量のリソースを社内に用意する必要があり、これを実現できる企業はほんの一握りです。人工知能を活用できるデータサイエンティストが100万人いたらどんなに役立つでしょう。AIが素晴らしく役立つのに対して、カスタマイズされたモデルを作れる能力を持つ人々の数はあまりに少なく、必要とするリソースは大きいのです」と述べた。

  1. cloud-automl-screenshot-1.png

  2. cloud-automl-screenshot-2.png

  3. cloud-automl-screenshot-3.png

  4. cloud-automl-screenshot-4.png

  5. cloud-automl-screenshot-6.png

  6. cloud-automl-screenshot-7.png

  7. cloud-automl-screenshot-8.png

  8. cloud-automl-screenshot-10.png

  9. cloud-automl-screenshot-11.png

  10. cloud-automl-screenshot-12.png

  11. cloud-automl-screenshot-13.png

  12. cloud-automl-screenshot-14.png

  13. cloud-automl-screenshot-15.png

  14. cloud-automl-screenshot-16.png

GoogleによればAutoMLは市場に公開されたこの種のサービスとして唯一のものだという。正確にいえば Clarif.aiなどのシステムが同様のアプローチを用いているし、MicrosoftのCognitive Servicesもあらかじめ用意されたコンピューター・ビジョン・モデル音声認識意思決定プロセスなどをユーザーがカスタマイズすることができる(ただし現在これらのサービスはプレビュー段階)。

AutoML Visionsの利用にあたっては、デベロッパーはGoogleに申し込みをして招待を待つ必要がある。料金については明らかにされていないが、おそらくモデルのカスタマイズとトレーニングに関する料金とそのモデルにAPIを通じてアクセスする場合の料金に分かれるのだろう。

画像: Getty Images

〔日本版〕コンピューター・ビジョンに関するFei-Fei Li(李飛飛)のTED講演(2015年、日本語字幕つき)

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Argoの自動運転テスト車両が、ピッツバーグで赤信号無視のトラックに衝突された

Argo AIがピッツバーグで運行していた自動運転テスト車両のうちの1台が、水曜日に事故に巻き込まれた。事故による負傷により2人が病院に送られた(状態は安定している)。最初の報道によれば、この事故は、Argoのテスト車両ではなく、赤信号を無視した小型トラックによって引き起こされたもののようだ。

自動運転車はトラックに真横から衝突されており、Argoの車両に乗っていた4名のうち2名が病院に運ばれることになった。Fordは、TechCrunchからの事故への問い合わせに対して、次のように回答した。

私たちは、Argo AIテスト車両が事故に巻き込まれたことは認識しています。現在全力で情報を集めているところです。まず第一に焦点を当てていることは、関係者の無事の確認です。

自動車が事故に巻き込まれること自身は、決して良いニュースではない。しかし今回のように明らかに人間の間違いによる事故の場合には、他の原因に比べればましな知らせかもしれない。結局のところ、自動運転車両が人間の信頼を得るための道のりはまだまだ遠い。

[原文へ]
(翻訳:sako)

音声インターフェースがビジネス向けに進出中

会社の会議にAmazon Echo(要するに音声操作デバイス)を持っていく、というシナリオはどうだろうか? つまり今月の南部地区での売上の数字が必要になったとしよう。今までならノートパソコンを開き、Excelを忙しく操作することになったはずだが、その代わりにEchoに尋ねるだけでいい。デバイスは即座に数字を答えてくれる。

ビジネス・シーンの主流になるにはまだ距離があるとはいえ、こういうシナリオは次第に現実化しつつある。

Amazon Echo(やGoogle Home Mini)が普及するにつれ、人々はコンピューターを音声で操作することに慣れてきた。過去の例に照らしても、消費者の態度に大きな変化をもたらすような現象は、やがて、ビジネスの場にも現れることが確実だ。

キーボード、タッチスクリーンに加えて音声も利用するAIセールス・ツールのTactのCEO、Chuck Ganapathiによれば、「われわれが利用するデバイスに革新が起きている。今後は音声を利用することが理にかなった方向だ」という。「スマートフォンにマウスは付属していない。電話するときにいちいちキーボードで入力しようとは思わないだろう。スマートウォッチもそうだ。それどころかAlexaデバイスにはスクリーンも必要ない。デバイスとのコミュンケーションはこれまでに比べてはるかに直感的になる」とGanapathはいう。

先月末のAWS re:InventカンファレンスのキーノートでAmazonの最高技術責任者、ワーナー・ヴォーゲルズは「われわれはこれまでテクノロジー上の制約のせいでコンピューターとのコミュンケーションがひどく不便なものになっていた」と指摘した。Googleで何かを検索しようとすればキーワードをタイプ入力するしかなかった、それしか方法がなかったからだ、ヴォーゲルズはいう。

「今後のデジタル・システムとのインターフェースは機械の都合が優先されることはなく、人間が中心となっていく。人間が自然に持つ能力を中心としたインターフェースをデジタル・システムに設けることで環境のあらゆる部分が活性化される」という。

Amazonはもちろんこの方向を後押しすることに熱心だ。re:InventではAlexa for Businessがクラウド・サービスとして発表された。もちろん他のクラウド企業も音声機能をデベロッパーに提供し始めている。 ビジネス・サービスやアプリに音声サービスを組み込みたいからだ。

AmazonがAlexa for Businessで初めてビジネス・シーンを直接のターゲットする動きを示したのに対し、他のスタートアップはこれより早く、Echoをビジネスに統合する実験を行っている。たとえば、ビジネス・インテリジェンスとアナリティクスのツールを提供するSisense2016年6月に早くもEchoをインターフェースに採用している。

しかし大手クラウド事業者が提供するサービスがいかに魅力的でも、社内データを外部に出すことを好まない企業も多い。このことはさる11月にCiscoがSpark向けにVoice Assistant for Sparkを提供したことでも明らかだ。企業がインハウスで音声を利用できるようにするこのテクノロジーは5月に1.25億ドルで買収したMindMeldが開発したもので、ビジネスの会議で一般に必要とされるタスクを音声で命令できるようにするのが狙いだ。

また11月にはビジネス向け音声駆動ソフトとハードを開発するスタートアップのRoxyは220万ドルのシード資金を得ている。同社はまず手始めに接客を重要な要素とするサービス産業をターゲットとしている。もちろんRoxyの狙いはサービス産業にとどまるものではないが、同社が最初に得た貴重な教訓は、社内情報をAmazon、Google、Apple、Microsoftのような大手外部企業に渡そうとしない会社も多いということだった。多くの会社は顧客データや顧客とのやりとりを社内のみに留めておこうとする。こうしたニーズに対してRoxyが提供する音声インターフェースは有力なソリューションとなるだろう。【略】

2018年を迎えてこうした実験は有力クラウド事業者のサービスとしても、スタートアップ企業の独自のソフトウェアとしてもも数多く出てくるだろう。もちろんキーボードとマウスがいきなり無用となるということではない。しかし音声が便利な場面で音声をインターフェースに利用するというのは自然な成り行きだ。多くの場面で音声はタイプの手間を省き、コンピューターとのコミュンケーションをさらに自然なものとするだろう。

画像: Mark Cacovic/Getty Images

[原文へ]

(翻訳:滑川海彦@Facebook Google+

AIのパイオニア、Andrew NgのLanding.aiは製造業の改革を目指す――最初のパートナーはFoxconn

人工知能のパイオニア、Andrew NgはGoogle BrainプロジェクトやBaiduのAIグループのリーダーを務めたことなどでよく知られている。Ngはオンライン学習のCourseraの共同ファウンダーであり、そこで教えている機械学習のコースも有名だ。今年初めにBaiduを離れた後、Ngが何をしているのか(もちろんCourseraで多くのコースを教える以外にということだが)はっきりしなかった。

しかし今日(米国時間12/14)、NgはLanding.aiという新しいスタートアップを立ち上げたことを発表した。この会社は人工知能テクノロジーの成果を製造業に導入するのが目的だ。Landing.aiの最初の戦略的パートナーはFoxconnで、Ngによれば、さる7月から共同研究を続けてきたという。

Landing.aiの狙いはAIテクノロジーを従来のIT産業の外に広めることだ。AIと機械学習はすでに数多くの大手インターネット企業のビジネスのやりかたを根本的に変えているのに、IT以外の産業では遅れを取っているとNgは主張する。声明でNgはこう書いている。

 AIを活用したIT産業を作るだけでは十分ではない。AIを活用した社会を作らねばならない。われわれの生活が物理的に必要とする要素、食べ物、ヘルスケア、交通、住居などはAIのおかげて改良され、アクセスも容易になった。人は単調な機械的な仕事の繰り返しから解放された。今や社会のすべての面でAIによる便益が体験されるべきだ。これはIT産業だけではなくすべての産業を巻き込む必要がある。

ではLanding.aiは具体的にどういうものなのか? Ngによれば、同社は各種の「AIによる企業の変容プログラム」を作っているという。これにはAIテクノロジーそのものの導入から従業員の訓練まで多様な要素が含まれる。

Landing.aiの最初のターゲットは製造業だが、Ngはこの分野だけでなく、社会を構成するあらゆる側面にAIを導入するプラットフォームとなることを計画している。

Foxconnに関して、Ngは「(Landing.aiは)AIテクノロジーの開発だけでなく、人材育成、また両社の基本的な特色をさらに強化するためのシステムづくりについても(Foxcon)と協力関係にある」と述べた。

全体としていささか漠然としている。また私にはLanding.aiはなにか新しいテクノロジーを開発する会社というよりある種のコンサルティング会社のように思える。Landing.aiが独自の新しい人工知能テクノロジー、ないしプラットフォームを開発するというより、少なくとも今日の声明から推測されるところでは、既存の人工知能テクノロジーをFoxconnのような巨大企業に効果的に導入することに目的があるようだ。

画像:: Luis Castaneda Inc./Getty Images

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Google、スプレッドシートにピボットテーブル自動作成ツールを追加

読者の会社にもピボットテーブルの奥義をマスターした表計算ソフトの達人がいて、一見わけがわからない数字の山から重要な洞察を導き出していることだろう。この能力がわれわれ凡人とエリートの間を隔てていたわけだが、Googleはこの問題の民主化に動いた。今日(米国時間12/6)の発表によれば、最新版のGoogleスプレッドシートはピボットテーブルの自動作成機能を備える。

Googleはこの問題の解決にあたって人工知能を利用している。 新機能はスプレッドシートに昨年Googleが追加したデータ探索(Explore)機能から利用できる。今回の新機能の目的はデータから有用な情報を抽出するプロセスの自動化だ。

機械学習の適用により、ピボットテーブルの使い勝手にいくつかのブレークスルーがもたらされた。まず第一にピボットテーブルの対象となる行、列を手動で選択する必要がなくなった。Googleスプレッドシートはユーザーのデータを解析し、適当と思われるピボットテーブルを自動的に作成する。ピボットテーブルが必要になるたびに達人の助力を乞う必要がなくなった。誰でもクリックするだけでピボットテーブルを得ることができる。

Gif: Google

また「データ探索」に自然言語でクエリーを行うインターフェースが追加された。この機能は現在は英語のみだが、やがてすべての言語がサポートされるはずだ。スプレッドシートのシステムはピボットテーブルから必要なデータを探して出してくれる。ユーザーが自分で複雑な式を書いたりソートしたりする必要はない。質問せよ、さらば答えが与えられるだろう(もちろんソースデータが適切な答えとなるデータを含んでいる場合だが)。

ピボットテーブルに詳しいユーザーはもちろん従来どおり手動で作成できるが、その場合もGoogleは機械学習による分析をサジェスチョンとして提供してくれる。

また新しいピボットテーブルはデータ抽出に便利だというだけでなく、デザインも改良されている。GoogleはUIをアップデートし、見出し、行、列をカスタマイズできるようになった。

Googleはピボットテーブルに限らず、スプレッドシートに全体に人工知能の適用を開始したので、たとえばユーザーがデータを入力したときに、役立ちそうな関数が「おすすめ」としてポップアップ表示される。もっとも役立つときは便利だが、見当外れな場合はわずらわしいだろう。

Googleでは、これらの機能に加えて向こう数か月でさらに多くの機能を追加していく計画だという。

Featured Image: Jon Russell/Flickr UNDER A CC BY 2.0 LICENSE (IMAGE HAS BEEN MODIFIED)

〔日本版〕Googleスプレッドシートの機能は設定が英語と日本語の場合で大きく異なる。上記新機能は「自然言語で質問するとスプレッドシートがピボットテーブルを作成して答えてくれる」というものだが、現在は英語版でのみ利用できる(Googleドキュメントホームのトップ右端の歯車アイコンから言語を変更できる)。なおこの記事の翻訳時点では原文の最初リンク(Googleブログ)のリンクはURLにタイプミスがあるため作動しなかった(ピリオドがURL末尾に含まれているため)。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

IBMの新しいPower9チップはAIと機械学習のために開発された

人工知能や機械学習などのリソースを大量に消費する作業を、滞りなく処理するためにコンピューティングパワーを増加させるための競争に、IBMは最新世代のPowerチップであるPower9で参戦した。

同社はこのチップを、サードパーティーのメーカーや、Googleなどのクラウドベンダーへ販売する予定だ。一方、Power9チップを搭載した新しいコンピューターAC922もリリースする。また、IBMクラウドに対してもこのチップを投入する予定だ。「私たちは通常、私たちのテクノロジーを完璧なソリューションとして市場に提供しています」と説明するのは、IBMのフェロー兼コグニティブシステム担当副社長であるBrad McCredieである。

同社は、Chainer、TensorFlow、Caffeなどの一般的なAIフレームワークのパフォーマンスを向上させるために、この新しいチップをデザインし、それらのフレームワークで動作するワークロードをほぼ4倍にすると主張している。

もし説明されたように動作するなら、データサイエンティストたちは、Power9を搭載したマシン上でのモデルの構築と実行の効率を上げることができる。そのことにより、仕事を効率的に進め、モデル作成をより素早く完成させることができるようになる筈だ。

Moor Insights&Strategyのプリンシパルアナリスト、Patrick Moorheadは、IBMがこのチップよって、競争から頭ひとつ抜け出すことになると考えている。「Power9は、機械学習で使用されるアクセラレーターに最適化された、新しいシステムアーキテクチャを備えたチップです。IntelはXeon CPUとNervanaアクセラレータを作り、NVIDIAはTeslaアクセラレータを作っています。IBMのPower9は文字通り、機械学習加速のためのスイスアーミーナイフで、膨大な量のIOと帯域幅をサポートしているので、現在市場にあるものの10倍の性能を叩き出すのです」とMoorheadは語る。

写真:IBM

もしNvidiaがAI/機械学習ワークロードの世界でかなりの部分を占めているように思っているならば、IBMの関心も免れることはできない。今や彼らもGPUチップメーカーと緊密に協力している。実際、McCredieによれば、IBMは競合システムよりもはるかに高速に、2つのチップ間でワークロードを移動するシステムバスを構築しているということだ

「最新のワークロードは一段と加速しており、その中でもNvidia GPUが一般的に使われているアクセラレータです。私たちはこの傾向が起こりつつあることを感知していました。私たちはPowerシステムとGPUの間に、チームとパートナーシップによる深い関係を構築しました。私たちはプロセッサーとGPUをつなぐユニークなバスを用意し、これによって競合システムに比べて10倍の帯域幅を実現することができました」とMcCredieは説明する。

新しいチップは、ローレンス・リバモアとオークリッジ国立研究所によって開発されたSummitと呼ばれるスーパーコンピューターに搭載される予定である。同氏によれば、このスーパーコンピュータは無数のPower9コンピューターを使って構築され、そのコストは3億2500万ドルに上るということだ。

GartnerのHPC、マシンラーニング、および新興コンピューティング技術のリサーチディレクターであるChirag Dekateは、このリリースは、人工知能のような高成長市場セグメントを獲得するための、IBMの積極的なアプローチの継続である、と述べている。「AI(具体的には機械学習やディープラーニング)のようなセグメント間で、戦略を調整することで、IBMはハイパースケールデータセンターや、より一般的なデータセンター市場での競争力を高めることができます。これにより、IBMの直接的な収益への影響がもたらされ、新しい大規模データセンターの展開も可能になります」とDekate氏は説明する。

Power9チップは、今日(米国時間12月5日)から入手可能だ。

[原文へ]
(翻訳:sako)

Adobe、Photoshop CCにワンクリック対象選択を導入へ――Sensei AIを利用して自動認識

長年の練習のかいがあってか、非常に手際よく人物をマスクできるPhotoshopのユーザーは多い。とはいえ、人物の輪郭を切り抜くのはフォトショ作業の中でいちばん手のかかるやっかいな部分であることに変わりはない。しかしクリック1回で対象を切り抜ける魔法の杖が近々登場する。

今日(米国時間11/28)、Adobeが 公開したプレビュー動画によると、次のアップデートでPhotoshopにはAIを利用して対象を認識し、自動的にその輪郭にそってマスクを作成する機能が追加されるという。この機能は現在Select Subjectと呼ばれており、Adobeの AIプラットフォーム、Senseiが用いられる。

メニューからSelect and Maskを選び、選択したい対象をどこでもよいからクリックするだけでよい。AIが自動的に意図された対象を認識してマスクを作成する。その後は背景を透明化したり、別の画像に置き換えるなどこれまでどおりさまざまなツールを使うことができる。

Adobeのティーザー動画によれば、新機能はPhotoshop CCの次のバージョンで導入される。

ただし「次のバージョン」がいつリリースされるのか具体的な日付はまだ不明だ。.

Engadgetの記事によれば、Select Subjectツールはまだ完全に仕上がっておらず、人物の髪の毛など細部の認識に問題が出る場合があるという。しかしこうした問題は機械学習のアルゴリズムがさらに多くのデータを入手できるようになれば次第に改善されるだろう。

〔日本版〕上のビデオの1:00あたりからワンクリック選択がデモされている。デモでは複数の人物や人物とイヌなどを自動認識で切り抜いている。

[原文へ]

(翻訳:滑川海彦@Facebook Google+

Google、Assistantアプリ開発者向けにAPI多数追加――Google HomeはEchoのライバルを目指す

Google AssistantがAlexaのライバルになるためにはサードパーティ製アプリの充実が欠かせない。AmazonのホームAIが市場で優位を保つ中、Googleはアプリ開発をテコ入れするため、デベロッパーにとって魅力的な機能を多数発表してきた。今朝(米国時間11/15)、GoogleはAssistantのユーザー体験の改良に向けて重要な一歩を進めた。これにはAssistantデベロッパー向けにプッシュ通知、日々のアップデート、多言語対応の容易化など多数の新しい機能が含まれる。

中でも重要な機能の一つがスピーカーとスマートフォンの連係だ。新APIにより、Google Homeスピーカーで何らかの作業を開始し、スマートフォンに移ってそれを完了させることができるようになる。たとえば、トップ画像に示されているようにユーザーは食料品をGoogle Homeで注文し、そのレシートをスマートフォンで確認できる。これによりGoogle Assistantは単なる人口知能を利用した音声インターフェイス以上の存在になるはずだ。

あるいはこれがEcho Showのライバルを生み出す基礎となるかもしれない。

プッシュ通知のサポートももちろん重要だ。このAPIにより、アプリは重要なアップデートをスマートフォンを通じてユーザーに送ることができる( Google Homeが喋って通知する機能も近く実現する)。またキッズに安全なアプリであることを示すFamiliesバッジも導入された。また多言語対応も大きく進んだ。今回追加された言語にはスペイン語、イタリア語、ブラジル・ポルトガル語が含まれる〔日本語には対応ずみ〕。

またアカウントとアプリを連係させる機能も改良された。これまでのビルドでは、ユーザーは事前にアプリのアカウント連係を行う必要があった。 今後はいつでも好みのタイミングで連係させることができるようになる。おっと、それと最新バージョンの重要なアップデートがもう一つあった。Homeを終了させるコマンドに対してユーザーに返されるログオフ・メッセージの文言が丁寧になった。礼儀正しいことはスマート・スピーカーにとっても大切だ。

今回のデベロッパー向け機能の追加はGoogleがHomeシリーズの製品に多く新機能を追加するアップデートを行ってからほぼ一ヶ月となった。Pixelスマートフォン向けのHome機能を備えたイアホン、Pixel Budsの出荷も最近始まっている。クリスマス商戦前にアプリで新機能が利用できるようデベロッパーがアップデートを実行できることを期待したい。

[原文へ]

(翻訳:滑川海彦@Facebook Google+