Googleがカスタマーサービスをボットで自動化するOnwardを買収

Googlegが、企業のカスタマーサービスや営業のワークフローを自動化するツールを作っている小さなスタートアップ、Onwardを買収した。Onwardの協同ファウンダーRémi CossartとPramod Thammaiah、そしてCTOのAaron PodolnyはGoogleに加わる。買収の条件は、公表されていない。

OnwardはAI機能のあるチャットにより、顧客が求めているものを即座に理解し、そのオートメーションにより、企業の貴重な人材の有効利用を図る。

CossartとThammaiahはそれまで、ショッピングアシスタントのような消費者製品Agent Qがメインのプロダクトだった。ユーザーは、テキストメッセージで推薦商品を気軽に尋ねる。同社はそのサービスを、パーソナルアシスタントのMagicと権威ある消費者雑誌Consumer Reportsの結婚、とみなしていた。

しかし彼らは、そのようなサービスはむしろ企業に需要があると考え、顧客との対話を自動化し、話の内容を各顧客に合ったものに仕立てるサービスに転身した。

そのボットによるサービスは、単純な質問にはデータベースから答を取り出し、一方、複雑な質問には対話のフローを自動的に作り、必要ならその後のフォローアップも行なう。

[関連記事: 本誌Onward紹介記事(未訳)]

そういう複雑な質問では、Onwardはビジュアルなボットビルダーを作ってユーザーが迅速にチャットの決定木(デシジョンツリー)作り、顧客の要求に応じる。そのときボットは、“この問題は複雑すぎるので人間に任せるべき”、という判断もする。

そのサービスは、SalesforceやZendesk, Shopify, HubSpotなどとの統合も容易だ。

Onwardのサイトのブログ記事は、こう述べている: “これまでの旅路を通じて私たちは、コンピューターが人間のアクションやメッセージの背後にある隠れた意味を理解したときに生まれる、魔法のような体験を作りだすことに、一貫して注力してきた。Googleで私たちは、Onwardで培ってきた技術の適用範囲を、さらに拡大していきたい”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Office 2019が出たけど今やMicrosoft Offeceの最良の機能はOffice 365にある

Microsoftが今週、WindowsとmacOS用のOffice 2019をリリースした。それは、この生産性スイートの、サブスクリプション型(有料会費制)ではないタイプの、定例の最新アップデートだ。言い換えるとそれは、あなたが10年前にOffice Depotで買ったシュリンクラップ(収縮包装)のOfficeと同じ種類のOfficeだ。でも今やそれは、Microsoftがあなたに買ってほしいと思っているOfficeではない。あなた自身も、買いたくないかもしれない。なぜなら現時点では、Office 2019は一種の限定バージョンであり、それは、サブスクリプション(有料会員制)のOffice 365にあるおもしろい最新機能を欠いているからだ。

Microsoftの企業向けOfficeとWindows担当VP Jared Spataroはこう語る: “私たちはOfficeの全フレーバーの中で、Office 365の…とくに商用ユーザーのためのOffice 365 ProPlusの…位置づけにたいへん苦労してきた。それを、名前の中に年数のあるOfficeとはまったく違うものにしたかった。Office 2019には、これまでのOffice 365にあった機能がすべてある。だからクラウドバージョンのOffice 365には、インターネットに接続しているからこそ得られる新しい命がある、と言いたい”。

Spataroによると、Microsoftはユーザーに、Office 365はクラウドに接続されているから生産性が高く、セキュリティも優れていることを知ってほしい、と思っている。彼によると、TCO(total cost of ownership, 総保有コスト)も、自分のパソコンにインストールするバージョンより安いそうだ。

Office 2016のころには、それらの一般市販バージョンは、たえずアップデートされているOffice 365のスナップショット、言い換えればコピーだった。365は毎月アップデートされ、新しい機能も増えていた。しかし今回は初めて、オンプレミスバージョンのOffice、すなわちOffice 2019には、Office 365の機能の多くが欠けている。つまり、機械学習による人工知能機能など、もっともおもしろい機能は、Office 365にあってOffice 2019にはない。

Spataro曰く: “混乱するユーザーもいると思うが、名前に年数がついていることは、それが‘現時点でベストバージョンである’という意味ではない、ということを時間をかけて分かってもらう努力をしなければならない”。

しかし、機能の差は当然でもある。Office 365だけにある新しい機能は、その多くが、クラウドだからこそ得られる機能だからだ。たとえばアプリケーションの中から行なう検索も、機械学習のモデルを動かしてそこからデータを取り出すことも、クラウド、すなわちインターネットへの接続がなければできない。そしてそれを有料化する最良の方法は、サブスクリプション(subscription, 有料会員制)しかない。

Microsoftのやり方は、たとえばAdobeのサブスクリプションサービスCreative Cloudなどと同じだ。こちらも従来の主要アプリケーションをシュリンクラップからクラウドへ移して、サブスクリプションで課金している。Adobeのこのやり方は大成功しているが、Microsoftは同じことをOffice 365やMicrosoft 365でやろうとしている。

[AIでOfficeが賢くなった…Microsoft Ignite 2018カンファレンス開幕]

more Microsoft Ignite 2018 coverage

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AmazonのAlexaは深層学習に基づきユーザーのやりたいことに関して‘勘’を働かせる

Amazonのビッグな ハードウェアイベントは、確かにハードウェア山盛りだったが、それ以外のものもあった。Amazonは、同社のバーチャルアシスタントAlexaを、人間のやることに対して、もっとお利口にし、もっと直観的な理解や判断ができるために何をしているか、を説明した。一家にたくさんのインターネットに接続されたスマートホームデバイスがあるときには、それ〔ユーザーが今何に対して何をしたいのかという直観、勘〕がとくに重要だ。

Amazonは木曜日(米国時間9/20)のイベントで、Alexa Hunchesと呼ばれる機能を発表した。この機能によりバーチャルアシスタントは、ユーザーの振る舞いに関する手がかりを知り、それに基づいて提案をする。そのためにAlexaは、ニューラルネットワークによるディープラーニングを利用して、人間の振る舞いを理解し学習する。〔hunch == ‘勘’〕

Alexaは人間の脳が対応できる判断をしなければならないし、そのためにはデータを必要とする。今のところ“Hunches”は、そんなデータが得やすいという意味で、スマートライトやセキュリティカメラのようなコネクテッドデバイスにフォーカスしている。たとえばユーザーが、“Alexaおやすみ”とか、“Alexa目ざましをセットして”と言ったら、毎日そんなコマンドを聞いているAlexaは、振る舞いに関するデータに基づいて勘を働かせる。そしてAlexaは、“ポーチのライトが点いたままだと思います。私が消しましょうか?”、と答えるかもしれない。

ずっとこの勘機能をテストしてきたAmazonは、機能のローンチを今年の終わりごろと予定している。勘機能は、時間とともに学習し改良されていく。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Googleが日本で複数のAI関連事業を立ち上げ、UNIQLOとパートナーシップ

Googleが今日(米国時間9/18)東京で行われたCloud Next 2018イベントの場を利用して、日本市場にフォーカスした二つのイニシアチブを発表したのは、当然のことだ。このイベントはメインのカンファレンスがサンフランシスコで行われ、複数の国際的イベントが東京など各地で行われる。

発表には、ベーシックなアップデートとしていくつかの日本語ローカライゼーションも含まれ、その中には、CourseraのコースMachine Learning with TensorFlow on Google Cloud Platformの日本語化や、クラウド技術者の資格検定Associate Cloud Engineerの日本語化、50種のクラウド実践演習(各30分)Qwiklabsの日本語化などがある〔日本語化の例はここで〕。

さらにGoogleは、東京にAdvanced Solutions Labを立ち上げる。同様のラボは、アイルランドのダブリンとカリフォルニアのサニーベール、そしてニューヨークにもある。それらはGoogleのエキスパートたちによる4週間の機械学習教育訓練コースを軸として、機械学習のさまざまな学習オプションとコラボレーションによる演習経験を提供する。

(写真: Hitoshi Yamada/NurPhoto via Getty Images)

Googleは今日、新しいテクノロジーの採用をめぐって、ユニクロの親会社Fast Retailingとのパートナーシップを発表した。社名が示すように同社は小売業の高速化に関心があり、成長の加速化のためにGoogleのG Suiteや機械学習ツールを利用していきたいようだ。このパートナーシップ事業の名前は、’Ariake’である。

Fast RetailingのCEO Tadashi Yanaiはこう言っている: “全社員が情報にアクセスできるようにすることが、Ariakeプロジェクトの基盤のひとつだ。それによって社員たちは、論理や判断、共感といった人間の特性を生かした意思決定ができるようになる。毎シーズン、事業計画を書いているが、G Suiteのような共同作業ツールを使えば、それらを全社員が共有できる。Google Cloudとのパートナーシップは、需要予測のようなものをとっくに超えて、全社員の協働的な仕事のやり方を抜本的に変えた”。

画像クレジット: Tomohiro Ohsumi / Getty Images

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

NvidiaがローンチしたTesla T4は最速のデータセンター用推論プラットホームだ

Nvidiaが今日(米国時間9/1)、データセンターにおける機械学習と推論のための新しいGPUを発表した。そのTesla T4 GPUs(TはNvidiaの新しいアーキテクチャTuringを指す)は、クラウドコンピューティングのメジャーなプロバイダーのほとんどが現在提供しているP4 GPUsの後継機種だ。Nvidiaによると、GoogleはT4 GPUsをクラウドプラットホームで採用する最初の企業のひとつだ。

Nvidiaによると、T4はP4よりも相当に速い。たとえば言語の推論では、T4はCPUを使うよりも34倍速く、P4より3.5倍速い。T4のピーク時性能は4ビットの整数演算で260TOPS、浮動小数点演算で65TOPSだ。T4は、標準的な75ワットのLow Profile PCI-eカードに載っている。〔関連記事

しかしもっとも重要なのは、Nvidiaがこれらのチップを、AIの推論専用に設計したことだ。NvidiaのVPで同社のTeslaデータセンター事業部のGM Ian Buckはこう語る: “Tesla T4が推論用としてこれほど効率的なGPUであるのは、Turingアーキテクチャの新しいテンソル・コアのせいだ。CEOのJensen Huangがすでに述べたように、そのTensorコアはゲームやレンダリングやAIにも有効に利用できるが、設計の前提は推論だ。トータルでこのチップには、320のTuting Tensorコアと2560のCUDAコアがある”。

Nvidiaは今回、新しいチップのほかに、同社のソフトウェアTensorRTの、ディープラーニングのモデルを最適化するアップデートをローンチした。この新しいバージョンには、TensorRT推論サーバーも含まれており、それはデータセンターの推論のための完全にコンテナ化されたマイクロサービスとして、既存のKubernetesインフラストラクチャにシームレスに接続する。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Facebookの「ロゼッタ」システムは、ミームの認識を容易にする

ミームはウェブの言語であり、Facebookはそれをもっと理解したいと思っている。

FacebookのAIチームはここ数年、コンピュータービジョンと自然言語認識の両分野で目覚ましい進歩を遂げてきた。今日(米国時間9/11)同チームは、ふたつの分野の進歩を融合する最新の成果を発表した。新しいシステムはコードネームを “Rosetta” といい、FacebookとInstagramで画像内テキストを認識して、被写体がなんであるかを理解し分類を容易にすることによって検索や不正コンテンツの識別に役立てる。

ミームばかりではない。ツールは10億以上の画像とビデオフレームを、毎日複数言語にわたってリアルタイムで解析する、と同社はブログに書いている。

Rosettaは光学文字認識(OCR)の最新技術を活用している。まず画像をスキャンしてテキストの存在を検出し、文字がバウンディングボックスの中に置かれる。つぎに畳み込みニューラルネットワークを用いた分析によって、文字を認識し何を伝えようとしているのかを判定する。

via Facebook

このテクノロジーはしばらく前から使われていたが——FacebookはOCRに2015年から取り組んでいる——同社の巨大なネットワーク全体に展開することは、狂気レベルのスケールを必要とするため、文字検出と認識に関して新しい戦略を考える動機が生まれた。

技術面に興味のある人には、チームの書いた論文がある。

Facebookには、ビデオや写真に写ったテキストに興味を持つ理由が山ほどある。同社のコンテンツモデレーション[コンテンツの監視]の必要性に関しては特にそうだ。

スパムの識別は、写真の説明テキストが”Bruh!!! ” や “1 like = 1 prayer” (いいね! 1回=祈り1回)のようなものなら比較的単純だが、Facebookの “time well spent”[有意義な時間]推進のためのアルゴリズム変更によって、タイムラインには似たような技巧を用いたビデオや写真が増えている。同じことはヘイトスピーチにも言える。あらゆるメッセージが1つの写真やビデオに埋め込まれていたらシェアは容易だ。字幕機能が便利なツールになる。

同社によると、現在このシステムは複数言語対応という新しい課題をもたらしている。現在は言語を統一したモデルによって動いていて、訓練データの大部分はラテン文字を使っている。同社の研究論文によると、現在既存データベースの最目的化によって新言語をサポートするための戦略を検討しているという。

Facebookは人間監視役の負荷を減らし、ニュースフィードアルゴリズムが分類結果に応じてコンテンツを選べるようしたいと考えている。こうしたツールは、Facebookが有害コンテンツを識別し、より興味深いコンテンツをユーザーに見せるうえで大きな可能性を持っている。

[原文へ]

(翻訳:Nob Takahashi / facebook

Adobe Photoshopの‘コンテンツに応じた塗りつぶし’が性能アップ、おかしな失敗が減少

Adobe Photoshopの“コンテンツに応じた塗りつぶし”(content-aware fill)が登場したときは、誰もが感激した。退屈な名前だけど、すばらしく便利な機能で、画像のセレクトした範囲内にAIが選んだ画像の破片をリプレースして、そのまわりと同じ本物らしく見せかける。しかしAIは万能ではないから、ときどき、おかしな、笑えるような結果になった。でも今度の新しいツールでは、AIの失敗がほどんどなくなるそうだ。

今日(米国時間9/10)発表された予告編ビデオでは、コンテンツに応じた塗りつぶしの設定項目が大量に増えたから、修正作業が楽しくなるかもしれない。フォトグラファーは元々、加工や修正が好きな人種だが、修正のメニューが増えればそれだけ結果も良くなる。

以前は、どうだったか…

…ときどき、こんな結果になった…

[コンテンツ対応の失敗]

…今度からは右側に大量のオプションが並ぶのでそこから選ぶ。

いちばん重要な違いは、ユーザーが範囲指定をした領域内でどの部分を塗りつぶすべきかを、AIが選べることだ。上の失敗例では、馬の部分を塗りつぶそうとして、ほんの一筆(ひとふで)か二筆(ふたふで)ぶん、除外している。しかし正確である必要はない。人間の手とマウスによる指定が1ピクセルの精度で間違っていても、今度のアルゴリズムは正しく判断する。

改良されたアルゴリズムはさらにお利口になり、使用する成分の回転や縮小拡大も臨機応変に行なう。その方が良い、と判断したら、コンテンツの鏡像も使う。

塗りつぶしを、別のレイヤ(層)に出力できるので、アーチストにとって重要な「非破壊的編集」ができる。これは、前からあるべきだった、とぼくなどは思うね。

ここまで強力な修正をやると、純粋な人はしらけるかもしれない。でも、実際に手元にある写真を使うしかない場合もあるし、ちょっと牛の数が多すぎる、ということもあるだろう。手作業による写真修正の名人ではない人が、大きな修正をしなければならないときには、使ってもいいことにしておこう。

今回の新しいアップデートは“もうすぐ提供”ということだから、アップデートの通知によく注意していよう。

画像クレジット: Adobe

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Lockheed Martinがドローンレースのチームと組んでAI自律ドローンの勝利に懸賞

Lockheed MartinDrone Racing League(DRL)が協力して、操縦者のいないドローンを今よりもずっとお利口にしようとしている。商用ドローンをAI化するそのプロジェクトは、“自律航行のドローンが人間が操縦するドローンとレースをして勝つこと”、を目指している。

今日(米国時間9/5)サンフランシスコで行われたTechCrunch Disruptで、Lockheed MartinのCTO Keoki Jacksonが、優勝者の賞金は200万ドル、と発表した。

“Lockheed Martinでは、ドローンに高度なAIを搭載して、これまで不可能だった困難な仕事をやらせることを目指している。それらは、山火事の消火や、自然災害における人命救助、深宇宙の最深部の探検などだ”、とJacksonは語る。“そこで今回は次世代のAIイノベーターたちを招待して、弊社のAlphaPilot Innovation Challengeに挑戦していただきたい。参加者たちは、自律航行とAIの未来を定義する役割を担い、世界がその将来性ある技術を利用して、より明るい未来を構築できるだろう”。

参加者はドローンのAI部にNVIDIAのJetson組み込みモジュールを使用し、しかもそのドローンは、“事前のプログラミング不要、人間の介入不要”でなければならない。レースのコースは、三次元的である。人間が操縦するDRLのドローンに“ドローンの知能テスト”でも勝つと、さらに25万ドルをもらえる。それは、アマチュアのドローン対、Lockheedの知識量の多いドローンプログラムとの勝負だ。

Lockheed Martinは今回、Drone Racing Leagueと協働して、未来のドローンレースにAIを持ち込もうとしている。目標は、人間操縦士よりも上手に飛べる自律ドローンを作ることだ。

懸賞の詳細はここにあり、レースは11月に行われる。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google Cloudが音声↔テキストAPIを大幅アップデート、WaveNetでより自然な音声を

Google CloudのText-to-SpeechSpeech-to-Text APIが今日(米国時間8/29)、大量のアップデートを行い、サポートする言語を増やし、いろんなスピーカーからの自動生成音声を聴きやすくし、スピーカーの音声認識ツールを改良してテキスト書き起こしの精度を上げる、などの機能向上を導入した。

このアップデートにより、Cloud Text-to-Speech APIが一般的に可利用になった。

多くのデベロッパーにとっていちばん魅力的なのは、17の新しいWaveNetベースの音声が複数の新しい言語でローンチしたことだろう。WaveNetはGoogle自身の技術で、機械学習を使ってテキスト読み上げのオーディオファイルを作る。その結果、より自然に聞こえる音声になった。

このアップデートで、Text-to-Speech API(テキスト読み上げAPI)は今や14の言語とそれらの変種をサポートし、標準音声30とWaveNetの音声26を揃えている。

ここへ行くと、今回加わった新しい音声も含め、自分のテキストでGoogleのデモを試すことができる。

新しい機能の中では、オーディオプロフィールもおもしろい。これは、再生するメディアに合わせてオーディオファイルを最適化する機能だ。たとえば、スマートフォンのスピーカーとテレビの下にあるサウンドバーでは、音が違うだろう。オーディオプロフィールを使うと、音声を、電話の通話やヘッドフォンやスピーカーなどなどに合わせて最適化できる。

[元の音声と最適化の結果]

Speech-to-Text(書き起こしAPI)の方では、複数のスピーカーからの音声をより正しく書き起こせるようになった。機械学習を使っていろんなスピーカーを認識し、ひとつひとつの語にスピーカー番号のタグをつける(スピーカーの数は人間が指定する)。たとえばスピーカー2つのステレオファイルなら、それぞれの言葉の出どころを区別できるし、怒った顧客がカスタマーサポートに電話をしている音声なら、やはり各語の話者を識別できる。

複数言語のサポートも、新しい。検索には前からあったが、これからはそれをデベロッパーが利用できる。この書き起こしAPIに対しては、最大で4つの言語を指定できる。するとAPIは、今どの言語が喋られているかを、自動的に聞き分ける。

さらに、Speech-to-Text APIは、単語のレベルでの自信点を返す。すでに個々の談話レベルの自信点はあったが、今度からはデベロッパーは単語レベルのアプリ構築ができる。たとえば、“please set up a meeting with John for tomorrow at 2PM”(明日の午後2時にジョンとのミーティングをセットアップしてくれ)に対して‘John’や‘2PM’の自信度が低ければ、ユーザーにそれらを二度繰り返させるアプリを書けばよい。‘please’の自信度が低くても、それは重要でない単語だから、そのままでよい。Googleのチームは、そう説明している。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google、データセンターの空調管理をAIに一任

データセンターの中は暑くてうるさい——そしてサーバーをオーバーヒートから守ることは運用コストの大きな部分を占めている。業界の大物、Facebook、Microsoft、Googleらがさまざまな方法で冷却コストの節減を目指しているのも当然だ。Facebookは可能な限り外部の空気を冷やす。Microsoftは水中データセンターを実験中。そしてGoogleは、同社のAIモデルを使っていっそうの節約を目論んでいる。

数年前、Googleは傘下のDeepMindを通じて、データセンターに最適な冷却方法を運用者に提供するために、機械学習の利用を探ってきた。しかし、当時はまだシステムは推奨するだけで実施するかどうかは人間のオペレーターが判断していた。今後その人たちは、午後の昼寝時間を長くとれるようになる。モデルが十分に進歩した結果、AIを備えたシステムに冷却システムの制御を任せられるとチームが判断したからだ。もちろん、オペレーターは今も介入できるが、AIが中止の決定をくださない限り、システムは無人運転を続ける。

  1. DME_DCIQ_v09-01.max-2000x2000

  2. DME_DCIQ_v09-02.max-2000x2000

  3. DME_DCIQ_v09-03.max-2000x2000

  4. DME_DCIQ_v09-04.max-2000x2000


新しい冷却システムは現在複数のGoogleデータセンターに設置されている。5分毎に、システムがデータセンター内の数千個のセンサーから値を取得しその情報を元に最適な行動を選択する。もちろん、そこには様々な抑制と均衡が働いているので、Googleのデータセンターがこのために崩壊する可能性は低い。

多くの機械学習モデルと同じく、システムはデータを収集すればするほど賢くなる。現在、これまでのデータセンターのエネルギー利用と比べて平均30%のエネルギー節約を実現している。

ひとつ指摘しておくべきなのは、Googleはわずかな節約のためだけなく、これを自社の機械学習サービスの宣伝のひとつと考えていることだ。つまるところデータセンターでうまくいくなら、大きなオフィスビルディングにも適用できるはずだ。「長期的には、このテクノロジーをほかの環境にも適用し、より大規模な空調にも役立てる可能性があると考えている」、とDeepMind今日の発表文に書いている。

[原文へ]

(翻訳:Nob Takahashi / facebook

ブロックチェーンを破壊するハッカーの手口をシミュレーションしてデベロッパーの事前対策を可能にするIncentivai

暗号通貨のプロジェクトは、人間がそのブロックチェーンを悪用すると破綻する。しかも分散デジタル経済が実際に動き出し、コインが離陸すると、それらを統治するスマートコントラクトの修復は難しい。あくまでも、デベロッパーによる事前対策が必要である。そこで、今日(米国時間8/17)ステルスを脱したIncentivaiは、その人工知能によるシミュレーションで、セキュリティホールを調べるだけでなく、ブロックチェーンのコミュニティを構成している人間たちの貪欲や非論理性にメスを入れる。暗号通貨分野のデベロッパーはIncentivaiのサービスを利用して、自分たちのシステムが動き出す前に、その欠陥を修復できる。

Incentivaiの単独のファウンダーPiotr Grudzieńはこう言う: “スマートコントラクトのコードをチェックする方法はいろいろあるが、新たに作った経済が期待通りに動くことを確認する方法はない。そこで私が考えたのは、機械学習のエージェントを利用するシミュレーションを作り、それが人間のように振る舞うことによって、システムの未来の振る舞いを予見する方法だ”。

Incentivaiは来週Y Combinatorを卒業するが、すでに数社の顧客がいる。顧客(ユーザー)は、Incentivaiの有料サービスにより自分たちのプロジェクトを監査してレポートを作るか、または自分でそのAIによるシミュレーションツールをホストしてSaaSのように利用する。同社がチェックしたブロックチェーンのデプロイは数か月後になるが、そのとき同社はすでに、そのプロダクトの有意義性を実証するための、いくつかのケーススタディーをリリースしているだろう。

Grudzieńは説明する: “理論的にあるいは論理としては、一定の条件下ではこれこれがユーザーにとって最適の戦略だ、と言うことはできる。しかしユーザーは、合理的でも理性的でもない。モデルを作ることが困難な、予想外の行動がたくさんある”。Incentivaiはそれらの理不尽な取引戦略を探求して、デベロッパーがそれらを想像しようと努力して髪をかきむしらなくてもよいようにする。

人間という未知数から暗号通貨を守る

ブロックチェーンの世界には巻き戻しボタンがない。この分散技術の不可変かつ不可逆的な性質が、良かれ悪しかれ、一度でもそれを使ったことのある投資家を遠ざける。ユーザーが偽りの請求をしたり、贈賄によりそれらを認めさせようとしたり、システムを食い物にする行動を取ったりすることを、デベロッパーが予見しなければ、彼らは攻撃を阻止できないだろう。しかし、正しくてオープンエンドな〔固定しない〕(AIに対する)インセンティブがあれば…これが社名の由来だが…AIエージェントはなるべく多くの収益を得るために自分にできることをすべてやってみて、プロジェクトのアーキテクチャにあるコンセプトの欠陥を明らかにするだろう。

Grudzieńはさらに説明する: “この〔すべてをやってみるという〕やり方は、DeepMindがAlphaGoでやったものと同じで、さまざまな戦略をテストするのだ”。彼はケンブリッジの修士課程でAIの技能を究め、その後Microsoftで自然言語処理の研究を担当した。

Incentivaiの仕組みはこうだ。まず、デベロッパーは、ブロックチェーンの上で保険を売るなどの、自分がテストしたいスマートコントラクトを書く。IncentivaiはそのAIエージェントに、何を最適化するのかを告げ、彼らが取りうるすべての可能なアクションを羅列する。エージェントの役柄はさまざまで、大金を手にしたいと思っているハッカーだったり、嘘をばらまく詐欺師だったり、コインの機能性を無視してその価格の最大化だけに関心のある投機家だったりする。

そしてIncentivaiはこれらのエージェントにさらに手を加え、彼らを、ある程度リスク忌避型だったり、ブロックチェーンのシステム全体を混乱させることに関心があったり、といったタイプにする。それから、それらのエージェントをモニターして、システムをどう変えればよいかというインサイトを得る。

たとえば、トークンの不均一な分布がパンプ・アンド・ダンプ(pump and dump, 偽情報メールによる価格操作詐欺)を招く、とIncentivaiが学習したら、デベロッパーはトークンを均一に分割して、初期のユーザーには少なめにする。あるいはIncentivaiは、認められるべき支払請求をユーザーが票決する保険製品は、投票者が偽の請求を偽と立証するために支払う債権価格を上げて、詐欺師から収賄しても投票者の利益にならないようにする必要があることを、学ぶかもしれない。

Grudzieńは、自分のスタートアップIncentivaiについても予測をしている。彼の考えによると、分散アプリケーションの利用が上昇すれば、彼のセキュリティサービスのやり方を真似るスタートアップが続出するだろう。彼によると、すでに一部のスタートアップは、トークンエンジニアリングの監査や、インセンティブの設計、コンサルタント活動などをやっているが、ケーススタディーを作る機能的シミュレーションプロダクトは誰もやっていない。彼曰く、“この業界が成熟するに伴い、そういうシミュレーションを必要とする、ますます複雑な経済システムが登場するだろう”。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

ドローン+AIで発電/送電施設等の異状を至近距離で検出するSterblue

ドローンの商用利用に関する政府の規制は、関連企業にとってとてもポジティブな方向に向かってるようだし、またドローンを利用するスタートアップにとっては、人工知能を利用して人間の努力なしで結果を得る機会がますます増えている。

Y Combinatorの最近のクラスを卒業したフランスのSterblueは、市販のふつうのドローンと、そのような自動化手法を使って、大きな屋外建造物の近接検査をする。

同社のソフトウェアはとくに、自動化されたシンプルな飛跡で大型の送電線やウィンドタービン(風力発電機のタービン)を検査し、それを人間がやるより短時間かつ少ないエラーで行なう。また、対象の至近距離まで接近できるので、細部の高精細画像が得られる。

混みあった都市環境と違ってSterblueが調べる対象物は、異状がそれほど多くない。またCADのデータが得られるので、飛行経路の設計も比較的易しい。そして、まわりに物が密集していないから、風などに対応してドローンの姿勢を直すための空間も十分にある。

ドローンのオペレーターは、ドローンをSterblueのクラウドプラットホームに接続し、そこに写真をアップロードしたり、構造物の3Dモデルを見たりできる。飛行の間、Sterblueのニューラルネットワークが、今後の精査が必要と思われる問題箇所を見つける。Sterblueによると、ドローンは送電線から3メートルの距離にまで接近できるので、同社のAIシステムは撮った写真から異状を容易に検出できる。汚損や傷などの最小検出サイズは、1ミリメートルととても小さい。

最初、ドローンは自社製を使っていたが、ユーザーを増やすにはDJIのような一般市販品をサポートすべし、と気づいた。同社のファウンダーたちはAirbusの元社員で、当面は電気などの公益企業を顧客にしていく予定だ。そして最初はヨーロッパ、次いでアフリカとアジアを市場としてねらっている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Nvidiaの新しいハイエンド、TuringアーキテクチャはリアルタイムのレイトレーシングとAIを合体

このところ、Nvidiaの新しいアーキテクチャTuringに関するリークは、サンタクララにある同社の本社が震源だったようだ。それを当然と思わせるかのように同社は、今日のSiggraphのキーノートで、この新しいアーキテクチャと、Quadro系列の一員となる、プロ用ワークステーションのグラフィクスカード3種のローンチを発表した。

NvidiaによるとTuringアーキテクチャは、“2006年のCUDA GPU以来のもっとも偉大な飛躍”だ。相当な大言壮語だが、意外と真実をついているのかもしれない。これらの新しいQuadro RTxチップは、同社の新製品RT Coresをフィーチャーする最初のチップであり、ここで“RT”はレイトレーシングを意味する。それは、光がシーン中のオブジェクトと対話/干渉するときの径路を追跡するレンダリング方法だ。この技術の歴史は、とても長い(AmigaのPOV-Rayをおぼえておられるだろうか)。従来からこの技術はきわめて計算集約的だったが、物をリアルに見せる点では優れていた。最近では高速GPUが並列処理で一度にたくさんの計算をできるようになったため、Microsoftが最近、DirectXにレイトレーシングのサポートを加えるなど、新たな脚光を浴びている。

NvidiaのCEO Jensen Huangはこう語る: “ハイブリッドレンダリングがわれわれの業界を変え、そのすばらしい技術の可能性が、美しいデザインとリッチなエンターテインメントと、充実した対話性で、私たちの生活を豊かにするだろう。リアルタイムのレイトレーシング*の到来は長年、われわれの業界の見果てぬ夢だったのだ”。〔*: レイトレーシングのリアルタイム化。〕

この新しいRTコアはレイトレーシングをNvidiaの従来のPascalアーキテクチャに比べて最大25倍高速化し、Nvidiaが主張する最大描画速度は毎秒10 GigaRaysだ(下表)。

Turingアーキテクチャによる三つの新しいQuadro GPUは、当然ながら同社のAI専用ユニットTensor Coresと4608基のCUDAコアを搭載し、最大毎秒16兆の浮動小数点数演算と、それと並列に毎秒16兆の整数演算を行なう。そのチップは作業用メモリとしてGDDR6メモリを搭載し、NvidiaのNVLink技術によりメモリ容量を96GB 100GB/sまで増強している。

AIの部分は、いまどき当然であるだけでなく、重要な意味もある。Nvidiaが今日ローンチしたNGXは、AIをグラフィクスのパイプラインに持ち込むための新しいプラットホームだ。同社はこう説明する: “NGXの技術は、たとえば、標準的なカメラフィードから超スローなスローモーションの動画を作りだすなど、これまでは10万ドル以上もする専用カメラにしかできなかったことをする”。また映画の制作現場は、この技術を使って容易にワイヤを消したり、正しいバックグラウンドで欠けているピクセルを補ったりできるそうだ。

ソフトウェアに関しては、Nvidiaは今日、同社のMaterial Definition Language(MDL)をオープンソースにする、と発表した。

今すでにTuringアーキテクチャのサポートを表明している企業は、Adobe(Dimension CC), Pixar, Siemens, Black Magic, Weta Digital, Epic Games, Autodeskなどだ。

もちろんこれだけのパワーには、お金もかかる。新しいQuadro RTX系列は16GBの2300ドルが最低価格で、24GBでは6300ドルになる。倍の48GBなら、約1万ドルだ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Siriが地元の変わった名前の店も認識できるようになった

近くのスターバックスやTargetストアへの道順を教えることはAppleのバーチャルアシスタントが得意とするところだ。しかし、Siriは自分が聞いたことのない地元の店を別のフレーズやユーザーの言い間違えと誤解することがある。Appleはこれを解決するために、Siriの知らない超ローカルな名前のライブラリを作り、”Godfather’s Pizza” を ”got father’s piece” と聞き違えないようにする。

音声認識システムは膨大な量のデータを使って訓練する必要があるが、それによって文の解析やフレーズ認識の能力は高まるものの、ユーザーや友達がいつも使っている語彙を理解できるとは限らない。

私が友人に向かって “let’s go to St. John’s for a drink” と言えば、彼らは私が中西部の大聖堂ではなく、近くのバーを指していると理解する。しかしSiriにはそれを知る術がない——それどころか “St. John’s” がひとつのフレーズであることを認識できなければ、私がまったく別のことを言ったと思うかもしれない。入力ボックスにテキストをタイプするのとは違い——あれは文字列の一致をみるだけ——Siriはユーザーの発した音声から最善の予測をしなくてはならない。

しかし、もしSiriがシアトル地域のことを知っていれば、誰かが “St. John’s” と言えばバーのことだろうとわかるので、苦労して考えたり聖人(saint)の候補リストから選んだりすることなく、すばやく正確に反応できる。それがAppleの最新研究の結果だ。今は英語のみだが、多言語への対応も時間の問題だろう。

このためにAppleの音声認識チームは、Appleマップのローカル検索結果を使って「関心のある場所」を取り出した。人は場所を探すとき「いちばん近くの~」や「~への道順は?」などと聞くので識別できる。

こうした関心のある場所は、Taco Bellなどの全国チェーンを除けば地域に特化した場所を表す。シアトルのハンバーガー好きなら、一番近くにあるDick’s Drive-inを調べるだろう(実際にはどこにあるか知っているが)。ロサンゼルスなら、もちろんIn-N-Outだ。しかしピッツバーグの人はどちらも探すことはない。

Appleはこの地域情報を、米国国勢調査局が定義した169の「大都市統計地域」に分けた。これらの地域に特化した店などの名称は、Siri が使う主要な言語モデル(LM)ではなく、ユーザーが関心のある場所を探すフレーズ(「いちばん近い~はどこ?」や「~への道順は?」など)を使ったときに用いる小さな補助モデル(Geo-LM)に登録される。

このため、”who is Machiavelli” と言ったときには、人名のMachiavelliに関する答えが返ってくるが、” is Machiaveli’s” と言えば、システムはGeo-LMを使って地元の関心スポットリストにMachiavelli’sが載っているかどうかを調べる。こうしてSiriは、マキャヴェリ氏が投獄されていた場所ではなく、レストランへの道順を答えるべきだとわかる。

こうすることで、最大25~30%だったエラー率は10~15%へと大幅に減少した。これは3回中2回しか正しい結果が得られなかったものが、10回中8~9回になることを意味している。Siriが繰り返しユーザーの欲しいものを理解できなくて、使うのを諦めてしまうことを防ぐ可能性のある質的改善だ。

この方法のすばらしいところは、比較的容易に多言語にも拡張できることだ。スペイン語でも韓国語でも、十分なデータさえあれば使えない理由はない。その意味では、Siriが隠語の多い業界人向けに特化した語彙ライブラリーを作ってくれれば、スペリングエラーを減らすことができるだろう。

機能はすでに公開されているので、今すぐテストできるはずだ。あるいはすでに使っていて気づいていないだけかもしれない。

[原文へ]

(翻訳:Nob Takahashi / facebook

巨大AI企業SenseTimeがビデオ技術のMoviebookへ$199Mの投資をリード、その戦略的意図は…

SenseTimeは、45億ドルあまりの評価額で6億2000万ドルを調達し、評価額が世界最高のAI企業として知られているようだが、同社はしかし投資家でもある。この中国企業は今週、オンラインのビデオサービスをサポートする技術を開発している北京のMoviebookへのシリーズD、13億6000万人民元(1億9900万ドル)のラウンドをリードした。

Moviebookはこの前2017年に、シリーズCで5億人民元(7500万ドル)を調達した。今回のシリーズDは、SB China Venture Capital(SBCVC)が、Qianhai Wutong, PAC Partners, Oriental Pearl, およびLang Sheng Investmentらと共に参加した。〔SB==Softbank〕

SenseTimeによると、同社は投資と共にMoviebookとのパートナーシップも契約し、二社がさまざまなAI技術で協力していく。たとえば、エンターテインメント産業におけるAIの利用増大をねらった拡張現実技術などだ。

SenseTime Group Ltd.のオブジェクト検出/追跡技術が、2018年4月4日に東京で行われたArtificial Intelligence Exhibition & Conference(人工知能エキシビション&カンファレンス)でデモされた。このAIエキスポは4月6日まで行われた。写真撮影: Kiyoshi Ota/Bloomberg

声明の中でSenseTimeの協同ファウンダーXu Bingは、両社は、放送やテレビとインターネットのストリーミングなどからの大量のビデオデータを利用して、未来の多様な商機を開拓していく、と述べている。彼はまた、AIなどの新しい技術をエンターテインメント産業に導入していくことの持つポテンシャルを、強調している。

このような戦略的投資をSenseTimeが行なうのはこれが初めてではないが、今回がいちばん重要だろう。同社はこれまで、51VR, Helian Health, そしてリテールの巨人SuningからのスピンアウトSuning Sportsなどに投資している。

SenseTime自身は投資家たちから16億ドルあまりを調達しており、その投資家はAlibaba, Tiger Global, Qualcomm, IDG Capital, Temasek, Silver Lake Partnersなど、きわめて多様だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

FirefoxがユーザーのWeb世界を拡張する提案機能‘Advance’エクステンションをテスト中

MozillaのFirefox Webブラウザーが今日(米国時間8/7)、Advanceと呼ばれる実験的なエクステンションを発表した。それは機械学習を利用して、ユーザーがもっと文脈的かつ直感的な広がりのあるWebサーフィンをできるようにする。このエクステンションは、Firefoxが今行っているTest Pilotプログラムの一環で(ユーザーはこれにいつでも オプトインできる)、Laserlikeの機械学習バックボーンを利用して、ユーザーのWeb閲覧習慣を理解しようとする。

その仕組みはこうだ: Test PilotでAdvanceを有効にすると、Webの閲覧はふつうにできるが、Advanceはユーザーが閲覧するサイトの種類について記録と学習を開始する。そしてその学習に基づいて、その人のWeb閲覧を補完するようなページや、その人が好きになりそうなページをサイドバーで推奨する。そしてユーザーは、Advanceが正しくないと感じたら、推奨されたページに「退屈」「的外れ」「スパム」などのフラグをつけて、エクステンションの推奨能力を鍛えていく。

この機能は同社のContext Graphイニシアチブの一部で、それは“インターネット上の次世代のWeb発見”を探求し、ユーザーのWeb世界をこれまでの日常よりも広くしようとする。そしてもちろん、Firefoxブラウザーの上で彼/彼女が過ごす時間を長くしたい。このイニシアチブの最初の機能Activity Streamは、ユーザーの閲覧履歴やブックマークの情報をより有効利用する試みで、今ではTest Pilotを卒業してFirefoxブラウザー本体に装備されている。

Advanceの導入は、最近閉鎖したStumbleUponが遺したギャップを填める試みでもある。インターネットという広大な大陸の上で途方に暮れているユーザーに16年間も、珍しいサイトやおもしろいページを紹介し続けてきたStumbleUponの仕事を、Advanceが引き継ごうというのだ。“偶然の出会い”という要素が大きかったStumbleUponと違って、Advanceにはユーザー履歴の学習に基づくお利口なオプションもあるが、インターネット上をさまようユーザーのための案内役、という点では共通している。

しかし、人生を楽にすると称する機械学習の技術が、インターネット上のWeb閲覧を助けられるためには、Advanceも、そしてバックボーンのLaserlikeも、ユーザーの閲覧履歴を大量に知る必要がある。AIが学習するためには大量のデータが必要だが、Mozillaも認めるように、個人情報の悪用や誤用への懸念も、最近のFacebookEquifaxの事故を契機として高まっている。

この不安に応えるためにAdvanceには、閲覧履歴の収集をさせないオプションや、見たら消すことをLaserlikeに求めるオプションがある。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google CloudがNvidiaのTesla P4推論アクセラレーターをサポート

今やクラウドプラットホームは、GPUのサポートなくして完全とは言えない。今日のハイパフォーマンスワークロードや機械学習のタスクは、それなくしてサポートできないからだ。それらは多くの場合、機械学習のモデルの構築に使われることが多いが、しかし今日(米国時間8/6)Googleは、Nvidia P4アクセラレーターのサポートをローンチし、既存のモデルをより高速に走らせることによる推論の性能アップにフォーカスしようとしている。

また、これらの機械学習のワークロードのほかに、Google Cloudのユーザーは、高速なグラフィクスカードを必要とするリモートディスプレイのアプリケーションを、GPUを使って動かすことができる。そのためにGPUは、リモートデスクトップにログインするユーザーのためにサーバーサイドのグラフィクスの応答性を高めるシステム、Nvidia Gridをサポートする。

P4には8GBのDDR5メモリがあり、最大で毎秒22テラの整数演算ができるから、ほとんど何でもできるカードだ。しかも買うと2200ドル以上はするから、時間制で借りる方が賢明だろう。

Google Cloud上でP4を使うと、標準料金では1時間60セント、プリエンプティブルでよければ21セントだ。Googleの料金としてはP100やV100 GPUより安いが、ただし両者はユースケースがまったく違う。

この新しいGPUは最初、us-central1(Iowa), us-east4(N. Virginia), Montreal(northamerica-northeast1), europe-west4(Netherlands)の各リージョンで提供され、徐々にそのほかのリージョンでも提供される予定だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

GoogleのBigQueryの中で機械学習のモデルを作れるBigQuery ML…データの移動が要らない

機械学習のモデルの構築にはまだ多くの障害があり、その一つが、データのあるところからモデルを構築するところへ、大量のデータを移動することだ。Googleはその工程を少しでも容易にするために、データウェアハウスBigQueryの中でモデルを作れる機能、 BigQuery MLを立ち上げた。

BigQuery MLを使うと、モデルをファインチューニングするためにデータを行ったり来たりさせることなく、データウェアハウスの中で線形回帰やロジスティック回帰を使ってモデルを構築できる。しかも、モデルを構築して予測を得るためにやるべきことは、少量のSQLを書くことだけだ。

データの移動がそんなに大きな問題だとは、ふつうの人には思えないかもしれないが、単なる物理的な移動ではなくて選択や整形などの処理が必要だから、かなりの時間を要する。そのぶん、モデルの構築に投じるべき時間がしわ寄せされる。

BigQuery MLでは、機械学習の経験の浅い者でも、容易にモデルを構築できる。まず、SQLの変種のようなもので、作りたいモデルの種類と、入力データを指定する。するとBigQueryMLがモデルの構築を開始し、そこから直ちに予測が得られるようになる。 RやPythonでコードを書く必要はない。

BigQuery MLは、今ベータを利用できる。

[若者の失業の解決、アルツハイマー病の検出、ほか]

画像クレジット: TechCrunch

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google CloudのAutoMLサービスはFigure Eightとパートナーして訓練データの充実を目指す

機械学習のモデルの訓練やテスト、微調整などを支援するプラットホームFigure Eightが今日(米国時間7/24)、Googleとの重要なコラボレーションを発表した。それによると、今後Google CloudのAutoMLサービスでは、Figure Eightが機械学習のデータの作成やアノテーションを行なうときのデファクトスタンダードのパートナーになる。

Figure EightのCEO Robin Bordoliによると、Googleは前から顧客だったが、AutoMLがベータになり、そのプロダクトポートフォリオを拡大している現状では、両社がもっと密接に協働すべき、との結論に達した。Bordoliの主張では、デベロッパーが機械学習のモデルを構築するときの今だに最大の難関が、データの訓練だ。Googleも、そのことをよく認識している。“彼らの認識では、データ訓練の欠如がAutoMLの採用を阻む基本的な障害だ”、と彼は述べる。

AutoMLの最初のプロダクトは機械視覚がメインだったから、Figure EightとGoogleのパートナーシップも、ビジュアルデータによるモデルの訓練が多かった。Figure Eightのサービスを利用することによって、比較的経験の浅いデベロッパーでも、データの収集やAutoML向けの準備、それによる実験などができていた。

Figure Eightが類似のプラットホームと違うのは、その工程に人間が関与することだ。Bordoliの主張では、訓練データのアノテーションを完全にAIツールにまかせることなんて、できない。それは、人間にだけまかせるわけにはいかないのと、同じだ(世界中の人びとを集めてタグ付けをやらせないかぎり)。

GoogleのGoogle Cloud AutoMLのプロダクトマネージャーFrancisco Uribeはこう語る: “うちの顧客の重要なニーズが、人間によるラベル付けだ。Figure Eightとのパートナーシップによって、そのニーズのサポートが強化される”。

このパートナーシップに基づいてFigure EightはAutoML専用のテンプレートと、データをアップロードするプロセスをたくさん作った。同社はまた、顧客がデータを作って訓練する際の お手伝いも提供する(それにより、公平なAI(AI fairness)の担保を目指す)。Google CloudのユーザーはFigure Eightのプラットホームを使って最大1000までの画像にラベルを付け、また同社のアノテーターを利用することもできる(アノテーションを自分でやらない場合)。

今日の発表に至るまでにFigure Eightはすでに、100億以上のデータラベルを生成しており、Googleとの公式パートナーシップにより、それはさらに加速されるだろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Google、Hangouts Meet用デバイスにボイスコマンドを導入

本日(米国時間7/24)Googleは、サンフランシスコで行われた同社のNextカンファレンスで、近々Googleの電子会議用ハードウェアを強化しボイスコマンドを使えるようにすると発表した。

多くの人々にとって会議のセットアップは今も大きな頭痛の種である。同社はGoogle Assistantなどのツールで使われている音声対応人工知能と同じものを、会議用ハードウェアにも載せたいと考えた。そこで今日、GoogleはVoice Command for Meetを発表した。

これでユーザーは、”Hey Google, start the meeting.” と言えるようになる。そしてこれはまだ始まりにすぎない。Googleは、今後コマンドを増やしていくことを約束した。この機能は今年中に提供される予定だ。

つい昨年秋、GoogleはHangouts Meetハードウェアプログラムをスタートさせた。これは、Meetの利用者が、Googleあるいは多くの会議室で見られるCiscoやPolycomの伝統的ハードウェアを使って会議を開催する方法を提供するものだ。Googleの報告によると、Hangout Meet対応の会議室はすでに何千か所も作られている。

会議のセットアップや参加者の招待などを音声で行う簡単なコマンドを提供することで、時として複雑になる会議運用を著しく簡易化できる。会議システムは生まれてから何年にもなるのに、不必要に複雑で多くの人たちをいら立たせてきた。

もちろんユーザーたちは、Google HomeやAmazon Echoなどのおかげで、デバイスとのやり取りには慣れている。

音声対応ハードウェアを会議室に持ち込もうとしているのはGoogleだけではないことにも注目されたい。昨年11月、 CiscoはCisco Spark Assistantを発表し、Cisco製会議室用ハードウェア専用の音声コマンドを提供した。それを支える音声認識技術はMindMeldの買収によるものだ。Ciscoは2017年5月にこの会話型AIのスタートアップを1.25億ドルで買収した

[原文へ]

(翻訳:Nob Takahashi / facebook