人によるコントロールと機械学習を融合したスマート義手

義肢は年々良くなっているが、それらの強度と精度が使いやすさや能力(実際にできること)に貢献していないこともあり、とくに手足を切断手術した人たちがごく初歩的な動作しかできない場合が多い。

スイスの研究者たちが調べた有望と思われるやり方では、手動では制御できない部分をAIが引き受ける。

問題の具体的な例として、腕を切断した人が膝の上でスマート義手を制御する場合を考えてみよう。残存する筋肉に取り付けられたセンサーなどからの信号で、義手はかなり容易に腕を上げ、ある位置へ導き、テーブルの上の物をつかむ。

でも、その次はどうなる?指をコントロールするたくさんの筋肉と腱はない。そして義手の人工的な指を、ユーザーが望む曲げ方や伸ばし方ができるように解析する能力もない。ユーザーにできることが、単に総称的な「握る」や「放す」の指示だけなら、実際に手でできていたことを実行するのほぼ不可能だ。

そこが、スイス連邦工科大学ローザンヌ校(École polytechnique fédérale de Lausanne、EPFL)の研究者の出番だった。義手に「握れ」と「放せ」と命令したあと、それから先の動作を特に指示しなくても最良の握り方を見つけられるなら問題はない。EPFLのロボット工学の研究者たちは長年、「握り方の自動的な見つけ方」を研究してきた。だから今の義手の問題を解決するには、彼らがうってつけなのだ。

epfl roboarm

義手のユーザーは、本物の手がない状態でさまざまな動きや握りをできるだけうまく試みながら、そのときの筋肉信号を機械学習のモデルに解析・訓練させる。その基礎的な情報で、ロボットの手は自分が今どんなタイプの把握を試みているのかを知り、目的物との接触領域を監視して最大化することによって、手はリアルタイムで最良の握りをその場で作り出す。落下防止機構も備えており、滑落が始まったら0.5秒以内に握りを調節できる。

その結果、目的物はユーザーが基本的には自分の意思でそれを握ってる間、しっかりとやさしくその状態を維持する。目的物の相手をすることが終わってコーヒーを飲んだり、ひと切れのフルーツをボウルから皿に移したりするときは、その目的物を「離し」、システムはこの変化を筋肉の信号で感知して実際に離す行為を実行する。

関連記事:SmartArm’s AI-powered prosthesis takes the prize at Microsoft’s Imagine Cup【AIで動く義肢がMicrosoftのImagine Cupを勝ち取る、未訳)

MicrosoftImagine Cupを取った学生たちのやり方を思い出すが、それは手のひらにカメラを付けた義手の腕が目的物のフィードバックを与え、正しい握り方を教えていた。

一方こちらはまだまだ実験段階で、サードパーティ製のロボットアームと、特別に最適化していないソフトウェアを使っている。でもこの「人とAIとの共有コントロール」には将来性が感じられ、次世代のスマート義手の基盤になるかもしれない。チームの研究論文はNature Machine Intelligence誌に掲載されている。

画像クレジット:EPFL

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

サッカーの試合をAIカメラで全場面録画するVeoが米進出を狙う

デンマークのコペンハーゲンのVeoは、アマチュアのサッカーチームがもっと容易にビデオを撮ったり試合をストリーミングしたりできるための「AIカメラ」を提供している。同社はこのほど、シリーズAで600万ドルの資金を調達した。

このラウンドを支えたのは米国のCourtsideVCとフランスのVentech Capital、そしてデンマークのVC Seed Capitalだ。Veoによると、この新たな資本は米国進出のために使う。

2015年にHenrik Teisbæk氏、Jesper Taxbøl氏、そしてKeld Reinicke氏の三氏が創業したVeoは、複数のカメラオペレーターや映像ミキサーが要らないようにして、サッカーの試合や練習の映像記録を誰にでもできるようにしたいと考えた。

そのためにまずやるのは、一台でピッチ全体を撮影できる4Kレンズのカメラを使うことだ。カメラは高さ7メートルの三脚に載せ、撮った映像をAIを使ったビデオ技術で処理する。そうするとVeoのカメラは仮想的なパンやズームでアクションを追い、まるで複数箇所のテレビカメラが動く選手たちを追ってるような映像が得られる。

Veo Måløv

前の記事でも書いたように、そのためには映像の各部分を頻繁にトリミングする。全体として解像度は落ちる。でも最初が4Kだから、スマートフォンやタブレットなど小さなスクリーンなら画質はまあまあだ。

VeoのCEO Henrik Teisbæk氏は、今回の資金調達に関連して次のように述べた。「至近の目標は米国に足場を作ることだ。投資の多くがそのために使われるだろう。長期的には米国からさらに世界のフットボール市場の主役になりたい。そして願わくば、ほかのスポーツを手がけることも」。

Teisbækによると、手始めに米国を選んだのは、そこが最大で最もエキサイティングなサッカー市場の一つだからだ。そして北米のサッカー選手や監督、チームなどはとてもデータを大事にするし、新しいテクノロジーに対して積極的だ。つまりVeoにとってそこは、ポテンシャルが大きい。

一方Veoによると、同社は昨年50か国1000チームの25000試合を見て録画した。今コペンハーゲンの本社には35人の社員がいて、Veoのソフトウェアとハードウェアを開発している。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

バックアップした写真の中から目的の顔を見つけ出せる顔認識APIをIDriveがローンチ

この発表を初めて見たときには、思わず二度見してしまった。クラウド上でストレージとバックアップのサービスを提供しているIDriveは米国時間8月23日、AWSRekognitionなどと競合する顔認識APIを立ち上げた。

しかし、バックアップサービスと顔認識なんて、どんな関係があるのだろうか。実際のところ、IDriveはここしばらく顔認識技術に首を突っ込んでいた。昨年同社はIDrive Peopleというサービスを立ち上げており、バックアップしている写真に写っている自分や友人の顔をユーザーが見つけられるようにした。しかし今回のサービスでIDriveは、APIビジネスという新しいビジネスの分野に踏み込んだ。

そのAPIサービスはIDrive Faceと呼ばれ、静止画像の中に複数の顔を見つけたり分析したりする標準的なツールが含まれている。顔認識APIなら必ずあるような機能だ。そのためにAPIは、通常のバウンディングボックス(境界ボックス)とすべての顔のメタデータを提供している。また顔や性や年齢や顔に表れている気分などで人を特定するための、比較や検証の機能もある。気分の検出は、このAPIの独自の機能だ。APIへのリクエストはすべて暗号化され、またAPIの使い方はかなり単純明快なようだ。

IDriveは、そのツールの精度と性能がAWS Rekognition並みであるが安くなると約束している。料金はデベロッパープランでは月額49.5ドル。1トランザクションあたり0.0001ドル、最大毎分75トランザクションまで、ストレージ容量は無制限だ。ビジネスプランは月額124.5ドル。1トランザクションあたり0.0001ドル最大毎分500トランザクションまでだ。オーダー規格のエンタープライズプランもあり、また無料で試用もできる。

AWSの料金体系は例によって複雑だが、月額料金はない。また、人の顔しか認識できないIDriveと違って、テキストやオブジェクト、風景、セレブの人たちなど、いろんなものを認識するRekognitionのほうを、高くても使うユーザーもいるだろう。

GenderAge Detection

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

AI利用のハードルを下げるH2O.aiがゴールドマンサックスのリードで約77億円調達

H2O.aiのミッションは、AIを誰でも使えるようにすることだ。そのために同社は企業に一連のツールを提供して、データサイエンティストのチームが要らないようにする。同社は米国時間8月20日、Goldman Sachs(ゴールドマン・サックス)とPing An Global Voyager FundがリードするシリーズDのラウンドで7250万ドル(約77億円)を調達したことを発表した。

これまでの投資家Wells FargoとNvidia、およびNexus Venture Partnersも参加した。Goldman SachsからはJade Mandel(ジェイド・マンデル)氏がH2O.aiの取締役会に加わる。これで同社の調達総額は1億4700万ドル(約157億円)になる。

なお、Goldman Sachsは投資家であるだけでなく同社の顧客だ。H2O.aiのCEOで共同創業者のSri Ambati(スリ・アンバティ)氏によると、顧客であるWells FargoとGoldman Sachsが前2回のラウンドをリードしたことは、彼とその企業に対する信任の証だ。彼は曰く、「二度の連続的なラウンドでは顧客が投資家になっている。前回のシリーズCはWells Fargoがリードしたが、彼らは弊社を選んで使っていた。今日のラウンドはGoldman Sachsがリードし、彼らは前からうちの強力な顧客であり強力なサポーターだ」。

同社のメインのプロダクトであるH2O Driverless AIは2017年に登場し、Driverless、つまり運転手がいないという名前は、AIのエキスパートでない人たちでも、データサイエンティストのチームなしでAIを利用できる、という意味で命名された。アンバティ氏は「Driverless AIは機械学習の自動化だ。これによってワールドクラスのデータサイエンティストたちの能力を万人が手にする。ありとあらゆる機械学習のアルゴリズムを使って、モデルを自動的に作る」と説明する。

同社は同日に、レシピと呼ばれる新しいコンセプトも導入した。それは、ビジネスの多様な要件に合わせてモデルを構築するための、AIのあらゆる原料とインストラクションの組み合わせレシピ集だ。同社のデータサイエンティストたちのチームは、約100種のレシピを作ってそれらをオープンソース化。具体的には、クレジットリスクの評価、異常事態検出、資産額の査定などのためのレシピがある。

H2O.aiは2017年のシリーズCのころに比べると大きく成長した。今同社の社員は175名だが、それはシリーズCのときのほぼ3倍だ。同社はオープンソースがルーツなので、今でも2万名のユーザーが同社のオープンソースプロダクトを使っている。

アンバティ氏は会社の評価額や上場については話を避けようとするが、今はAIの初期の時代であり、長期的な視野に立って会社を育てていきたい、と言った。

関連記事:H2O.AI snares $40M Series C investment led by Wells Fargo and Nvidia(H2O.aiがNvidiaとWells FargoからシリーズCを調達、未訳)

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Facebookはユーザーの音声メッセージを無許可で書き起こした

「未来はプライベートにあり」。まさに、Facebookに残された道はそれしかない。

Facebookはユーザーの音声データを集めて、それをサードパーティの契約企業を使ってテキストに書き起こしたとされている。同社はユーザーデータのそのような扱い方をめぐって、現在当局に調べられている。

そのことを最初に報じたBloomberg(ブルームバーグ)によると、契約企業は仕事を失いたくないので匿名にしてくれと頼んだそうだ。

その記事によると、音声はMessengerアプリからのものだ。音声の会話を書き起こしと比較対照して、同社の人工知能が正しい仕事をしたか確認していた。

Facebookが音声データを集める方法はMessenger以外にもいろいろあるはずだ。しかし同社のプライバシーポリシーには、音声データを何に使っているのかに関する言及がない。Bloombergの記事は、契約企業がその仕事を「非倫理的」と感じたと書いている。その理由はユーザーの音声をサードパーティがレビューすることを、Facebookが「どこにも明記していない」からだ。その契約企業は前から、ユーザーの携帯から「音声を聴取していない」とするFacebookの主張に反駁していた。

Facebookには、音声を書き起こす理由や、サードパーティによる書き起こしをユーザーに告げない理由などを質問したが、まだ返事はない。しかしFacebookのスポークスパーソンのJoe Osborne(ジョー・オズボーン)氏は「音声データの書き起こしは8月初めにやめた」とコメントした。

ユーザーの音声をサードパーティの契約企業とそのスタッフにレビューさせた件でも、Facebookは目下調べられている。AmazonもAlexaの録音をユーザーの許可なく契約企業にレビューさせたとして非難の集中砲火を浴び、Echoデバイスにオプトアウトを加えざるをえなくなった。

そのほか、Googleは人工知能のテストで、AppleはSiriの録音の契約企業による聴取で、そしてMicrosoftはSkypeの通話を翻訳機能のテストのために聞いたとして、同じくとがめられている。

Facebookには、Alex Stamos(アレックス・スタモス)氏が辞めて以降、すでに1年以上もCSO(チーフ・セキュリティ・オフィサー)がいない。

関連記事

[原文へ]
(翻訳:iwatani、a.k.a. hiwa

クラウドアプリをAIで強制的に最適化するOpsani

米国カリフォルニア州レッドウッドのOpsaniは、クラウドアプリケーションに対し、従来のときどき行うパフォーマンスモニタリングではなくて、コンスタントに絶えず行うように最適化したいと考えた。そのためには人工知能を利用して、最適な状態をソフトウェアが学習できるようにしたい。

同社の共同創業者でCEOのRoss Schibler(ロス・シブラー)氏は次のように説明する。「強化学習を利用する機械学習のテクニックで、クラウド上のアプリケーションのパフォーマンスをチューンナップするんだ」。

シブラー氏によると、何を最適化したいかは企業によっていろいろだ。だから、「リソースまわりのさまざまなパラメータを変えてみて、そのアプリケーションのパフォーマンスを見守る。サービスとしてのアプリケーションがリアルタイムで作り出している、ビジネスの状態を表す重要な測度は何か? それは単位時間あたりのトランザクション数か、それともレイテンシーか?何にせよ、それがビジネスの重要なパラメータなら、われわれはそれを使う」と彼は言う。

彼の主張では、OpsaniはNew RelicやAppDynamicsのようなモニタリングサービスと違って、パフォーマンスをウォッチしてフィードバックをアドミンに伝えるのではなくて、パラメータを実際に変えてアプリケーションのパフォーマンスをリアルタイムで上げる。それができるためにはアプリケーションの特徴と、最適化に関するデベロッパーの要望をよく知らなければならない。

アプリケーションがなるべく安いクラウドリソースを使うように最適化するSpotinstのような最適化ツールがあるが、Opsaniはそれに似ている。ただし最安リソースを見つけるのではなくて、実際にアプリケーションをチューニングする。

同社は最近、Redpoint VenturesがリードするシリーズAのラウンドで1000万ドルを調達した。これには、前からの投資家Zetta VenturesやBain Capitalも参加した。

それでも同社はまだ若い会社で、社員数は10名あまり、そして顧客数もひとにぎりだ。その1000万ドルは、社員の増員とプロダクトの改良に当てたいとのこと。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

土壌中のマイクロバイオームを分析して農家の生産性向上を目指すBiome Makersが4億円超を調達

農業は持続可能性の大きな問題に直面している。世界の人口は増え続けていて食糧の需要も増加しているが、それに伴い森林破壊や農薬、それに温室効果ガスの原因とされる一部の肥料の使用が増える危険性もある。農耕は炭素隔離の源でもあるが、でもどうやってそれを保護するのか?また、過剰耕作によって農地の質が劣化している。そして、これだけの問題を抱えながらも農業は他の産業に比べて、長年技術開発が遅れている。

農業と技術といえば、農作物に今起きていることを正しく理解するためには「マイクロバイオーム」(Microbiome)に注目することも重要だ。マイクロバイオームは、一定の微生物相(特定の環境に生息する微生物の総称)の中にある遺伝物質の全体のことだ。例えば、ここでは農耕という圏域内にある微生物の全集合が問題になる。通常マイクロバイオームといえば人間の腸内細菌を指すことが多いが、ここでは農場という圏域内の細菌だ。

土壌の中には何百万種類もの微生物がいて、そのどれもが作物の健康に対し重要な役割を演じている。だから、土壌中の微生物は重要な「バイオマーカー」(生体指標)だと言われる。したがって土壌中の微生物を理解することから、重要なアクションに結びつくデータが得られる。

米国時間8月2日、土壌中の生態系を高度なデータサイエンスと人工知能を使って分析し、農家にデータに基づく知見と行動指針を与えるテクノロジー企業であるBiome Makersが、Seaya VenturesとJME Venturesがリードするラウンドにより400万ドル(約4億2600億円)を調達した。このラウンドにはロンドンのVC LocalGlobeも参加している。同社は調達した資金を、今後の米国やヨーロッパ、中南米などへの進出と、対象作種の多様化、および農作物の評価システムの開発に当てられる。

同社を創ったCEOのAdrián Ferrero(アドリアン・フェレロ)氏とCSOのAlberto Acedo(アルバート・アセド)氏は、前にデジタルヘルスケアのスタートアップで成功し、優秀な科学者でもある。今回は同社の二度目の資金調達ラウンドだったが、前回も国際的な投資家グループから200万ドル(約2億1300億円)を調達している。その中にはDNA配列機器のトップメーカーであるIllumina(イルミナ)のVC部門Illumina Acceleratorと、米辱の指導的投資管理企業のViking Global Investorsがいた。

Indigo AgやConcentric、Pivot Bio、Marrone Bio Innovationsなども同様の技術で微生物の同定を行っているが、Biome Makersは「オープンなデジタルサービスで農家対象のポータルでもあるところは自分たちが唯一だ」と主張している。それはあくまでも微生物学的情報を民主化して、農家が日々の農業の実践に生かせるようにするためだ。

とくに土壌に関してはこれまで、土壌の物理的化学的分析を行う企業が多く、Biome Makersのようにマイクロバイオームに着目する分析企業はあまりメジャーではなかった。しかし同社の説では、それこそが土壌を見ていくための新しい方法であり、これまで農業の実践のために利用されてこなかった重要な情報を提供できるという。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

AWSのテキスト音声変換エンジンはニュースキャスターのような話し方をする

最新の機械学習技術のおかげで、テキスト音声変換エンジンはこの数年間で大きく進歩した。以前はコンピューターがテキストを読んでることがすぐ分かったが、最近はそれも変わりつつある。Amazon(アマゾン)のクラウドコンピューティング部門AWSは今日(米国時間7/30)、テキスト音声変換を行うニューラルネットワーク用のモデルをいくつかローンチし、その中にはテレビのニュースキャスターの喋りを真似るものもある。

同社の発表声明はこう言っている。「音声のクォリティーは確かに重要だが、もっと人間的にリアルな合成音声を作ることが、これまでは忘れられていた。たとえば、話し方のスタイル。人間なら、ニュースキャスターとスポーツキャスターと大学の先生の話し方スタイルを聞き分けることができる。またほとんどの人間が、状況に応じて話し方を変える。メッセージがいちばんよく伝わるような、話し方を選ぶのだ」。

ニュースキャスターふうの話し方スタイルは、Joanna(ジョアンナ)とMatthew(マシュー)という名前までついた二人のアメリカ人の声で提供され、USA TodayとカナダのThe Globe and Mailの協力により、実際にニュース原稿の読み上げに使われている。

それは、こんな喋り方だ:


このニュース読み上げ用テキスト音声変換サービスはAmazon Polly Newscasterと名付けられ、AWSの長年のテキスト音声変化に関する研究の成果だ。AWSはそのエンジン本体をNeural Text-to-Speech Engineとして提供している。このエンジンはGoogleのWaveNetなどと変わっているものではなく、今11の音声を提供している。イギリス英語が3人、アメリカ英語が8人だ。

たとえばこれは、女性(女声)のアメリカ英語の例だ:

今のフェイクニュースの時代においては、ここまで本物の人間のようなロボットの音声がニュースキャスターのように喋ったりすると、賛辞よりもむしろ問題を感じてしまうかもしれない。ただしほとんどの場合は、ニュースを人間が読もうとロボットが読もうと大差ないだろう。ユースケースはニュース以外にもいろいろありそうだ。それにAWSが提供したサンプルを聞いたかぎりでは、以前の、長く聞いていると気分が悪くなりそうなロボット音声よりも、ずっと長く聞いていられる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Siriの録音が定期的に契約企業に送られて分析されていた

内部告発者が持ち込んだその情報をThe Guradian紙に対して確認したApple(アップル)は、ユーザーの音声の録音を秘密裏に契約企業と共有していることにより、GoogleやAmazonなどのいかがわしい企業の仲間入りをしてしまった。その人物は、Siriのクエリは常時人間リスナーたちに送られ精査されていると告げた。そのことは、Appleのプライバシーポリシーに明記されていない。

それらの録音からAppleのIDはわからないそうだが、数秒間の中に個人的な内容が含まれていることもあり、誰であるかがバレてしまうこともある。たとえば位置情報やアプリのデータ、知人の詳細情報などだ。

ほかの企業と同じようにAppleも、このデータはサービスを改善するために収集し人間が分析していると言う。そして分析はすべて、安全な施設で守秘義務を負った者が行っていると表明している。そしてほかの企業と同じようにAppleも、それをやってることを開示を強制されるまでは言わなかった。

AppleはThe Guardianに、毎日のクエリの1%未満が送られていることを明らかにした。Appleはこれまで、Siriのクエリの量が多いことを常に自慢してきたから、1%という数字は慰めにならない。何億台ものデバイスがその機能を頻繁に利用しており、控えめに見積もってもその1%未満はたちまち数十万には達するだろう。

SiriのリクエストのAppleの言う「小部分」は、ランダムに選ばれているようだ。内部告発者が言うには「医師と患者の会話やビジネスの取り引き、犯罪臭のある取り引き、性的な関係などなど、プライベートな会話の数え切れないほど多くの断片が含まれている」そうだ。

リスナーは、Siriの起動が意図的でなく偶然だった場合を聴き分けるよう訓練されている。しかしそういう偶然の音声にも、IDは分からないけれども長くて大量の個人情報が含まれていることがある。

関連記事:Google is investigating the source of voice data leak, plans to update its privacy policies(Googleが音声データのリークを調査中、未訳)

つい先日も、Googleがクリップを分析していたことが明らかになった。そしてAlexaのクエリを録音しているAmazonは、そのオーディオを無期限に保存している

Appleのプライバシーポリシーは、Siriのクエリのような非属人情報についてこう述べている:

検索のクエリも含め、私たちのサービスに対するあなたの使い方の詳細を集めて保存することがあります。この情報は、私たちのサービスが提供する結果の適切性を改善するために利用することがあります。インターネット上の私たちのサービスの品質を確かなものにするための、ごく限られた場合以外には、そのような情報にはあなたのIPアドレスが付随しません。

上で「検索のクエリ」と言っているのは、おそらくクエリの録音も含むのだろう。そして上では、一部のデータをサードパーティと共有する、と言っている。しかし、「あなたがあなたのスマートフォンに尋ねる質問が録音されて第三者と共有されることもある」とは上のどこにも書いてない。ユーザーがそれをオプトアウトする方法も、明記されていない。

Appleはプライバシーと透明性の重視を常に力説しているから、これは重大かつ明らかに意図的な手抜きだろう。今Appleに問い合わせているので、情報が得られ次第この記事をアップデートしよう。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

グーグルがコンタクトセンターの音声技術をアップデート

昨年6月にGoogle(グーグル)は、企業が自社のコンタクトセンターをもっと有効利用できるためのAI製品「Contact Center AI」を発表した。Contact Center AIはGoogleのさまざまな機械学習ツールを使って仮想エージェントを作り、エージェントの仕事を助ける。米国時間7月24日に、同社はこのツールのアップデートをいくつかローンチし、その中には特に音声認識機能の改良がある。

Googleによると、同社の自動化音声認識サポートは精度がとても高く、市販製品を導入した顧客がよく不平を言うノイズの多い電話でも正しく解釈する。その精度をさらに上げるために今回のアップデートで、「Auto Speech Adaptation in Dialogflow」(Dialogflowにおける自動音声適応)という機能をローンチした。Dialogflowは、ユーザーが顧客との会話型製品を作るための機械学習を利用したツールだ。今回のこのアップデートで、音声認識ツールは会話のコンテキストを捉えることができ、精度は40%向上したとGoogleはコメントしている。

Speech Recognition Accuracy

また、電話用の新しい機械学習モデルにより、米国英語の場合、短い発言の理解度が従来より15%向上した。またそのほかのアップデートとして、書き起こしの精度向上、訓練プロセスを容易化、エンドレスのオーディオストリーミングに「Cloud Speech-to-Text API」が対応、などがある。後者はこれまで、5分という制限があった。

Googleは、これらのオーディオのMP3を提供しているから、ダウンロードしてCDに焼くといいかも。

dialogflow virtual agent.max 1100x1100[原文へ]

(翻訳:iwatani、a.k.a. hiwa

AdobeのプロトタイピングツールXDがAlexaを統合

このところ人気が増しているプロトタイピングとデザインのツールAdobe XDに、Echo DotやEcho Showなどの上のAmazon Alexaによる音声体験をテストする機能が加わった。そのサポートは昨年10月に発表されたXDの音声プロトタイピングツールをベースとし、Adobeの初めてのAlexaスキル、すなわち制作中のプロトタイプをテストするためのスキルもある。

音声テクノロジーに関するAdobeの最近の調査によると、ユーザーは確かに音声テクノロジーを使うことに関心があるが、しかしこれまでのXDはWebやモバイルが中心だった。しかしAdobe自身も、最近の数か月で音声アプリの構築にいくつかの投資をした。また長年通常のアプリを作り慣れているデザイナーやデベロッパーも、音声アプリを任されることが多くなっている。そこで彼らのためには、使い慣れたツールで新しい音声アプリのテストができたほうがいい。

今回の統合に含まれるのは、上述のテスト用のAlexaスキルのほかに、音声プロトタイプをAlexaへエキスポートしプレビューするためのXDのAlexaプラグインだ。Adobeの音声UI/UX担当ディレクターMark Webster(マーク・ウェブスター)氏は「自分が作っているプロトタイプを実機の上で体験すると、投資家などがデザイナーやデベロッパーの意図をよく理解できる。それだけでなく、EchoなどのAlexaデバイスの上で音声プロトタイプを体験できれば、デザインについてより具体的な議論ができるようになる。そして部分的手直しも、製品開発のサイクルを一からやり直さずにできる」とコメントしている。

XDの音声サポートの初期的な段階はとても素朴で、単語を理解したら、それに対応して話をするだけだ。初歩的な機能をデモするにはこれでよくても、本物のデバイスでスキルをテストすることの代わりにはなりえない。

でも今後は、ほかの音声アシスタントもサポートされるのではないだろうか。当面は、Alexaだけだが。

XD Amazon Alexa Plugin 01

関連記事: Adobe XD now lets you prototype voice apps (Adobe XDで音声アプリをプロトタイピングできる、未訳)

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

VMwareが機械学習計算をGPUなどで加速するBitfusionを買収

VMwareは米国時間7月18日、TechCrunchのピッチコンテスト「Startup Battlefield」に参加したことがあるBitfusion(ビットフュージョン)を買収したことを発表した。Bitfusionは、企業がGPUやFPGZ、ASICなどを使って行う複雑な計算負荷の高速化を助けるスタートアップ。4年前には、そのフォーカスはAIや機械学習よりもむしろハイパフォーマンスコンピューティングのほかの分野だったが、当然ながら近年ではAIやMLへの関心が増加したことで同社の方向性も変わった。

VMwareは、ベンダーやハードウェアを特定しないBitfusionの技術を利用して、同様の能力を顧客に提供していく。具体的には同社は、Bitfusionを同社のvSphereサーバー仮想化プラットフォームに統合する。

VMwareのCloud Platform Business部門の上級副社長でゼネラルマネージャーであるKrish Prasad(クリッシュ・プラサド)氏は「Bitfusionの買収が完了したら、ハードウェアアクセラレーターを仮想化することによってAIやMLのワークロードを支援していくVMwareの戦略がより強健になる。マルチベンダーのハードウェアアクセラレーターと、それらを軸とするエコシステムは、現代的なアプリケーションを動かしていくための基幹的部位だ。これらのアクセラレーターは場所や環境を問わず利用でき、オンプレミスでもクラウド上でもどちらでも使える」とコメントしている。

プラサド氏によると、GPUのようなハードウェアアクセラレーターを最大限有効利用するために多くの企業はそれらをベアメタルでデプロイしている。しかしVMwareの見解では、そういう使い方は(仮想化に比べて)低い利用率と効率を招きがちだ。「むしろハードウェアアクセラレーターは仮想化にきわめて適しており、リソースの共有を増してコストを下げる」と主張している。

両社とも、買収の価額を公表していない。Bitfusionは2017年に500万ドルを調達し、また2018年にはSamsung Ventures小から小額の戦略的投資を取得した。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

IntelとBaiduがニューラルネットワーク訓練専用プロセッサーでパートナーシップ

米国時間7月2日、Baidu(バイドゥ)が北京で開催したAIデベロッパーのためのCreateカンファレンスで同社とIntel(インテル)は、後者のニューラルネットワークを訓練するためのチップNervana Neural Network Processorでパートナーすることを発表した。名前から明確に分かるように、この開発途上のチップ(NNP-Tと略称)は、大規模なディープラーニングを実行するニューラルネットワークを訓練するための専用プロセッサーだ。

NNP-Tに関するBaiduとIntelのコラボレーションにはこのカスタムアクセラレーターのハードウェアとソフトウェアの両方が含まれ、それらが確実に、BaiduのディープラーニングフレームワークPaddlePaddleに向けて最適化されているように図る。Intelはすでに、Intel Xeon Scalableプロセッサーの上でのPaddlePaddleの最適セットアップで協力しているが、今回のパートナーシップはそれを補完するものになる。NNP-Tの最適化は、ニューラルネットワークの分散訓練にフォーカスしたPaddlePaddleのアプリケーションをとくに対象とする。それにより、他のタイプのAIアプリケーションも完成させる。

IntelのNervana Neural Network Processor系列は、同社が2016年に買収したNervana社からその名前を受け継ぎ、Nervanaの元CEO Naveen Rao氏が率いるIntelのAIグループが開発した。NNP-TはAIの訓練用に特製されていて、データセットの取り入れとジョブのやり方の学習に用いられる。また今年のCESで発表されたNNP-Iは、推論専用である。すなわち学習の結果を利用してさまざまなAIの仕事そのものを行う。

NNPがデビューしたのは2017年で、第1世代のチップは現在、ソフトウェア開発のプロトタイプ、および、パートナー向けのデモハードウェアとして利用されている。そして、最新のいわゆる「Spring Crest」(春の最盛期)世代は今年、プロダクション向けに利用可能となる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

クラウドデータウェアハウスとデータサイエンスコミュニティを統合して仕事が楽に

Googleは2017年に、Google Cloud上のビッグデータ処理ツールのためにデータサイエンスのコミュニティを作りたくてKaggleを買収した。そして今日(米国時間6/24)同社は、Kaggleと、GoogleのクラウドデータウェアハウスBigQueryの直接的な統合を発表した

具体的には、データサイエンティストはKaggleのJupyter Notebook、通称Kaggle Kernelsでモデルを作れる。それからそのツールのAPIを使ってBigQueryにダイレクトにリンクでき、データウェアハウスのデータにSQLでずっと簡単にクエリを送れる。SQLは、データサイエンティストたちにとって、きわめてお馴染みの言語だから。

この方式の利点はGoogleによると、データに対しクエリを送ったり機械学習を実行したりするためにわざわざデータの移動やダウンロードをしなくてもよいことだ。この統合を紹介するブログ記事でGoogleは次のように書いている。「あなたのGoogle CloudアカウントがKernelsのノートブックやスクリプトにリンクしたら、BigQuery APIのクライアントライブラリを使ってノートブックの中で直接クエリを構成でき、BigQueryに対するクエリの実行やデータのさまざまな分析もできるようになる」。

データサイエンティストの仕事のやり方は独特だが、そのやり慣れたやり方で仕事ができるし、モデルを作って機械学習を実行することに伴う摩擦を軽減できる。いろんなツールをとっかえひっかえ使うのではなく、仕事全体をスムーズでよく統合化されたやり方でできるようになる。長期的には時間と精力の節約になるだろう。

しかも、Kaggleはデータサイエンティストたちのオープンなコミュニティだから、Kernelsを共有することもできる。逆に、公開されているリポジトリを検索するときKernelsを開始点として使ったり、さまざまなタイプのデータセットで実験するときの参照モデルとすることもできる。

Kaggleでは、ほかのデータサイエンティストたちといろんな問題をオープンに議論できる。コミュニティには300万のユーザーがいて、その公開リポジトリにはおよそ20万のKernelsがあなたの探求を待っている。

関連記事: Google、データサイエンス、機械学習のKaggle買収を確認

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

すべての人間を写真から消してくれるアプリが登場

人間嫌いでありながら元気な都市に住んでいる僕には、毎日不平のタネが尽きない。建物などそこに恒久的にあるものを撮ろうとすると、必ず群衆が写り込んでくるのなんかとくに嫌だ。でも、撮った写真から人間を削除するBye Bye Cameraアプリを使えば、その悩みもやっと解消する!

それはDo Something Goodに出品されているアートのつもりのアプリだが、ときどきアートには実用性がある。この創作グループ、中でもとくにアーティストのdamjanskiは、例えば人間を排除するCAPTCHAや、Googleの2つの会話エージェントによる対話など、デジタルのいたずらをいろいろ作ってきた。

今回にアプリについてdamjanskiがArtnomeに語っているところによるとそれは、「人間が絶滅した後の時代のためのアプリであり、自撮りや個人といった虚栄をすべての写真から取り去る」のだそうだ。幸いにも、犬は消えない。

でもアプリは人間が意図的に動かすのだから、人間が必要では? 世界から人間がいなくなったら、どうなるの? などと考えこんでもいいけど、幸いにしてこのアプリにはすべての人間を消滅させる気はない。

Bye Bye Cameraは、研究者向けに一般公開されているAIツールYOLO(You Only Look Once)を使っている。とても効率のいいオブジェクトクラシファイア(物を分類するソフトウェア)で、写真の中の人間の輪郭を素早く見つけて、Adobe(アドビ)なら「状況を生かした塗りつぶし」(context-aware fill)とでも呼びそうな機能のツールで、人間がいたところを背景で塗りつぶす。塗りつぶしはやや雑だが、確実に人間は消える。

楽しいプロジェクトだが、どこからか文句が来るかもしれない。人間性に関する議論を惹起したり、「誰でも使えるAI」の危険性、なんて話題にまで発展する可能性もありそうだ。

Bye Bye CameraはiOSのアプリストアで3ドルでダウンロードできる

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

月面のピット(竪穴)をロボで偵察して月の可住性を調べるNASAのプロジェクト

月面探査車はクールだけど、崖面を垂直下降できたら探査のお仕事はもっとクールだろう。カーネギーメロン大学(CMU)の研究グループは、NASAから200万ドルの研究助成金をもらって、垂直下降ロボットの開発に取り組む。それは、月面のあちこちにある竪穴を探検する方法を探る研究プロジェクトの一環だ。

ピットとクレーターは違う。クレーターは隕石の衝突によってできた面的構造物だが、竪穴すなわちピット(Pit)は地球上の陥没穴や洞穴に近い。表面はアクセスできるが地下には大きな空洞があって、そこには各種ミネラルや水や氷があるかもしれない。それだけでなく、未来の月探検者のための、すぐに使えるシェルターになるかもしれない。

CMUロボティクス研究所のRed Whittaker教授は、インテリジェントで機敏で早足のロボットを使って行うこれらのピットの接近調査には重要なミッションがある、と語る。すなわち、月を周回する軌道上からの観測でピットの存在はすでに分かっているけど、でもその詳細はまだまったくわかっていない。たとえば、これらの陥没穴のような竪穴は、未来の月探検ミッションの役に立つのか?役に立つとしたらどのように?

Whittakerの素案は「Skylight」というコードネームで呼ばれ、ある程度自律性のあるロボットが表面のどこを調べるか自分で選ぶ。しかもその行動は、速くなければならない。月面が夜になればずっとオフラインになる。だから1回のミッションで実働時間は約1週間だ。

NASAの野心的なミッションでは、2024年に再び月面に宇宙飛行士を送る。そして2028年には月に基地を作る。そのための重要な情報を「Skylight」のような偵察ミッションが提供する。しかし時間は切迫している。ロボットがピットを偵察するミッションは、2023年の予定なのだ。

画像クレジット: NASA/GSFC/Arizona State University

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

顔写真が修正されていることを見つけて元に戻すニューラルネットワーク

Photoshopなどの画像加工ソフトを使って写真の顔を微修正することは一般的に行われているが、その画像に伴うデータに、いついつ修正されたと明記されることは少ない。カリフォルニア大学バークリー校とアドビの研究者たちが作ったツールは、写真が修正されていることを見抜くだけでなく、それを元に戻す方法も示唆する。

最初にお断りしておきたいが、このプロジェクトはPhotoshopによる修正を対象とし、特にその「Face Aware Liquify」(顔だけを液化)機能を使ったものだけに限定される。この機能を使うと、さまざまな顔の特徴を細かく、あるいは大きく、調整できる。どんな修正でも検出できるツールはまだ未来の話だけど、これはそれに向かっての第一歩だ。

研究者の中には、本誌のAI+ロボティクスイベントに最近出演したAlexei Efros氏もいる。彼らは、修正写真はアドビのツールを使ってるものが多いという想定から出発し、だからまずそれらのツールでできる修正に着目しよう、と考えた。

彼らは、ポートレート写真を少しずつ違ったやり方で修正するスクリプトを作った。目の位置を動かしてスマイルを強調する、頬と鼻を細くするなど。そして、それらの変形した視像とオリジナルを一緒に全部機械学習のモデルに投じ、それらの違いを見分けられるようになることを期待した。

学習は成功した。人間に画像を見せて、どれが修正されているか当ててみろと言ったら、当る確立はきわめて低い。でも訓練されたニューラルネットワークは、修正された画像を99%の精度で同定した。

それは一体、何を見ているのか?おそらく、画像の光学的なフローの中に、人間には感知できない小さなパターンを見つけているのだ。それらの小さなパターンが、どんな修正が行われたかを示唆する。そしてオリジナルを見たことがなくても元に戻すやり方を示唆できる。

対象はPhotoshopで修正された顔だけだから、自分の顔が変えられてどっかに勝手に載せられることを、このツールで防ぐことはできない。でもこれは、今少しずつ進歩しているデジタル鑑識技術の多くの小さな始まりの1つなのだ。

このプロジェクトに参加したアドビのRichard Zhang氏はこう言っている。「今の世界では、自分たちが消費するデジタル情報を信用することがますます難しくなっている。このような研究が今後もっともっと進歩することを期待したい」。

このプロジェクトを説明しているペーパーと彼らが書いたコードは、ここでで見られる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

AIや機械学習の企業導入を助けるスタートアップがエリック・シュミットなどから5.7億円調達

RealityEngines.AIは、525万ドル(約5.7億円)のシードラウンドを発表した。同社は、不完全なデータしかなくても、企業がAIをうまく使えるように手助けするスタートアップ。

このラウンドをリードしたのは、Googleの元CEOで会長だったEric Schmidt(エリック・シュミット)氏と、Googleの創設メンバーの一人であるRam Shriram(ラム・シュリラム)氏だ。ほかにKhosla Ventures、Paul Buchheit(ポール・ブックハイト)氏、Deepchand Nishar(ディープチャンド・ニシャー)氏、Elad Gil(エラッド・ギル)氏、Keval Desai(ケヴァル・デサイ)氏、Don Burnette(ドン・ブレネット)氏などがこのラウンドに参加した。

これだけ多くの著名な人々やVC企業がシードに参加したのは、彼らが同社のコンセプトに強く惹かれたからだ。サービスなどのプロダクトがまだ1つもない同社はその特技を、小さくてノイズの多いデータでも有効に利用して、顧客企業がすぐにでも製造に持ち込める、高度な機械学習とAIを提供することと定義している。そのシステムが行う予測にはさまざまなバイアスがなく、しかもその予測に至った理由や背景を顧客に説明できる。ブラックボックスであるAIやMLでは、内部動作の説明はとても難しいことだ。

RealityEnginesのCEOであるBindu Reddy氏は、それまでGoogle Appsのプロダクトマネージメントのトップで、今回の資金は研究開発チームの育成にあてると言った。結局のところ同社は、現在の機械学習の最も基本的で難しい問題に取り組んでいる。例えば、データセットが小さい場合には、Generative Adversarial Networksのような、既存のデータセットを拡張するソリューションがあるが、RealityEnginesそれらをさらに強力にすることを狙っている。

またReddy氏によれば、Reinforcement Learningも同社の中核的機械学習技術のひとつとして重視している。

プロダクトが完成したら、同社はそれを即時払いで従量制のマネージドサービスとして提供していく。ユーザー企業はそれにより、機械学習をより容易に実用化できる。大企業だけでなく中小企業も、このやり方で念願のAI/MLを導入し、競争力を強化できるだろう。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

10年後の人間は既製の音楽を聴いていない、米国の著名ベンチャーキャピタリスト語る

人工知能やマシンインテリジェンスがもたらす未来の世界像は、人によっては遊園地の鏡の世界以上に奇妙奇天烈だ。それも、ときには極めて本質的な意味で。米国時間6月12日に行われたCreative Destruction Labの今年で二度目のSuper Sessionイベントで、ベンチャーキャピタリストのVinod Khosla氏はこう述べた。「今から10年後には、誰も音楽を聴かなくなってるね。本気でそう思うよ」。

彼によれば、そのころにはわれわれは、それぞれの個人のために自動的にデザインされ、各人の脳や音の好みやニーズに合わせて作られたカスタムソングのようなものを聴いている。

Khoslaの説では、AIが作る音楽はすでに大きく進歩している。とくに最近の2年間での進歩が大きい。ジャーナリストのStuart Dredge氏が最近、Mediumにそう書いている。

Dredge氏が指摘するのは、最近顕著なトレンドのひとつがSpotifyやYouTubeのチャネルに見られるような、ムードやアクティビティに合わせたプレイリストであることだ。今とても多いそういうものの上では、アーティストやアルバム、曲などの名前はどうでもよくて、まったく表示されないこともある。また言うまでもなく、Spotifyなどのビジネスにとってはライセンス費用の要らないマシンメイドの音楽のほうがありがたい。顧客に音楽を提供するサービスから得られる利益が、ほとんどまるまる自分たち企業のものになる。

しかしAIが作った曲がヒットチャートのトップになったり、AIが一般的なムードミュージックを作れるという話と、各個人専用のカスタムメイドのサウンドトラックという話を同じレベルには置けない。みんなの音楽だった音楽をリプレースする聴取体験が個人ごとにユニークな音になるという今回の話は、音楽の共有的共同体的側面はどうなるのだという疑問を無視している。答えは10年後にわかるだろう。

画像クレジット: Simon Hayhurst/Flickr, CC BY-ND 2.0のライセンスによる

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

10ドル足らずの費用でAIに国連総会の偽スピーチを書かせることができる

国連の研究員たちが、わずか8ドル足らずの費用とMLモデルの13時間の訓練により、国連総会のスピーチのそっくりさんを作るプログラムを開発した。

MITのTechnology Reviewに載ったその研究は、これもまた、今がディープフェイク(deepfake)の時代であることを示唆する例の一つであり、テキストの贋作がビデオの贋作に劣らぬ脅威でありうることを示している。簡単安価に作れるから、ビデオよりも始末に負えないかもしれない。

偽の国連スピーチを作り出すために使ったAI実験の結果

研究員のJoseph BullockとMiguel Luengo-Orozは、1970年から2015年までの間に国連総会で行われた政治家たちのスピーチの、英語による書き起こしを使って、機械学習のアルゴリズムのためのタクソノミー(分類集)を作った。

その目標は、気候変動やテロなどさまざまな話題に関するスピーチの形をしたテキストを生成できる、言語モデルを訓練することだった。

彼らのソフトウェアは、タイトルとなる話題のあるセンテンスを一つか二つ与えるだけで、一つの話題につき50から100ワードのテキストを生成できた。

目標は、一般的な話題でも、あるいは国連事務総長が行った特定の声明でも、それらをもとに本物そっくりのスピーチを作れることを示すこと。そして最終的には、そのソフトウェアが政治的に微妙な話題に関してはスピーチに脱線(主題からの逸脱)を含めることができるか、確認することだった。

やや安心できるのは、一般的で抽象的な主題ほど、アルゴリズムは良い仕事をしたことだ。総試行回数のおよそ90%は、プログラムが国連総会のスピーカーの一般的な政治的話題に関する本物の演説草稿と見紛う、もしくは特定の問題に関する事務総長のスピーチとそっくりな、テキストを生成できた。移民や人種差別などのきわどい話題に関しては、ソフトウェアは脱線をうまく扱えなかった。それは、データがその種のスピーチ発話を実効的に模倣できなかったからだ。

そして、これらの結果すべてを作り出すためにソフトウェアが要した時間は13時間、所要費用は7ドル80セントだった。(訳注: レポート原文より…The language model was trained in under 13 hours on NVIDIA K80 GPUs, costing as little as$7.80 on AWS spot instances. AWSのGPUインスタンスをスポットで使ってモデルを訓練している。)

このソフトウェアの作者たちは、テキストのディープフェイクが現実の政治に及ぼしうる影響について次のように述べている:

AI技術の普及と偏在化により、それがもたらす問題も一層複雑になっている。しかも往々にして、それらがあまりにも複雑で理解も容易でないため、そのもたらしうる危険な影響に対して多くの人びとが無関心になっている。しかしながら私たちは、普通の人間のレベルでこれらのリスクの重大性が確実に認められるよう、努めなければならない。AIに対する法と規制が緊急に必要であり、それによりリスクと危害の可能性を制限しなければならない。このことを念頭に置きつつ、この研究の意図は、AIによるテキスト生成が平和と政治的安定にもたらしうる危険性に関して、認識と意識を喚起することであり、科学と政治の両分野における、これらの問題への今後の取り組みを示唆し推奨することである。

画像クレジット: Damien Meyer/AFP/Getty Images

[原文へ]
(翻訳:iwatani(a.k.a. hiwa