ロボットが電子レンジを普通に使えるようになるためIntelが奮闘中

コンピューターやロボットのトレーニングは、オブジェクトを理解して認識する(たとえば、オーブンと食洗機を区別するとか)だけでは終わらない。人が日常行っている比較的簡単な作業ができるレベルにまで、訓練を重ねる必要がある。人工知能に冷蔵庫と薪ストーブの違いを教えることができても、本当に実用的なロボットにするには、それらの器具を操作できなければならない。

IntelのAI研究者たちが、カリフォルニア大学サンディエゴ校とスタンフォード大学と共同で取り組んでいる新たな課題がそれだ。コンピュータービジョンおよびパターン認識のためのカンファレンスで発表された報告書では、各部品に完全な注釈が付けられた非常に精細な3Dオブジェクトの大規模なデータセット「PartNet」を、共同研究チームはがどのように構築したかが詳しく説明されている。

このデータセットは他に類がなく、すでにロボティクス企業の間で需要が高まっている。なぜなら、オブジェクトを現実世界で認識し操作できるようデザインされた、人工知能用の学習モデル生成のための高度なアプリケーションを備えることで、オブジェクトを部品に分割して構造化できるからだ。そのため、たとえば上の画像のように、電子レンジを手で操作して残り物を温め直す作業をロボットにやらせたいときは、ロボットに「ボタン」のことと、ボタンと全体との関係を教えてやればいい。

ロボットはPartNetで訓練を行うのだが、このデータセットの進化は、どこかの道端に放置された「ご自由にお持ちください」とドアに貼り紙されたいかにもCGっぽい電子レンジを操作するだけに留まらない。そこには2万6000種類以上のオブジェクトがあり、それらは57万個以上の部品で構成されている。そして、カテゴリーの異なるオブジェクトで共通に使われる部品には、すべてが同類であることを示すマーキングがされている。そのため、ある場面で椅子の背を学んだAIは、別の場面でそれを見かけたときに椅子の背と認識できる。

これは、ダイニングの模様替えをしたいが、ロボット家政婦には、お客さんが来たときに、古い椅子でしていたのと同じように、新しい椅子の背も引いて勧めさるようにしたい、なんていうときに便利だ。

たしかに、今私が示した例は、遠い彼方の、まだまだ仮想の未来から引っ張ってきたものだが、世の中には、完成を目の前にした、詳細なオブジェクト認識のためのもっと便利なアプリケーションが山ほどある。しかも、部品特定能力は、汎用オブジェクト認識における判断力を強化してくれるはずだ。それにしても、家庭用ロボティクスにあれこれ思いを巡らせるのは、じつに楽しい。そこに、現在の進歩したロボティクス技術の商品化を目指す数多くの取り組みが集中している。

[原文へ]
(翻訳:金井哲夫)

中国初の自動運転ユニコーン企業Momentaは利益よりもデータを追う

Cao Xudong(曹旭東) は、ジーンズと彼のスタートアップ企業の名前である「Momenta」と書かれた黒いTシャツ姿で路肩に現れた。

昨年、企業価値10億ドル(約109億ドル)を記録し、中国初の自動運転系「ユニコーン」企業となったこの会社を立ち上げる以前から、彼は誰もが羨む生活を送っていたのだだが、自動運転は次なる大きな波だと自分に言い聞かせてきた。

曹は、完全な自動運転車で一発当てようと考えているわけではない。それは20年後の話だと彼は言う。むしろ彼は、半自動運転ソフトウエアを販売し、次世代の自動運転技術に投資するという、地に2本の足を着けたアプローチを取っている。

曹(中国語読みでツァオ)は、中国における人工知能研究者の第一世代のための「士官学校」と噂されるMicrosoftの基礎研究機関Research Asiaで働く機会を得たとき、まだ機械工学の博士課程にいた。彼は4年間以上Microsoftで辛抱した末、退職し、より現実的な仕事に手を付けた。スタートアップだ。

「その当時、学術的なAI研究はかなり成熟していました」と、現在33歳の曹は、Microsoftを去る決意をしたときを振り返り、TechCrunchのインタビューで語った。「しかし、AIを応用しようという業界の動きは始まったばかりでした。2012年から2015年までの学会での波よりも、業界で起きる波の方が大きくて強力なものになると私は信じていました」。

2015年、曹は、政府に納入している顔認証技術などによる高収益のお陰で今や世界で最も価値の高いAIスタートアップとなったSenseTimeに入社した。17カ月の在籍期間中、曹は研究部門をスタッフ0人からスタートして100人態勢の強力なチームに育て上げた。

間もなく曹は、またしても新たな冒険に惹かれるようになった。彼は、結果はあまり気にせず、「何かをやること」に重きを置いているという。その傾向は、名門精華大学の在籍中にすでに現れていた。彼はアウトドアクラブの部員だった。特別にハイキングが好きだったわけではないが、冒険のチャンスに恵まれ、彼と同様に粘り強く大胆不敵な仲間たちが大変に魅力的だったからだと彼は話している。

車ではなくコンピューターを作る

曹は、カメラやレーダーなど、自動運転車でよく目にする装置を取り付けた車に私を案内してくれた。トランクには、目に見えないコンピューターコードがインストールされている。我々は車に乗り込んだ。ドライバーは、Momentaが作成した高解像度のマップからルートを選択した。そして、ハイウェイに近づくなり、自動的に自動運転モードに切り替わった。複数のセンサーが、リアルタイムで周囲のデータをマップに送り始める。それをもとに、コンピューターは走行中の判断を下す。

試験車両にセンサーを取り付けるMomentaのスタッフ(写真:Momenta)

Momentaは車もハードウエアも作らないと、曹は念を押した。その代わりに、頭脳、つまり深層学習能力を作って自動車に自動運転機能を与えるのだという。これは事実上、いわゆるTire2のサプライヤーだ。IntelMobileyeと同じように、自動車部品を製造するTire1サプライヤーに製品を販売している。また、自動車を設計し、サプライイヤーに部品を注文して最終的な製品を製造するOEMとも、直接取り引きをしている。どちらの場合でも、Momentaはクライアントと協力しながら最終的なソフトウエアの仕様を決めている。

こうしたアセットライトなアプローチによって、最先端の運転技術が開発できるとMomentaは信じている。自動車や部品のメーカーにソフトウェアを販売することで、収益を得るだけでなく、たとえば、いつどのように人間が介入すべきかに関する大量のデータを収集でき、低コストでAIをトレーニングできる。

クライアントの企業名は公表しなかったが、中国内外の一流自動車メーカーとTire1のサプライヤーが含まれているとのことだ。数は多くない。なぜなら自動車業界での「パートナーシップ」は、深い資源集約的な協力を必要とするため、少ないほうが有利だと考えられているからだ。我々の認識では、後援者にDaimler AGが含まれている。またMomentaは、このメルセデス・ベンツの親会社が中国で投資した初めてのスタートアップでもある。しかし、Daimlerがクライアントかどうかは、曹は明かさなかった。

「1万台の自動運転車を動かしてデータを集めるとしましょう。その費用は、年間で軽く10億ドルに達します。10万台なら100億ドルです。巨大ハイテク企業であっても怖じ気づく額です」と曹は言う。「意味のあるデータの海を手に入れたければ、大量市場向けの製品を作ることです」。

自動車をコントロールする半自動運転ソリューションHighway Pilotは、Momentaの最初の大量市場向けソフトウェアだ。今後、さらに多くの製品が投入されるが、それには、完全自動駐車ソリューションや、都市部向けの自動運転ロボットタクシー・パッケージなどが含まれる。

長期的には、非効率的な中国の440億ドル(約48000億円)規模の物流市場に取り組みたいと同社は語っている。AlibabaJD.comが開発した倉庫向けのロボットのことはよく知られているが、全体的に中国の物流の効率は、まだ低水準にある。2018年、物流コストは中国のGDPの15%近くを占めていることが発表された。同じ年、世界銀行が発表した、世界の物流業界の効率を示した物流パフォーマンス指標ランキングでは、中国は26位だった。

MomentaのCEO曹旭東(写真:Momenta)

控えめなCEOである曹が語調を強めたのは、同社の地に2本の足を付けた戦略について説明したときだった。その2つセットのアプローチは「閉じた輪」を形成する。これは、同社の競争力について語るときに繰り返し登場した言葉だ。現在と未来の中間を拾うのではなく、Waymoがレベル4(基本的な状況下で人間の介入なしに自動運転できる車の区分)で行ったように、またはTeslaが半自動運転で行ったように、Momentaはその両方に取り組む。それには、収益がロボットタクシーのための研究費となり、現実のシナリオから収集されるセンサーのデータが研究室のモデルに投入されるHighway Pilotのような、利益を生むビジネスが利用される。そして、その研究室で得られた結果は、公道を走る車に供給する技術をパワーアップする。

人間かマシンか

昼間の公道での40分の試乗の間、我々が乗った車は、自動的に車線変更をし、合流し、乱暴なドライバーから距離を取るなどしていたが、ある一瞬だけ、ドライバーが操作を加えた。試乗の終わりごろ、ハイウェイの出口ランプの中央に停車していた危険な車を避けるために、ドライバーがレバーを引いて車線変更を行っている。Momentaはこれを、「インタラクティブな車線変更」と呼んでいる。同社は、これは自動運転システムの一部であり、厳格な定義によれば、人間の「介入」ではないと力説していた。

「人間による運転の介入は、これからも長きにわたって支配的な存在でいるでしょう。あと20年ほどは」と曹は指摘する。車は車内カメラでドライバーの動作を細かく把握しているため、この設定は安全性を一段階高くするとのことだ。

「たとえば、ドライバーが携帯電話に目を落としたとします。すると(Momentaの)システムは運転に集中するよう警告を発します」と彼は言う。

試乗中の撮影は許されなかったが、Momentaが公開している下の動画でハイウェイでの様子を少しだけ確認できる。

人間は、我々が思っている以上に、すでに自動化の範囲に組み込まれている。曹は、他の多くのAI研究者と同じく、最終的にはロボットがハンドルを握るようになると考えている。Alphabetが所有するWaymoは、すでに数カ月前からアリゾナでロボットタクシーを走らせている。Drive.aiのような比較的小規模なスタートアップですら、テキサスで同様のサービスを行っている。

業界にはさまざまな誇大宣伝や流行があるが、同乗者の安全、規制の概要、その他数多くの高速移動技術の問題など、厄介な疑問は残されたままだ。去年、自動運転車による死亡事故を起こしたUberでは、将来の計画が先送りされ、人々の批判を浴びることになった。上海に拠点を置くベンチャー投資会社は、先日、私にこう話した。「人類はまだ自動運転の準備ができていないのだと思う」

業界の最大の問題は、技術的なものではなく、社会的なものだと彼は言った。「自動運転は、社会の法体系、文化、倫理、正義に難題を投げかけている」。

曹も、この論争のことはよく知っている。未来の自動車を形作る企業であるMomentaは、「安全に対する大きな責任を負っている」と彼は認識している。そのため彼は、すべての幹部に、自動運転車で一定の距離を走り、システムに欠点がないかを確認するよう求めている。そうすれば、お客さんが遭遇する前に、社内の人間が欠点に遭遇する確率が上がる。

「この方針があれば、管理職はシステムの安全性を真剣に考えるようになります」と曹は主張した。

中国の蘇州に建つMomentaの新本社ビル(写真:Momenta)

信頼性を確保し、説明責任を明確にできるソフトウェアをデザインするために、Momentaは「システム研究開発のアーキテクト」を任命している。この人物は、基本的に、ブラックボックス化された自動運転アルゴリズムの解析の責任を負う。深層学習モデルは「説明可能」でなければならないと曹は言う。それは、何か不具合が起きたときに原因を突き止める重要な鍵となるからだ。故障箇所はセンサーなのか、コンピューターなのか、ナビゲーションアプリなのか?

さらに曹は、研究開発に多額の資金を投入してはいるが、利益を生もうと焦ってはいないと話している。ただし、ソフトウェア販売の利益が「大きい」ことも認めている。またこのスタートアップは、多額の資金に恵まれている。曹の経歴が投資を惹きつけているところが大きい。同じように、共同創設者であるRen Shaoqing(任少卿)とXia Yan(夏炎)もMicrosoft Researchの出身だ。

昨年10月の時点でMometaは、Daimler、Cathay Capital、GGV Capital、Kai-Fu LeeのSinovation Ventures、Lei JunのShunwei Capital、Blue Lake Capital、NIO Capital、それに蘇州政府を含めた著名な投資企業から少なくとも2億ドル(約217億円)を調達している。蘇州には、高速鉄道の駅のすぐ隣にMomentaの新本社ビルが建つ予定だ。

蘇州を高速鉄道が通過するとき、乗客はその車窓からMomentaの特徴的な新社屋を眺めることができる。数年もすれば、この中国東部の歴史ある街の新たなランドマークになるだろう。

[原文へ]

(翻訳:金井哲夫)

顔写真が修正されていることを見つけて元に戻すニューラルネットワーク

Photoshopなどの画像加工ソフトを使って写真の顔を微修正することは一般的に行われているが、その画像に伴うデータに、いついつ修正されたと明記されることは少ない。カリフォルニア大学バークリー校とアドビの研究者たちが作ったツールは、写真が修正されていることを見抜くだけでなく、それを元に戻す方法も示唆する。

最初にお断りしておきたいが、このプロジェクトはPhotoshopによる修正を対象とし、特にその「Face Aware Liquify」(顔だけを液化)機能を使ったものだけに限定される。この機能を使うと、さまざまな顔の特徴を細かく、あるいは大きく、調整できる。どんな修正でも検出できるツールはまだ未来の話だけど、これはそれに向かっての第一歩だ。

研究者の中には、本誌のAI+ロボティクスイベントに最近出演したAlexei Efros氏もいる。彼らは、修正写真はアドビのツールを使ってるものが多いという想定から出発し、だからまずそれらのツールでできる修正に着目しよう、と考えた。

彼らは、ポートレート写真を少しずつ違ったやり方で修正するスクリプトを作った。目の位置を動かしてスマイルを強調する、頬と鼻を細くするなど。そして、それらの変形した視像とオリジナルを一緒に全部機械学習のモデルに投じ、それらの違いを見分けられるようになることを期待した。

学習は成功した。人間に画像を見せて、どれが修正されているか当ててみろと言ったら、当る確立はきわめて低い。でも訓練されたニューラルネットワークは、修正された画像を99%の精度で同定した。

それは一体、何を見ているのか?おそらく、画像の光学的なフローの中に、人間には感知できない小さなパターンを見つけているのだ。それらの小さなパターンが、どんな修正が行われたかを示唆する。そしてオリジナルを見たことがなくても元に戻すやり方を示唆できる。

対象はPhotoshopで修正された顔だけだから、自分の顔が変えられてどっかに勝手に載せられることを、このツールで防ぐことはできない。でもこれは、今少しずつ進歩しているデジタル鑑識技術の多くの小さな始まりの1つなのだ。

このプロジェクトに参加したアドビのRichard Zhang氏はこう言っている。「今の世界では、自分たちが消費するデジタル情報を信用することがますます難しくなっている。このような研究が今後もっともっと進歩することを期待したい」。

このプロジェクトを説明しているペーパーと彼らが書いたコードは、ここでで見られる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

アマゾンのAlexaは地域による違いに機械学習で対応

アマゾンの音声アシスタントのAlexaは大きな課題に挑んでいる。多言語対応の製品として動作するだけでなく、対応している各言語の地域による違いもAlexaが認識できるようにすることだ。

これを実現するためにAlexaはあらゆるバリエーションを完全に学習しなおした。これにはたいへんな時間とリソースを要する。しかしAlexaのAIチームは、音声認識をトレーニングする新しい機械学習ベースの方法を開発した。これにより、既存の言語の新しいバリエーションのモデルを構築しなおす作業は大幅に減る。

North American Chapter of the Association for Computational Linguisticsに提出された論文によると、アマゾンのAlexa Alの上級応用サイエンスマネージャー、Young-Bum Kim氏のチームは、テストに使用した米国、英語、インド、カナダの4種類の英語について、正確さがそれぞれ18%、43%、115%、57%向上する新しいシステムを設計したという。

チームは、ユーザ一がどこでリクエストしたかにかかわらず答えがあまり変わらない場合よりも、あるドメインのユーザーからのリクエストに対する答えが地域に固有のものであることが前もってわかっている場合(近くのレストランを教えて、と聞かれたときなど)に重みをつけて学習アルゴリズムを調整する方法を実装した。

次にAlexaのチームは、地域に固有のモデルを1つに統合し、その言語で場所の影響を受けないモデルも追加した。その結果、前述の向上が見られた。

基本的には、共通の基盤を活用し、答えが大きく変化することについて差異を追加するだけにすれば、あまり手間をかけずに地域によって違う答えを返すようになる。時間をかけてAlexaはもっと賢く、速く、言語面で柔軟になるはずだ。

[原文へ]

(翻訳:Kaori Koyama)

AIや機械学習の企業導入を助けるスタートアップがエリック・シュミットなどから5.7億円調達

RealityEngines.AIは、525万ドル(約5.7億円)のシードラウンドを発表した。同社は、不完全なデータしかなくても、企業がAIをうまく使えるように手助けするスタートアップ。

このラウンドをリードしたのは、Googleの元CEOで会長だったEric Schmidt(エリック・シュミット)氏と、Googleの創設メンバーの一人であるRam Shriram(ラム・シュリラム)氏だ。ほかにKhosla Ventures、Paul Buchheit(ポール・ブックハイト)氏、Deepchand Nishar(ディープチャンド・ニシャー)氏、Elad Gil(エラッド・ギル)氏、Keval Desai(ケヴァル・デサイ)氏、Don Burnette(ドン・ブレネット)氏などがこのラウンドに参加した。

これだけ多くの著名な人々やVC企業がシードに参加したのは、彼らが同社のコンセプトに強く惹かれたからだ。サービスなどのプロダクトがまだ1つもない同社はその特技を、小さくてノイズの多いデータでも有効に利用して、顧客企業がすぐにでも製造に持ち込める、高度な機械学習とAIを提供することと定義している。そのシステムが行う予測にはさまざまなバイアスがなく、しかもその予測に至った理由や背景を顧客に説明できる。ブラックボックスであるAIやMLでは、内部動作の説明はとても難しいことだ。

RealityEnginesのCEOであるBindu Reddy氏は、それまでGoogle Appsのプロダクトマネージメントのトップで、今回の資金は研究開発チームの育成にあてると言った。結局のところ同社は、現在の機械学習の最も基本的で難しい問題に取り組んでいる。例えば、データセットが小さい場合には、Generative Adversarial Networksのような、既存のデータセットを拡張するソリューションがあるが、RealityEnginesそれらをさらに強力にすることを狙っている。

またReddy氏によれば、Reinforcement Learningも同社の中核的機械学習技術のひとつとして重視している。

プロダクトが完成したら、同社はそれを即時払いで従量制のマネージドサービスとして提供していく。ユーザー企業はそれにより、機械学習をより容易に実用化できる。大企業だけでなく中小企業も、このやり方で念願のAI/MLを導入し、競争力を強化できるだろう。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

10年後に放射線科医は不要に、サン・マイクロシステムズ共同創業者語る

AIが医療業界に及ぼす影響の可能性について長年発言してきたことを強調するように、シリコンバレーの伝説的投資家でサン・マイクロシステムズ(Sun Microsystems)のファウンダーであるVinod Khosla(ビノッド・コースラ)氏は、「10年後に医療行為を行おうとする放射線科医は、毎日患者を死なせることになるだろう」と語った。なぜなら人工知能を用いたソリューションが進歩して、人間の専門医よりはるかに効果的になるからだ。

米国時間6月12日にカナダのトロントで行われたCreative Destruction Labが主催するSuper Sessionの閉会基調講演で同氏は「放射線医師はもうおしまいだ」とも話し、「仕事であるべきではない」と言い切った。10年後にAIベースの診断技術が進歩すれば、専門医が診断することが患者に死をもたらすようになると語った。

この姿勢は同氏が2017年からこの件について言い続けてきた内容と一致している。当時彼は、ある種の医者は5年以内に「時代遅れ」になるという彼の考えを述べた(その後に期間は延びたようだが、後に同氏は「機械のほうが優れていることを業界や世間が受け入れるまでの時間を含めたためだ」と説明した)。コースラ氏は、腫瘍専門医も分野に特化したちAIソリューションにいずれ抜かされると信じているが、おそらくもう少し時間がかかり15年くらい先になるだろうと付け加えた。

代わりに、人間の一般開業医の価値が高くなりAIソリューションと共存することによって、現在高度なスキルが必要とされている専門的な医療分野で力を発揮できるようになると彼は信じている。このことは、狭い範囲に焦点を絞ったAIのほうが一般的な話題を取り上げる人工知能よりも実現しやすいという一般論とも一致している。

さらに同氏は、腫瘍学は工場労働者の仕事よりも「ずっと自動化しやすい」とも指摘する。なぜなら工場労働者の仕事のほうが「ずっと次元が多い」からだ。

コースラ氏は、社交辞令はもうやめた、なぜなら放射線医学の特定分野では、10年のうちに人間のほうが人工知能より危険になると私は信じているからだと語り、発言に重さを強調した。

[原文へ]

(翻訳:Nob Takahashi / facebook

10年後の人間は既製の音楽を聴いていない、米国の著名ベンチャーキャピタリスト語る

人工知能やマシンインテリジェンスがもたらす未来の世界像は、人によっては遊園地の鏡の世界以上に奇妙奇天烈だ。それも、ときには極めて本質的な意味で。米国時間6月12日に行われたCreative Destruction Labの今年で二度目のSuper Sessionイベントで、ベンチャーキャピタリストのVinod Khosla氏はこう述べた。「今から10年後には、誰も音楽を聴かなくなってるね。本気でそう思うよ」。

彼によれば、そのころにはわれわれは、それぞれの個人のために自動的にデザインされ、各人の脳や音の好みやニーズに合わせて作られたカスタムソングのようなものを聴いている。

Khoslaの説では、AIが作る音楽はすでに大きく進歩している。とくに最近の2年間での進歩が大きい。ジャーナリストのStuart Dredge氏が最近、Mediumにそう書いている。

Dredge氏が指摘するのは、最近顕著なトレンドのひとつがSpotifyやYouTubeのチャネルに見られるような、ムードやアクティビティに合わせたプレイリストであることだ。今とても多いそういうものの上では、アーティストやアルバム、曲などの名前はどうでもよくて、まったく表示されないこともある。また言うまでもなく、Spotifyなどのビジネスにとってはライセンス費用の要らないマシンメイドの音楽のほうがありがたい。顧客に音楽を提供するサービスから得られる利益が、ほとんどまるまる自分たち企業のものになる。

しかしAIが作った曲がヒットチャートのトップになったり、AIが一般的なムードミュージックを作れるという話と、各個人専用のカスタムメイドのサウンドトラックという話を同じレベルには置けない。みんなの音楽だった音楽をリプレースする聴取体験が個人ごとにユニークな音になるという今回の話は、音楽の共有的共同体的側面はどうなるのだという疑問を無視している。答えは10年後にわかるだろう。

画像クレジット: Simon Hayhurst/Flickr, CC BY-ND 2.0のライセンスによる

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

さまざまな個人化用機械学習モデル構築APIがAWSから提供開始

Amazon Personalize」は、昨年11月のAWS re:Inventで発表されたが、それをいよいよAWSの顧客が利用できる。そのAPIを使ってデベロッパーは、機械学習のカスタムモデルを自分のアプリケーションに加えられる。それにより、製品のリコメンデーション(おすすめ)や検索結果、ダイレクトマーケティングなどを個人化(パーソナライズ)できるようになる。そのために機械学習の開発経験は、要らない。

そのAPIはデータを、元々はAmazon自身のリテールビジネスのために作られたアルゴリズムで処理する。ただし同社によると、すべてのデータは完全にプライベートに保たれ、顧客がその完全なオーナーになる。このサービスが今すでに使えるAWSユーザーは、以下のリージョンのユーザーだ:アメリカの3つのリージョン(東(オハイオ)、東(ノースバージニア)、西(オレゴン))、2つのアジア太平洋リージョン(東京とシンガポール)、EUのアイルランド。他のリージョンも、まもなくローンチする。

すでにAmazon Personalizeを使っているAWSの顧客は、Yamaha Corporation of America、Subway、Zola、そしてSegmentだ。Amazonのプレスリリースによると、Yamaha Corporation of AmericaのIT部長Ishwar Bharbhari氏はAmazon Personalizeについて、「機械学習モデルのセットアップと、インフラストラクチャやアルゴリズムのチューニングに要する時間が、自力でそのための環境を構築構成する場合に比べて最大60%は節約できる」、と言っている。

Amazon Personalizeの料金モデルは、Amazon Personalizeにモデルの訓練時間1時間あたりの訓練用データをアップロードする量1GBにつき24セントだ。リアルタイムのリコメンデーションリクエストはアップロードした数に応じた料金になり、大量のオーダーならディスカウントがある。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Microsoft Power PlatformのアップデートはAIをビジネスユーザーに届ける

ローコード(コードをあまり書かないこと)とノーコード(コードを書かないこと)は業界の最新流行語だが、もしベンダーたちが機械学習モデルの構築のような難しいタスクによる障壁を、本当に抽象化して取り去ることができたならば、まだ今はほとんどのビジネスユーザーの手が届かない技術を主流にする役に立つことだろう。それこそがまさに、Microsoftが、本日(米国時間6月10日)発表された最新のPower Platformで目指していることだ。

同社は、昨年PowerAppsを発表したときに、ローコードの簡便さをアプリケーション開発に取り込もうとした。そして今回Microsoftは、PowerAppsとMicrosoft Flow、および新しいAI Builderツールを組み合わせることで、PowerAppsを使ってアプリを作る人びとが素早くインテリジェンスレイヤーを追加できるようにできると考えているのだ。

それはデータソースへのアクセスを得るところから始まるが、Data Connectorツールがユーザーに250種類以上のデータコネクターを提供する。これには、Salesforce、Oracle、そしてAdobeだけでなく、もちろんOffice 365やDynamics 365といったMicrosoftのサービスが含まれる。Power Platformマーケティング担当シニアディレクターのリチャード・ライリー(Richard Riley)氏は、これがデータをAI Builderに取り込むための基礎であると言う。

「AI Builderが行うのは、ユーザーのPowerAppsやMicrosoft Flow、Common Data Service、そしてユーザー自身のデータコネクターなどに、人工知能と機械学習を、ローコードもしくはノーコードの手軽さで取り込むことを可能にすることです」とライリー氏はTechCrunchに語った。

スクリーンショット:Microsoft提供

Microsoftのジェネラルマネージャであるチャールス・ラマーナ(Charles Lamanna)氏は、Microsoftはデータモデル構築のために必要な全ての分析と重労働を行うことが可能で、ビジネスユーザーが参入する際の大きな障壁を取り除くのだと言う「基本的なアイデアは、Common Data Serviceの中の任意のフィールドをユーザーが選択して、『このフィールドを予測したい』というだけで済むようにしようということです。そうして貰ったあと、私たちは同じテーブルもしくはエンティティの過去の記録を参照して、(結果を)予想するのです」と彼は説明した。例えばこれは、顧客がクレジットカードに申し込むかどうか、顧客が解約する可能性があるかどうか、あるいはローンが承認されるかどうかなどを予測するために使用できる。

この発表が行われたのは、SalesforceがTableauを160億ドル(約1兆7000億円)で買収したことを発表した日と同じであり、またGoogleがLookerを26億ドル(約2800億円)で買収した数日後である。そしてまたこの発表は、特に、視覚化するのかビジネスアプリケーションの内部で使うのかに関わらず、データを使える形で提供することで、ビジネスコンテキストの中で如何にパワフルになり得るかを示したものだ。

Microsoftは、AI Builderは誰もが使うようなものではないと認めているが、彼らが視野に入れているのは、これまで自力ではこの洗練レベルに手の届かなかったパワーユーザーである。山のように大量のコーディングをせずとも、アプリを構築しインテリジェンスレイヤーを追加することができるのだ。もしそれが宣伝どおりに機能するのなら、これまではデータサイエンティストの協力なしにはビジネスユーザーの手に届かなかったタスクを、ある程度簡単に行うことが可能になる。いずれにせよ、こうした動きの全てが指し示すことは、データがビジネスの中心になったということであり、ベンダーたちはそれを活用するために開発もしくは買収をしようとしているということだ。

Microsoft Power Apps update includes new Common Data Service

画像クレジット: Alice Mollon / Getty Images

[原文へ]

(翻訳:sako)

10ドル足らずの費用でAIに国連総会の偽スピーチを書かせることができる

国連の研究員たちが、わずか8ドル足らずの費用とMLモデルの13時間の訓練により、国連総会のスピーチのそっくりさんを作るプログラムを開発した。

MITのTechnology Reviewに載ったその研究は、これもまた、今がディープフェイク(deepfake)の時代であることを示唆する例の一つであり、テキストの贋作がビデオの贋作に劣らぬ脅威でありうることを示している。簡単安価に作れるから、ビデオよりも始末に負えないかもしれない。

偽の国連スピーチを作り出すために使ったAI実験の結果

研究員のJoseph BullockとMiguel Luengo-Orozは、1970年から2015年までの間に国連総会で行われた政治家たちのスピーチの、英語による書き起こしを使って、機械学習のアルゴリズムのためのタクソノミー(分類集)を作った。

その目標は、気候変動やテロなどさまざまな話題に関するスピーチの形をしたテキストを生成できる、言語モデルを訓練することだった。

彼らのソフトウェアは、タイトルとなる話題のあるセンテンスを一つか二つ与えるだけで、一つの話題につき50から100ワードのテキストを生成できた。

目標は、一般的な話題でも、あるいは国連事務総長が行った特定の声明でも、それらをもとに本物そっくりのスピーチを作れることを示すこと。そして最終的には、そのソフトウェアが政治的に微妙な話題に関してはスピーチに脱線(主題からの逸脱)を含めることができるか、確認することだった。

やや安心できるのは、一般的で抽象的な主題ほど、アルゴリズムは良い仕事をしたことだ。総試行回数のおよそ90%は、プログラムが国連総会のスピーカーの一般的な政治的話題に関する本物の演説草稿と見紛う、もしくは特定の問題に関する事務総長のスピーチとそっくりな、テキストを生成できた。移民や人種差別などのきわどい話題に関しては、ソフトウェアは脱線をうまく扱えなかった。それは、データがその種のスピーチ発話を実効的に模倣できなかったからだ。

そして、これらの結果すべてを作り出すためにソフトウェアが要した時間は13時間、所要費用は7ドル80セントだった。(訳注: レポート原文より…The language model was trained in under 13 hours on NVIDIA K80 GPUs, costing as little as$7.80 on AWS spot instances. AWSのGPUインスタンスをスポットで使ってモデルを訓練している。)

このソフトウェアの作者たちは、テキストのディープフェイクが現実の政治に及ぼしうる影響について次のように述べている:

AI技術の普及と偏在化により、それがもたらす問題も一層複雑になっている。しかも往々にして、それらがあまりにも複雑で理解も容易でないため、そのもたらしうる危険な影響に対して多くの人びとが無関心になっている。しかしながら私たちは、普通の人間のレベルでこれらのリスクの重大性が確実に認められるよう、努めなければならない。AIに対する法と規制が緊急に必要であり、それによりリスクと危害の可能性を制限しなければならない。このことを念頭に置きつつ、この研究の意図は、AIによるテキスト生成が平和と政治的安定にもたらしうる危険性に関して、認識と意識を喚起することであり、科学と政治の両分野における、これらの問題への今後の取り組みを示唆し推奨することである。

画像クレジット: Damien Meyer/AFP/Getty Images

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AmazonはAlexaとの会話をもっと自然にする

米国時間6月5日、Amazonは同社主催のre:MARSカンファレンスで、パーソナルアシスタントAlexaがスムーズに話題を切り替えることで、会話をより自然にするための開発を進めていると発表した。さらにユーザーは頻繁に「Alexa」と言わなくてすむようになる。

re:MARSで同社は、映画のチケットを買う例を使ってこの仕組みを簡単に紹介した。例えば、「Alexa、近くでやっている映画は何?」と聞くところから、実際に見たい映画を選び、チケットを購入し、近くのレストランを予約するところまで誘導し、さらに予告編を見てUberを呼ぶ。

いろいろな意味で、これはGoogleがGoogle I/Oで見せることを期待していたデモだった。ここ数カ月でAmazonは、Alexaの能力を明らかにステップアップさせている。

Amzonが活用する新しい会話システムは、次のアクションを予測することで異なるAlexaスキルとの切り替えを容易にしている。「機械学習能力を強化した結果、Alexaは会話の内容から利用者の最終目的を予測し、スキル間をスムーズに移動できるようになった」と同社は説明した。

AmazonがAlexaショウでデモしたこの新しい経験は、数カ月のうちにユーザーも利用できるようになる。過去数カ月の間に、Alexaはユーザーのリクエストを理解する精度が20%高くなったことも同社は発表した。

さらに、開発者はAmazonが新しい会話ツールで使っているさまざまな技術の一部を利用できるようになる。Alexa Conversationsと呼ばれるこの新ツールを使うと、サードパーティー開発者も同じようなフローを作ることができる。

かつてはそのために多くのコードを書いていたが、Alexa Conversationsはコードの量を3分の1まで減らすことができる。開発者はアクション一式といくつかの会話サンプルを宣言するだけでいい。するとサービスが自動会話シミュレーターを実行するので開発者は自分の作ったスキルに対して顧客が返す反応を全部考えなくてよい。時間とともに、実世界のユーザーがシステムと対話した結果からも学習していく。

[原文へ]

(翻訳:Nob Takahashi / facebook

自動作曲AI開発のAmadeus CodeがWiLから2億円調達

Amadeus Code(アマデウスコード)は6月5日、シリーズAラウンドでの2億円の資金調達を発表した。WiL Fund II, L.P.を引受先とする第三者割当増資となる。さらにWiLの共同創業者である松本真尚氏が同社の取締役に就任する。

Amadeus Codeは、2015年10月設立で2017年12月に現社名となったスタートアップ。著作権の管理運用事業、音楽制作サービス事業のほか、日本語による自然言語処理技術を音楽に応用した機械学習アルゴリズム群を利用し、自動作曲AIの開発を手がける。なお、この自動作曲の技術は特許として申請済みとのこと。

すでに同社が開発中の基礎技術を使った同名の「Amadeus Code」アプリのiOS版をリリースしており、世界中で4500名を超えるクリエーターが利用しているそうだ。

これはメロディ作成アプリで、初心者でも短時間で楽曲を作曲できるのが特徴。作成した楽曲は、オーディオファイルやMIDIファイルとして書き出せる。DAW(Digital Audio Workstation)に取り込んでさらに調整を加えることもできる。

同アプリは、14日間無料で使用できるほか、作成した楽曲は1曲240円で保存できる。年額1万3400円のサブスクリプションに加入すれば、作成した楽曲を無制限に保存できる。

ちなみにこのアプリでは、歴史上のヒット曲600曲をAIに学習・分析させたデータベースを使い、メロディに特徴量を付与してオリジナルの楽曲を生成している。

同社は今回の資金調達により、同アプリのAIが蓄積した膨大な作曲データを応用展開するための開発費として利用する。そして今夏には新サービスのリリースを予定している。新サービスの詳細については、現時点では公にはできないとのこと。

また、Amadeus CodeアプリのAndroid対応についても問い合わせたが、こちらは対応の可能性はあるが現時点では未定とのこと。

通常、音楽を商用利用する場合は複雑な権利処理をクリアにする必要なほか、場合によっては使用料を支払う必要もある。同社のミッションは、AIによる自動作曲によって音楽を手軽に扱えるようにすること。音楽を誰もが手軽に利用できるプラットフォームを展開していくことを目指す。

サイト・アプリ多言語化サービス「WOVN.io」が総額14億円を資金調達

ウェブサイトやアプリの多言語化サービスを提供するWovn Technologies(ウォーブンテクノロジーズ)は6月5日、第三者割当増資と銀行などからの融資をあわせ、総額約14億円の資金調達を実施したと発表した。

Wovn Technologiesが提供するのはウェブサイトの多言語化サービス「WOVN.io(ウォーブンドットアイオー)」と、アプリの多言語化に対応した「WOVN.app(ウォーブンドットアップ)」だ。

WOVN.ioは既存の1言語のサイト・アプリがあれば、簡単に多言語化できるというソリューション。詳しい仕組みについては過去の記事を見てもらえればと思うが、言語ごとに別サーバーやページを用意することなく、最大で40カ国語に翻訳が可能で、システム開発やサイト運用、翻訳にかかるコストを削減することができる。

 

今回の第三者割当増資の引受先は、Eight Roads Ventures Japan、NTTファイナンス、オプトベンチャーズ、近鉄ベンチャーパートナーズ、マイナビ、OKBキャピタルの各社だ。

Wovn Technologiesは資金調達により、サイトやアプリを通じた顧客企業の海外戦略をサポートする専任チームを強化する予定だ。同社代表取締役社長の林鷹治氏によれば「一口に多言語化といっても各社、目的はいろいろ」とのこと。「越境ECの商品説明、インバウンド向け旅行会社のツアー紹介、交通機関の安全への取り組みなど、それぞれの企業が目指す外国人戦略について、コンサルティングというよりは併走して支援していく体制を強化したい」(林氏)

また1万5000サイトへと導入が進む中で、大規模サイトや大手企業による利用も増えているというWOVN.io。Wovn Technologiesでは、大規模サイトのための機能開発や、AIによる翻訳業務効率化のための研究なども進めるという。

「我々は、『インターネットをローカライズする世界的な黒子企業』を目指す」という林氏。近日中に、多言語化に関わる新しいサービスの発表も予定しているということだったので、引き続き注目したい。

写真左から、Wovn Technologies取締役製品担当 サンドフォド ジェフリー氏、代表取締役社長 林鷹治氏、取締役副社長 上森久之氏

Wovn Technologiesは2014年3月の設立。これまでに、インキュベイトファンドからの総額約3000万円のシード投資をはじめとして、2015年9月にオプトベンチャーズ、ニッセイ・キャピタルから1.3億円2016年12月にはSBIインベストメントや凸版印刷などから3億円を資金調達している。今回の調達を含め、創業以来の累計調達額は約20億円となる。

マイクロソフトが大小多様なフォームファクターをサポートする新しいOSを開発中

AMDIntel(インテル)、そしてQualcomm(クアルコム)が重要な発表を行った今週、台北で行われたComputexカンファレンスではMicrosoft(マイクロソフト)、ややおとなしいキーノートを述べた。新製品の発表はなく同社は、同社が目指す現代的なオペレーティングシステムについて軽く触れた。しかも興味深いことに、そのキーノートに関するMicrosoftのブログ記事にはWindowsへの言及がなく、同社が今新しい「超安全な」OSを開発中、という憶測が裏付けられた。

同社の営業担当副社長Nick Parker氏が書いたそのブログ記事によると、現代的なオペレーティングシステムはさまざまなタイプのデバイスに統合できる柔軟性を持った「フォームファクター・アジリティ」(さまざまな形状サイズへの機敏な対応)を可能にするものでなければならない。たしかに昨年同社は、Surface系列の新しい機種をほのめかした。当時は、それはスマートフォンだろうという憶測もあった。いずれにしても、フォームファクターの多様化という伏線は、すでにそのときからある。

Parker氏によると、現代的なOSは、アップデートがユーザーの心と手を煩わせずバックグラウンドで勝手に自動的に行われるものでなければならない。ユーザーは、アップデートのためにいちいち仕事やコンピューターを中断しない。セキュリティはデフォルトで完璧で、マシンのステートとオペレーティングシステムの隔離、そしてアプリケーションとコンピュートの隔離により攻撃を防止する。

現代的なOSはLTE 5Gに常時接続、AIを使ってアプリケーションの効率化を助けるだろう。そしてペン、音声、タッチ、目の動きなど多様な入力を受け付ける。タッチと目の動きが出てくるあたりに、この新しいOSが何らかのモバイル製品に載って登場する、という憶測の根拠がある。例えばそれは、Surface Phone(Surfaceスマートフォン)か? もしくは、軽量デュアルスクリーン(2画面)のラップトップかもしれない。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

ソーシャル広告の自動運用サービス「Roboma AI」がリリース、AIの力で広告業界の“働き方改革”を目指す

AIによりネット広告のマーケティング業務を支援するクラウドサービス「Roboma(ロボマ)」を提供するRoboMarketerは5月29日、自動運用に対応した新サービス「Roboma AI」をリリースした。

Robomaは、Facebook、Instagram、Google、Twitterといったプラットフォームの広告アカウントとAPI連携しており、広告アカウントのレポートを自動作成し、費用やCPA(Cost Per Acquisition:ユーザー獲得コスト)などの指標をグラフ化できる。広告費用やコンバージョン単価などが一定の基準を越えた場合に、Slackやメールにアラートを飛ばすことも可能だ。そして管理画面の閲覧権限を広告代理店や社内チームに付与することでスムーズに情報の共有ができる。2018年10月にはマーケターがリアルタイムなROI(Return On Investment:費用対効果)運用を実現できる「ROIレポート機能」が追加された。

RobomaとRoboma AIは別サービスとなるが、組み合わせて利用することでより効果的な広告運用が可能なため、当然ながらRoboMarketerは2サービス合わせての利用を推奨している。

本日リリースされたRoboma AIは、広告効果の改善やコスト削減を自動化するサービスだ。「最高のパフォーマンスを生むための組み合わせ」を設計し、「自動的にコストを抑えた効果的な運用」を可能にする。

FacebookとInstagramの自動運用機能では、広範囲に配信した後、広告と親和性の高いユーザーをピンポイントで狙ったり、効果の良いクリエイティブを残し、悪化したクリエイティブを停止したりできる。自動で効果の良い時間帯に予算をブーストすることも可能だ。

Twitterの自動運用機能では、「リアルタイムに変わるオーディエンスに合わせて、ターゲット情報を常に最新に保つことで、 高い成果をあげることができる」。トレンドワードや関連ワード、フォロワーが似ているハンドルをターゲットに自動追加するなどが可能だ。

RoboMarketer代表取締役の岡崎哲朗氏にRoboma AI開発に至った経緯を聞くと、「進んでいると言われるデジタルマーケティングの業界でさえ、いまだに多くの人が夜遅くまでレポート作成や運用で疲弊している現状がある。ネット広告の中でも大部分を占める運用型広告の国内市場規模は初めて1兆円の大台を突破し、年率20%成長している。一方でデジタルマーケティング経験のある人材の採用はますます困難になり、過酷な労働環境の中で離れていく人も増えている」と話し、広告業界が抱える問題を提起した。

運用型広告の国内市場規模の「1兆円の大台の突破」は電通が「2018年 日本の広告費」と題されたレポートで発表している。

「そんな広告業界にAIの力で風穴を空けたいと考える。人とAIが融合することで、多くの予算を割いている広告費を効率よく運用し、工数も削減することができる。デジタルマーケティングはもっとオープンであるべきで、誰でも簡単に効果的なマーケティングを行える世の中、『マーケティングの民主化』を目指している」(岡崎氏)

Roboma AI導入の実績として、RoboMarketerは、EC通販事業者ではROASが(Return On Advertising Spend:投資した広告コストの回収率)を120から190%にアップした事例、ゲームアプリ運営会社ではアプリのCPI(Cost Per Install:1インストールあたりの広告コスト)を20%以上改善した事例を挙げている。

RoboMarketerは2019年中にRoboma AIの1000社への導入を目指している。岡崎氏は今後の展開に関して、「外部ツールやメディアとのパートナー連携によりサービスの利便性を高めていく。そして、広告運用においてクリエイティブ改善にはまだまだ苦労が多いため、より効率よく行えるようにしていきたい。ユーザーのフィードバックを受けて改善しながら、ユーザーのペインを取り除いていく」と話していた。

Google Lensのレストラン機能と翻訳フィルター機能が早くも実装展開

iOSとARCore対応のAndroidスマートフォンでGoogle Lensを使ってる人たちは今後、レストランでのオーダーや外国語のリアルタイム翻訳が便利になる。

その発表は今月初めのGoogle I/Oで行われたが、これからのユーザーはGoogleアシスタントやGoogleフォト、そしてGoogleの検索の中でLensを使える。またPixelスマートフォンでは、その機能がカメラアプリにもある。

その新しいダイニング機能では、ユーザーがスマートフォンをメニューに向けるとLensアプリが人気料理をハイライトしたり、食材の情報を表示したり、そのレストランのGoogleマップのプロフィールにある写真を見せたりする。請求書を撮影して、その分割を即座に計算することもできる。

関連記事: Snap a photo of a menu and Google Lens can tell you what to order(メニューを撮るとGoogle Lensが料理を推薦、未訳)

外国語の翻訳に関しては、前からGoogle Translateアプリには看板や標識などの特殊な書体でも翻訳できる機能があった。今回はそれの軽量バージョンが、Lensに実装された。

関連記事: Googleレンズは外国語を読み取って翻訳結果を合成音声で読み上げてくれる

GoogleがI/Oで発表したLens関連の機能は、展開が遅れることが多かった。今回のように、発表の数週間後というのは、ちょっと珍しい。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

ARによるビジュアルな遠隔会議をサポートするStreemが類似企業のSelerioを買収

遠隔会議のソフトウェアにコンピュータービジョンの技術を組み合わせたAR企業Streemが、同じく拡張現実の応用企業であるイギリスの小企業Selerioを買収した。

両社は昨年共に、Betaworksのアクセラレーター事業VisionCampに参加し、コラボレーションをしたり、別々にARにおけるコンピュータービジョンの問題に取り組んだりした。

Streemの持ち味はパワーアップしたSkype通話みたいなところにあり、たとえば各種ホームサービスのプロバイダーが家の持ち主とチャットする場合、多くのビジュアルデータを得られる。たとえば電話口で機器の30桁のシリアルナンバーを口頭で伝えるのではなく、画像や映像で分かる。それらのビジュアルデータから間取りを計測したり、その家の特徴に関するノートを取ったりできる。

ポートランドに本社を置く同社は、これまで1000万ドルあまりの資金を調達しているが、最近も新しいラウンドを完了したばかりだ(詳細情報は未発表)。

Selerioの専門技術は、空間の意味的な構造を理解することだ。同社は、ケンブリッジ大学における研究から生まれた。すでにシード資金を獲得しているが、額は公表していない。投資家はBetaworks、Greycroft Partners、GGV Capitalなどだ。同社の3名の社員は全員Streemに加わる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

モナリザが眉をひそめる、機械学習が昔の絵画や写真に命を吹き込む

機械学習の研究グループが、人間の顔写真1フレームだけから生きているような動きを再現するシステムを開発した。写真だけでなく絵画も動かすことができる。まだ完璧ではないが、(今日の多くのAIがそうであるように)うまくいったときは不気味かつ魅惑的だ。

モデルの詳細はSamsung AI Centerが発行した論文に書かれており、Arxivで読むことができる。元の顔(どんな顔でもいい)の特徴点をターゲットの顔データに対応させて元の顔の動きを再現する部分に新しい手法が使われている。

これ自体は新しくない。これはAI世界が現在直面している画像合成問題のひとつだ(最近TechCrunchが主催したロボティクス+AIイベントで興味深い議論がなされた)。ビデオの中である顔が話しているところ、見ているところを別のビデオの顔に当てはめることはすでに行われている。しかし、こうしたモデルの多くは1~2分のビデオを分析するためにも膨大なデータが必要になる。

しかし、サムスンのモスクワ拠点の研究者たちはこの論文で、わずか1枚の顔写真だけを使って顔の向きを変えたりしゃべったり普通の表情を見せるビデオを作ることができる。画質は完璧には程遠いが、説得力はある

このモデルは、膨大なデータを使って顔の特徴点を認識することで、ターゲットの顔と元の顔との対応部分を効率的に見つけることができる。データは多ければ多いほどよいが、必要な画像は1枚だけでシングルショット学習と呼ばれている。アインシュタインやマリリン・モンロー、モナリザでさえ生き生きとしゃべらせることができるのはこのためだ。

このビデオではモナリザを3種類のソースビデオを使って動かしている。顔のつくりも動きも大きく異なっていることがわかる

モデルはGenerative Adversarial Network(GAN、敵対的生成ネットワーク)と呼ばれるシステムも使っている。これは2つのモデルを競わせて、お互いに自分の作ったものを「本物」だと思わせてだまそうとするものだ。その結果クリエーターが設定した一定の現実レベルに近いものになる。この「差別化」モデルは対象が人間の顔であることが90%確信できないと処理を続行できない。

研究者らが見せてくれた別の例を見ると、ものによってニセの顔のしゃべり方の質が大きく異なる。ケーブルニュースから取ってきた人物の画像を再現しようとした例では、画面の下に表示されていた株価テロップまで再現して意味不明ものがはめ込まれていた。ほかにもよく見るとにじみやブロックノイズはあちこちに見られる。

それでも、その結果は素晴らしいものだ。ただし、これは顔と胴体上部にしか使えないので注意されたい。モナリザが指を鳴らしたりダンスしたりするところは作れない。今のところは。

[原文へ]

(翻訳:Nob Takahashi / facebook

GoogleのAIが予約申し込み電話をかけるDuplexの25%は人間がかけている

昨年のデベロッパーカンファレンス、Google I/OでGoogle(グーグル)がデモしたDuplexに対し、オーディエンスは実際にどれだけの通話能力があるのか怪しんだ。そのAIを利用する予約申し込みサービスは、マシンとは思えないぐらいできすぎていた。しかもそれはこれまで、実際の予約に使われていた。Googleによると、その頻度はささやかだったらしいが。

同社が最近The New York Times(ニューヨークタイムズ紙)に語ったところによると、Duplexの通話はコールセンターの人間オペレーターがやってるものが少なくない。だいたい、通話の4分の1は生きた人間の声で始まる。マシンが始める通話も、その15%は人間の介入を必要とする。

Googleは昨年のデモで、人間がシステムをモニタして、何かおかしくなったら代わる、と言っていた。もちろん、そうだろうな。でも、あれやこれやの奇癖をやっと直して、AndroidとiOSデバイスで使えるようになった。しかし25%は人間がやってるというのは、高度なAIシステムとしてちょっと寂しいね。

これまでのテスト期間中にGoogleは、そのサービスのためのデータ収集も行った。たしかにDuplexは、ときどきすごく感動的だ。ぼくが試したときも、全部うまく行ったときには騙されてしまう。でもニューラルネットワークは、改良のために膨大な量のデータを必要とする。お店の予約という、たった一つの仕事でさえも。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

AIデータのアノテーションをしているDefinedCrowdがモバイルアプリで高速化

一昨年、TechCrunch主催のStartup Battlefieldにも出場したDefinedCrowdは、AIを訓練するためのデータを作り、その精製もしている。同社はこのほど、その仕事をする人間アノテーター軍団のためのiOSとAndroidアプリを作った。業界最速を自慢している同社の処理がさらに速くなるだろう。

AIが実は人間が注記注釈を記入した(アノテートした)データに全面的に依存していることは、今や多くの人が知っている。写真に写っている物や状況とか、文章や式などの意味は、すべて人間アノテーターが記入する。その仕事は零細な家内工業みたいで、多くがパートタイムやほかの仕事を抱えてやっている。

でもその仕事のインタフェイスが特定のプラットホームに限定されていたら、できる量に限界がある。メールに返事を書いたり、プレゼンテーションをざっと見たりすることは、バスに乗っていたりランチを食べながらでもできるが、この仕事もできればそうしたい。というわけで、モバイルアプリが生まれた。

DefinedCrowdが独自に作ったそのアプリは、同社のアノテーションコミュニティと同じNeevoという名前だ。アノテーターはこのコミュニティに登録し、画像やリアルタイムの音声に注釈を付けていく。アプリは米国時間5月21日から、iOSとAndroidで使用できる。

CEOのDaniela Braga氏によると、それは市場の自然な進化だ。今ではこのようなアノテーションワークの需要が膨大なので、それをやる人のスケジュールや使用するプラットホームを制限するのはナンセンスだ。今後は誰もがこのアプリを使えるようになるので、アノテーターという仕事も、そのほかの生産性サービスやメッセージングサービスと変らないものになると彼女は言う。

関連記事: DefinedCrowd’s next-gen platform solves the AI data acquisition problem(AIのデータ取得問題を解決するDefinedCrowd、未訳)

同社は社員の数も、最初の数名から100名余に急速に成長した。オフィスも今ではリスボン、オポルト、シアトル、そして東京にある(日本語版記事)。市場も同じく爆発的に大きくなり、今では多くの企業が、仕事にAIを導入したいだけではなく実際に導入できるという認識に変わりつつある。

[原文へ]
(翻訳:iwatani、a.k.a. hiwa