機械学習のモデルの管理を効率化するComet.mlがシードに次いで5億円相当を調達

いろんな仕事の新しいやり方、いわゆるニューノーマルを取り入れていくとき、新しいソフトウェアサービスを導入しようとする企業にとっては、あらゆることのもっと効率的な方法を探すことが何よりも重要になる。機械学習も、その例に漏れない。そこで、より効率的な機械学習プラットホームを作ろうとしているスタートアップComet.mlは今日(米国時間4/22)、450万ドルの新たな資金調達を発表した。

同社は以前、230万ドルのシード資金を調達しているが、今回の投資家もそのときと同じく、Trilogy Equity PartnersとTwo Sigma VenturesおよびFounder’s Co-opだ。

同社の共同創業者でCEOのGideon Mendels氏は次のように語る: 「われわれはセルフホストでクラウドベースの、メタ機械学習プラットホームを提供し、データサイエンスのAIチームと組んで、自分たちの実験とモデルを試行し説明し最適化しようとする彼らの作業を管理する」。

競合他社がどんどん増えている分野だが、Mendelsによると、複数のプラットホーム間を容易に移動できる能力が、同社のいちばん重要な差別化要因だ。

彼はこう説明する: 「われわれは基本的に、インフラストラクチャを特定しない。だから顧客は自分のモデルの訓練を、ラップトップでも、プライベートなクラスターでも、あるいは、あまたあるクラウドプロバイダーのどれかでも、どこでやってもよい。どこでやるかは関係ないし、それらを切り替えてもよい」。

同社のプロダクトにはコミュニティバージョンともっと高度なエンタープライズバージョンがあり、後者はBoeingやGoogle、Uberなどが顧客だ。両プロダクト合わせて、同社プラットホームのユーザーはおよそ1万だ。

Mendels氏によると、Cometはそのプラットホームの人気を利用して、顧客が一般公開しているデータをベースにモデルを構築できた。その最初のものは、モデルが訓練疲労をいつ見せ始めるかを予測した。コメットのモデルはそれがいつ起きるかを当てることができ、データサイエンティストたちに、そのような疲労が通常起きるタイミングよりも30%早く、モデルをシャットダウンするよう合図することができた。

同社は2017年にシアトルで行われたTechStars/Alexaでローンチした。コミュニティバージョンのプロダクトがデビューしたのは、2018年だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

公共スペースを自律的に監視するFluSenseシステムが病気の動向を追跡

総人口に対する有病率を正確に推定する際の障害の1つは、データのほとんどが病院からのもので、99.9%を占める病院以外の世界からのものではないことだ。FluSense(フルーセンス)は、公共スペースにおける人間の数や咳の回数を数えて保健当局に情報を提供するシステムだ。プライバシーを尊重し、自律的に動作する特徴を持つ。

もちろん、風邪やインフルエンザの季節は毎年やってくる。だが今年は深刻だ。例年のインフルエンザの季節と変わらないのは、患者数推定が病院やクリニックからの統計数値の分析に頼っている点だ。「インフルエンザ様疾患」や特定の症状を有する患者の統計については一元的に集計、分析される。一方で、多くの人が自宅にとどまったり、病気にもかかわらず通勤したりしている。そうした人々は捕捉されているのか。

こうした状況では「何がわかっていないのか」がわからないため、病気の動向に関する推定値の信頼性が低くなる。推定値はワクチンの生産や病院のスタッフ数の判断などに利用される。それだけでなく、推定値がバ​​イアスを含んでしまう可能性もある。病院に行く可能性が低く、病気でも仕事をせざるを得ない可能性が高いのはどんな人たちか。それは低所得で医療の恩恵を受けられない人々だ。

マサチューセッツ大学アマースト校の研究者らは、FluSenseと呼ぶ自律的システムでデータの問題を軽減しようと試みている。このシステムは公共スペースを監視し、人間を数え、咳に耳をすます。公共スペースにこのシステムをいくつか戦略的に配置すれば、広く蔓延するインフルエンザのような病気に関して多くの貴重なデータと洞察が得られる可能性がある。

Tauhidur Ra​​hman(トーヒジュール・ラーマン)氏とForsad Al Hossain(フォーサッド・アル・ホサイン)氏は、ACMジャーナルに掲載された最近の論文でこのシステムについて説明している。FluSenseの基本構成はサーモカメラ、マイク、人間と咳の音を検出するよう訓練された機械学習モデルを搭載したコンパクトなコンピューティングシステムだ。

まず明確にしておきたい点は、これは1人ひとりの顔を記録、認識するシステムではないということだ。焦点を合わせる目的で顔を検出するカメラのように、このシステムは顔と体が存在することだけを確認し、視野に入った人数情報を作成する。一方、検出された咳の数は人数、くしゃみ、発話の長さなどの数値と比較され、一種の「病気指数」すなわち1人1分あたりの咳の数の計算に利用される。

配置例(上)、FluSenseのプロトタイプのハードウェア(中)、サーモカメラからのサンプルアウトプットで、人間がアウトライン化された上でカウントされる(下)

これは確かに比較的簡単に計算できる値だが、病人が集まるクリニックの待合室のような場所でさえ、現状このような数値は手に入らない。病院のスタッフは、毎日咳の数を集計、報告するようなことはしない。このシステムはどんな種類の咳か識別するだけでなく、人がどれだけ密集しているかなどの視覚的なマーカーや、場所別の病気指数などの位置情報を提供することができる。

「FluSenseの健康監視ツールは、新型コロナウイルス感染症(COVID-19)やSARSなどのウイルス性呼吸器疾患や、季節性インフルエンザの感染拡大予測に用途を拡張できると考えている」とラーマン氏はTechCrunchに語った。「さまざまな場所での症状の動態を理解することで、新しい感染症の重症度を把握し、社会的距離の確保(social distancing)やワクチン接種などのターゲットを絞った公衆衛生上の介入実行につなげられる」

こうしたシステムにおいて、考慮すべき明らかな重要事項としてプライバシーがある。ラーマン氏は「独自のハードウェアを開発すると決めた理由の1つはプライバシーの問題だ」と説明した。「一部の人は既に理解しているかもしれないが、我々のシステムは既存のカメラシステムに統合することができる。これは決して小さくない利点だ」。

「研究者らは現場の医療従事者と大学の倫理審査委員会から意見を聴取し、センサープラットフォームが許容可能であること、患者保護の視点とも十分整合していることを確認した」とラーマン氏は語った。「すべての関係者がためらいがあると語ったのは、患者がいる空間で高解像度視覚画像を収集することだった」。

同様に音声分類器も、人間が発した音声そのものを超えるデータを保持しないように特別に開発された。そもそも機密データを収集しなければ漏洩することもない。

当面の計画は、マサチューセッツ大学アマースト校のキャンパスの「複数の大きな公共スペース」にFluSenseを設置してデータを多様化することだ。「我々は複数の都市にまたがる試験実施のための資金も求めている」とラーマン氏は述べた。

こうした病気指数はいずれ、インフルエンザの予測に使用される他の直接的または間接的な指標と統合される可能性がある。新型コロナウイルスの管理には少し間に合わないかもしれないが、保健当局が次のインフルエンザシーズンへ向けた計画改善に非常に役立つ可能性はある。

画像クレジット:Irina_Strelnikova / iStock / Getty

[原文へ]
(翻訳:Mizoguchi

コンピュータービジョンを利用して製品写真を重要な属性へと分解するGlisten

今日この時代になっても、新しい服を探すための最善の方法が、いくつかのチェックボックスをクリックして、果てしなく続く写真をスクロールしていくやり方だというのには驚かされる。どうして「グリーンの模様のスクープネックドレス」と検索して、結果をみることができないのだろうか? Glistenは、まさにこの課題を解決しようとしているスタートアップだ。その技術はコンピュータービジョンを使用してどんな写真からでも、写っている製品の最も重要な属性を理解して抜き出すことができる。

えっ、そんな機能もうあるのではと思ったかもしれない。ある意味それは正しいが、それほど役に立っているとは言えない。共同創業者のSarah Wooders(サラ・ウッダース)氏は、MITに通い自分のファッション検索プロジェクトに取り組んでいる最中に、この問題に遭遇した。

「オンラインショッピングを先延ばしにしていた私は、そのときVネックのクロップシャツを探していたのですが、まず見つかったのは2着だけでした。しかし、ずっとスクロールしていくと、さらに20着ほど見つかりました」と彼女は言う。「そのとき私は商品が極めて一貫性のない方法でタグ付けされていることに気づきました。消費者が見るデータが非常に煩雑な場合、おそらくその裏側はもっと悪い状況になっています」。

明らかになっているように、コンピュータビジョンシステムは、犬種の識別から表情の認識まで、あらゆる種類の画像の特徴を非常に効果的に識別するように訓練されてきている。ファッションやその他の比較的複雑な製品に関しても、似たようなことを行うことができる。画像を見て、信頼レベルを付加された属性のリストを生成することが可能なのだ。

そのため、特定の画像に対して、次のようなタグリストが生成できる。

想像できるとおり、これは実際とても便利だ。しかし、それはまだ多くの望ましい結果を置き去りにしたままなのだ。システムは「maroon」(栗色)や「sleeve」(袖)が、この画像に存在していることは認識しているが、それが実際に何を意味するのかは理解していない。システムにシャツの色をたずねてみても、人間が属性のリストを手作業で整理して、タグのうち2つは色の名前、これらはスタイルの名前、そしてこちらはスタイルのバリエーションのことといった具合に教えてやらない限り、システムはうまく答えることはできないだろう。

1つの画像だけならそうした作業を手で行うのは難しくないものの、衣料品の小売業者は膨大な製品を扱い、それぞれに複数の写真が関連し、毎週新しいものが入荷してくる状況なのだ。そうしたタグをコピー&ペーストで延々と整理し続けるインターンに、あなたはなりたいだろうか? そんなことはまっぴらだろうし、実際誰もやろうとはしないだろう。この点こそが、Glistenが解決しようとしている問題だ。コンピュータービジョンエンジンのコンテキスト認識を大幅に向上させて、その出力をはるかに便利にするのだ。

同じ画像をGlistenのシステムで処理すると、以下のような結果になるだろう。

ずいぶん改善されていないだろうか。

「私たちのAPIのレスポンスは実際に、ネックラインはこれ、色はこれ、パターンはこれという形式で返されるのです」とウッダース氏は説明する。

この種の構造化データは、データベースに容易に挿入することができ、高い信頼性とともに問い合わせを行うことができる。ユーザー(ウッダース氏が後ほど説明したように、必ずしも消費者である必要はない)は、「長袖」(long sleeves)と指定すれば、システムが実際に衣服の「袖」(sleeves)を見て、それが「長い」(long)ものを選ぶことを知っているので、組み合わせてマッチングを行うことができるのだ。

今回のシステムは、成長を続ける約1100万種類の製品イメージと、それに対応した説明文ライブラリでトレーニングされた。システムは自然言語処理を使用してそれらの説明文を解析し、何が何を参照しているかを把握する。こうすることで、学習モデルが「formal」を色のことだと思ったり、「cute」が利用されるシーンのことだと思ったりすることを防ぐための、重要なコンテキスト上の手がかりが与えられる。だが、データを単に投入してモデルにそれを判断させれば良いといえるほど、物事は単純ではないのではと考えるあなたは正しい。

以下に示したのは、説明のために理想化されたバージョンの概要だ。

「ファッション用語には多くのあいまいさがあって、それは間違いなく問題です」とウッダーズ氏は認めるものの、それは克服できない種類のものではない。「顧客に出力を提供するときには、各属性にスコアを付けています。そのため、それがクルーネックなのか、それともスクープネックなのかがあいまいな場合には、正しくアルゴリズムが機能している限り、双方にスコアとして大きな重みを付加します。確信が持てない場合には、信頼性スコアが低くなります。私たちのモデルは、現場の人たちがどのように製品にラベル付けしたか、その結果の集合で訓練されていますので、みんなの意見の平均値を得られることになります」。

当初のモデルは、ファッションと衣類全般を対象としていたが、適切なトレーニングデータを使用すれば、他の多くのカテゴリーに適用することもできる。同じアルゴリズムで、自動車や美容製品などの特徴を見つけることができるのだ。例えばシャンプーボトルを探す場合な、袖(sleeves)の代わりに適用シーン、容量、髪質、そしてパラベン(防腐剤であるパラオキシ安息香酸エステル)含有の有無などを指定できる。

普通の買い物客たちは放っておいてもGlistenの技術のメリットを理解してくれるだろうが、同社は自分たちの顧客が、販売の現場の手前にいることに気がづいた。

「時間が経つにつれて私たちが気づいたのは、私たちにとって理想的な顧客とは、乱雑で信頼性の低い製品データを持っていることに、苦痛を感じているような人たちだということでした」とウッダース氏は説明する。「それは主に、小売業者たちと協力しているハイテク企業なのです。実際、私たちの最初の顧客は価格の最適化を行う会社で、また別の顧客はデジタルマーケティング会社でした。これらは、アプリケーションとして当初私たちが考えていたものよりも、かなり外れた場所にある応用なのです」。

ちょっと考えてみれば、その理由が理解できるだろう。製品についてよく知れば知るほど、消費者の行動や傾向などと関連づける必要があるデータが増えていく。単に夏のドレスの売上が戻ってきていることを知っているよりも、七分袖の青と緑の花柄のデザインの売上が戻ってきていることを知っている方が良い。

Glistenの共同創業者サラ・ウッダース氏(左)とAlice Deng(アリス・デング)氏

競争相手は主に、企業内のタギングチーム(私たちが誰もしたくないような手作業のレビューを行う)や、Glistenが生成するような構造化データの生成を行わない汎用コンピュータービジョンアルゴリズムである。

来週行われるY Combinator のデモデー前にも関わらず、同社はすでに月々5桁(数万ドル、数百万円)の定常収益を得ているが、現時点では彼らの販売プロセスは、彼らが役に立つと思った人々への個別のコンタクトに限定されている。「ここ数週間で、非常に多くの売り上げがありました」とウッダーズ氏は語る。

ほどなくGlistenは多くのオンライン製品検索エンジンに組み込まれることになるだろうが、理想的には利用者がそれに直接気がつくことはないだろう。ただ単に探しものがはるかに見つかりやすくなったように思えるようになるだけだ。

関連記事:いまさら聞けないコンピュータービジョン入門

原文へ
(翻訳:sako)

大量の一般公開データセットを検索できるGoogle Dataset Searchがベータから公式リリースへ

Google(グーグル)は米国時間1月23日、Dataset Searchのベータ終了を発表した。この一般に公開されている2500万近いデータの集合を検索できるサービスは、2018年の9月にローンチした

研究者たちが利用できるこれらのデータセットは、オランダに2010年から2018年まで猫が何匹いたかといった小さなものから、自分たちの仮説をチェックしたり機械学習のモデルを訓練およびテストするための、注釈入りのオーディオと画像の大型集合までいろいろだ。このツールは現在、約600万のテーブルを索引データ化している。

今回のリリースからDataset Searchにはモバイルバージョンが加わり、新機能も追加された。まず第一に、テーブル、画像、テキストなどデータのタイプを指定するフィルターだ。もちろんこれで求めるデータが見つけやすくなる。また、データセットに関する情報が増え、その出どころも明記された。

検索インデックスの中のデータの多くは、政府の省庁が出どころだ。現在インデックス中のデータとしては、米国政府のデータセットが約2百万件ある。ただしGoogleのKaggleも頻繁に姿を見せるし、そのほかの公共および民間の団体もデータを提供している。

Googleによれば、面白いデータセットを持ってる人は誰でも、それを提供して索引データ化してもらえる。そのプロセスには、データを詳しく説明できるschema.orgの標準マークアップが使われる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

テック業界を支配するスマホの「次」に何が起こっているのか?

テクノロジー業界において、この10年はスマートフォンの時代だった。2009年時点では、Symbian OSがまだ支配的な「スマートフォン」のOSだったが、2010年にはiPhone 4、Samsung Galaxy S、Nexus Oneが発売され、現在、AndroidとiOSがアクティブなデバイス数で合計40億台を誇る。スマートフォンとアプリは、もはや破壊的な新しいプラットフォームではなく成熟した市場だ。次は何がくるのだろうか。

その問いは、次に必ず何かがくることが自然の法則であることを前提としている。この前提が正しそうに見える理由は簡単だ。過去30年以上にわたり、それぞれの分野が重なっている、世界を変える3つの大きなテクノロジープラットフォームへのシフトを我々は経験してきた。3つの分野とはコンピューター、インターネット、スマートフォンのこと。いずれ4つめが地平線のかなたに現れることは避けられないように思える。

AR/VR、ブロックチェーン、チャットボット、IoT、ドローン、自動運転車(自動運転車はプラットフォームだ。まったく新しい周辺産業が爆発的に生まれる)と、過去数年間、次の候補に事欠くはなかった。しかし、いずれも楽観的な予測をはるかに下回っていることに気づくだろう。何が起こっているのだろうか。

PC、インターネット、スマートフォンの成長の勢いが、これまで揺らいだりつまづくようなことはなかったように思える。ここに、インターネットのユーザー数の推移がある。1995年の1600万人から1998年には1億4700万人に増えた。2009年以降のスマートフォンの販売推移はこのとおりだ。Androidはわずか3年で100万台未満から8000万台以上になった。これが、主要なプラットフォームへのシフトだ。

PC、インターネット、スマートフォンの成長をAR/VR、ブロックチェーンといった候補のそれを比べてみよう。不公平な比較だとは思わない。それぞれの分野が「大きな何か」になると主張する事情通がいる。もっと手堅い予測をする人々でさえ、ピークの水準は小さいかもしれないが、少なくともスマートフォンやインターネットと同じ成長の軌道を描くといういう。だが実際のところ、どうだろうか。

AR / VR:2015年にさかのぼるが、筆者は非常に有名なVCと話をした。そのVCは自信満々に、2020年までに最低でも年間1000万台のデバイスが出回ると予想した。実際どうなったか。2017年から2019年までにかけて370万台、470万台、600万台と推移し、Oculusは再編中だ。年間27%の成長率は確かに悪くない。だが「一貫して27%」という成長率は、次の大きな何かになると主張するには、少し心配になるといったどころではない。「3年で10倍」からはさらに遠い。2020年までにMagic Leapが深刻な状況になると予想した人はほとんどいなかった。やれやれ。他のAR / VRスタートアップは「残念な」状況だというのが最も的確な説明だ。

ブロックチェーン:ビットコインは正常に機能していて、2010年代にテクノロジーに起こった最も奇妙で興味深いことだと思う。しかし残りのブロックチェーンはどうだろうか。筆者は広い意味で仮想通貨の信奉者だ。だが、2017年半ばに仮想通貨の敬虔な信者に対して、2019年末までに企業向けブロックチェーンが実質的に死んでしまうとか、分散型アプリケーションの使用が依然として数千台に留まっているとか、スモールビジネスへの担保付き貸し付け以外に本当の新しい利用事例は発生しなかったなどと言おうものなら、彼らを怒らせることになったはずだ。そして、まだその段階にとどまっている。

チャットボット:真面目な話、チャットボットはついこの間まで未来のプラットフォームとしてもてはやされていた(Alexaは、端的に言うとチャットボットではない)。「世界は書き直されようとしており、ボットは将来大きな存在になる」。これは実際の発言からの引用だ。Facebook Mは未来のものだったが、もはや存在しない。マイクロソフトのTayも未来のものだったが、もはや存在しない。Zoに取って代わられた。ご存知でしたか。筆者は知らなかった。そして今やそのZoも存在しない。

IoT:最近の記事のタイトルをいくつか見てみたい。「なぜIoTが一貫して予測を下回っているのか」「IoTは死んだのか」「IoT:昨日の予測と今日の現実」。ネタバラしをすると、最後のタイトルは、現実が予測を超えて成長したことについての記事ではない。むしろ「現実は予想を超えてバラ色ではないことが判明した」といったものだ。

ドローン:現在、ドローンの領域では本当にクールなことがたくさん起こっている。筆者は何でも最初に試したい人間だ。しかし、ドローンによる物理的な荷物配送ネットワークを形成の実現には程遠い。Amazonは2015年にPrime Airの計画をもったいぶってチラ見せし、2016年最初のドローンによる配送を開発した。世の中はすばらしい出来事が起こることを期待していた。そしてまだすばらしい出来事を期待しているが、少し期待しすぎている部分はあると思う。

自動運転車:我々にはもっと多くのことが約束されていた。Elon Musk(イーロン・マスク)氏の誇張についてだけ言っているのではない。2016年からこういうタイトルの記事が出始めた。「2020年までに1000万台の自動運転車が路上に」「5年後に真の自動運転車が登場、フォードが発表」。一応、Waymoの好意で、フェニックスでクローズドパイロットプロジェクトが実施されているが、それはフォードが話していたものではない。フォードは「ハンドル、ブレーキ、アクセルペダルがない自動運転フォード車が、5年以内に大量生産される予定だ」と言っていた。それは、今から18カ月後のことになる。「1000万台」の予測に至っては12カ月しかない。筆者が多少の懐疑論を展開しても許してもらえると思う。

もちろん、これらは成功していないようだということを意味しているのではない。AirPods、Apple Watch、Amazon Echoファミリーなど、多くの新製品がヒットした。ただし、これら3つはすべて、新しいプラットフォームというよりも新しいインターフェイスだ。ゴールドラッシュなどではなく、1つの銀の鉱脈にすぎない。

機械学習やAIをリストから外したことに気づいているかもしれない。実際には定性的な飛躍が確かにあったが、a) 急成長が続くというよりは、Sカーブの平坦部分に突入してしまったという一般的な懸念がある  b)いずれにしろ、AIはプラットフォームではない。さらに、ドローンと自動運転車はいずれも汎用自動化という名の壁に直面している。つまりAIの壁だ。AIは多くの驚くべきことが行えるが、2020年に1000万台の自動運転車が走る、というかつての予想は、AIがあれば自動運転は十分に可能だと予測したことを意味しているが、実際のところ予想よりもずっと遅れている。

いずれのテクノロジーも、次の10年を決定づける存在になり得る。ただし、考慮しておくべきもう1つの点として、いずれもそうはならないかもしれないという可能性があることだ。あるテクノロジープラットフォームが成熟し始めると同時に、別のプラットフォームが必然的に台頭し始めるというのは、反論の余地がない法則ではない。「次の大きな何か」の前に、長い空白があるのではないか。その後、2、3つのことが同時に発生するかもしれない。もしあなたが、今度こそその店に入ろうとしていると公言しているなら、筆者は警告したい。店の前で長い間待つかもしれないということを。

画像クレジット:Robert Basic / Wikimedia Commons under a CC BY-SA 2.0 license.

[原文へ]

(翻訳:Mizoguchi)

AWSが機械学習のためのミニレースカー「DeepRacer」をアップデート

AWSは2018年に開催したデベロッパーカンファレンス「re:invent」で、超小型のレースカーと、それらがレースするリーグを作った。それは、デベロッパーたちに、機械学習を楽しく教えるための教材だ。2019年のre:Inventは来週始まるが、それに先駆けて同社は米国時間11月27日、その車とレースのスケジュールのアップデートを発表した

AWSでバイスプレジデント兼チーフエバンジェリストを務めるJeff Barr(ジェフ・バー)氏はブログで「AWSのイベントで競走する機会を増やし、またユーザー主催のさまざまなイベントのマルチカーレースでも単なる計時ではなく実際の競走で勝てるように、DeepRacerのセンサー能力を強化してアップグレードした」と書いている。

まず、DeepRacer Evoというニューモデルが登場した。2018年のオリジナルモデルの拡張バージョンで、ステレオカメラとLIDAR(ライダー)がある。バー氏によると、これらのセンサーは単なる飾りではない。

「ライダーや立体カメラを加えて、障害物の発見と対応能力を強化した。ほかのDeepRacerも見つけることができる。これによってデベロッパーは、強化学習というエキサイティングな分野を勉強できる。それは自動運転に適した機械学習の方法だ」と同氏。

すでにオリジナルのDeepRacerを持ってる人は、センサーアップグレードキットを買って改造してもいいし、新たにDeepRacer Evoを買ってもいい。どちらも発売は来年だそうだ。

このような車を提供するからには、競走の機会も必要だ。そこで、レーシングリーグがある。同社の計画では、来年はレースの回数を増やし、レースの種類も増やす。昨年はスピード競走だけだったが、強力なセンサーが加わったことを生かして、障害物を避ける能力の競争のほか、前年のように1台ずつ計測されるスピードではなく実際に複数の車による文字どおりのレースを開催する。

AWSの人工知能と機械学習担当のゼネラルマネージャーであるRyan Gavin(ライアン・ギャビン)氏が、今年の早い時期にTechCrunchのライターであるFrederic Lardinois(フレデリック・ラルディーノア)に「このミニレースカーを作ったのはデベロッパーたちに高度な技術を学んでもらうためだ」と述べている。

そのときギャビン氏は「機械学習の面白さを多くのデベロッパーに知ってもらうために何ができるか、いつも考えていた。そしてこのレースカーは、彼らの食いつきがとてもよくて、すぐにレースが始まった。そして私たちも、この楽しくて面白いやり方で強化学習をデベロッパーに学んでもらえるだろう、と気づいた。そのためには、レースをもっと競走性のある本物のレースにしなければならない。世界初の、自動運転によるレーシングリーグだ。世界中から集まったデベロッパーが、互いに自分の車を持ち込んで競走するだろう」と語っていた。

来週のre:Inventでは、DeepRacerの出番が多い。すでに持ってる人たちによる予選レースもあるし、もちろん決勝もある。初心者にはAWSが、DeepRacerの特訓コースとワークショップを提供する。

関連記事
Amazonが開発者たちに機械学習を教えるために、縮小版自動運転車を発表
Why AWS is building tiny AI race cars to teach machine learning(なぜAWSは機械学習を教えるためにAI内蔵レースカーを作ったのか、未訳)

画像クレジット: Amazon

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

古代ギリシアの石板の解読をAIが助ける

機械学習とAIは、太陽系外惑星を見つけたり、写真のように本人そっくりの人間の画像を作ったりといった派手な業績が強調されがちだが、でも同じ技術が学術研究の意外なところでも利用されている。DeepMindが作ったAI systemは、壊れた石板の上に彫られている古代ギリシアの断片的なテキストを再現し、学者たちが理解できるようにした。

これらの粘土や石や金属に文字が彫られたのはおよそ2700年前で、今では歴史学や文学、人類学などにとって貴重な一次史料だ。板は当然文字で覆われているが、何千年という時間によって、割れたりひびが入ったりしているだけでなく、破片の一部がなくなっていることもある。

そのような欠落は、容易に補完できることもある。例えば「sp_der caught the fl_」と書いてあったら、誰でもそれが「spider caught the fly」(蜘蛛が蠅を捕らえた)だとわかるだろう。でも、なくなっている文字がもっと多くて、しかも古代の言語だったらどうか。欠落を補完するのは容易でない。

それをやる科学とアートを金石学(Epigraphy、碑文研究)と呼び、その言語に対する直観的な理解力によって文脈を捉える。つまり、残っている文字やテキストを手がかりにして、何が書かれていたかを推測する。でもそれは骨の折れる難しい仕事だ。その仕事は、大学院生たちがやらされることが多い。かわいそうに。

今回彼らを助けてくれたのが、DeepMindの研究者たちが作った Pythia(ピューティアー)というシステムだ。それは、デルファイの神託に従って太陽神アポロの言葉を人びとのために翻訳したとされる、女性神官の名前だ。

チームは最初、古代ギリシア語の碑文の世界最大のコレクションを、機械学習のシステムが理解できるテキストに変換するパイプラインを作るという前例のない困難な作業に取り組んだ。それができればあとは、文字の並びを正確に推測するアルゴリズムを作るだけだ。上であなたが、蜘蛛(Spider)と蠅(Fly)を推測したように。

院生たちがやる場合と同じくPythiaにも、本物のテキストを一部意図的に削ったものが渡される。学生たちは約57%の精度でテキストを正しく推測する。1つの断片に対して何度も繰り返す時間のかかる作業だが57%は悪くない。これに対しPythiaの正解率は30%だった。

ただしPythiaの場合は、近似度が高い上位20の答の中に正解がある率が73%だった。それほどすごいとは言えない成績だが、20の答の中に正解が必ずあることは人間がやっても難しい。

greek process

Pythiaのシステムは、その仕事を完全に自分だけでやるわけではない。また、その必要もない。それは、人間がやったことを手がかりにする。そしてそれらに基づいて、石板の欠落部分を推測するための訓練を行う。つまり人間をリプレースするのではなく、人間の能力を補強する。

Pythiaの答は、最初は正しくないことが多い。でもそれは、難しい欠落と悪戦苦闘している人間にいいヒントや手がかりを与える。人間の認知労働力を軽減することによってそれは、テキスト復元努力のスピードと精度を上げるだろう。

Pythiaを記述している研究論文はここで読める。彼らが作ったソフトウェアの一部は、GitHubのリポジトリにある。

画像クレジット: DEA/ARCHIVIO J. LANGE/Contributor/Getty Images

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

AWS S3の膨大な公開データを検索できるQuilt Dataが脱ステルス,無料利用も可

Quilt Dataを創ったKevin Moore(ケヴィン・ムーア)氏とAneesh Karve(アニッシュ・カーヴ)氏はこれまでの4年間、AWS S3のストレージ上にある大量のデータを素早く検索するプラットホームの構築に努めてきた。それはデータサイエンティストたちにS3のバケット内にデータを見つける方法を提供し、さらにそのデータを企業が利用できる形にパッケージすることが目的だ。米国時間9月19日、同社は無料のデータ検索ポータルとしてステルスを脱し、その企業向けサービスを提供するだけでなく、S3の23のリポジトリに存在する3.7PB(ペタバイト)の公開データへの貴重なアクセスを提供する。

それらの公開データに含まれるのは、一般的に利用できるAmazonのレビューのデータや衛星画像、およびそのほかの価値ある一般公開情報だ。使い方はそのほかの検索エンジンと同じくクエリを入力するだけだが、それはウェブや企業のデータリポジトリを検索するのではなく、AWSのS3ストレージに結果を見つける。

検索結果には、探していたデータだけでなく、データサイエンティストたちが機械学習のモデルの構築のために使う標準的なワークスペースであるJupyterノートブックなど、そのデータに関する情報も含まれる。データサイエンティストたちはこれを、自分の機械学習モデルを作るためのベースとして利用できる。

公開データには100億あまりのオブジェクトも含まれ、データサイエンティストにとってはありがたいリソースだが、Quilt Dataがこのデータのアクセスを提供するのは純粋な愛他主義からではない。それはQuilt Dataのプラットホームにできることを広くいろんな人に見せたいからであり、それによって企業に同社プロダクトの商用バージョンを使ってもらいたいからだ。

Screen Shot 2019 09 16 at 2.31.53 PM

Quilt Dataの検索結果と見つかったデータに関するデータ(画像提供:Quilt Data)

Quilt Dataは無料で利用できるが、Amazon Marketplaceで継続購入してもいい。その場合の料金はS3の1つのバケットにつき月額550ドルだ。優先的なサポートやカスタマイズ、教育・研修などのサービスが付随するエンタープライズバージョンもある。こちらは、S3の1つのバケットにつき月額999ドルだ。

同社は2015年に創業され、Y Combinatorの2017年夏季を受講した。これまでY CombinatorやVertex Ventures、Fuel Capital、Streamlined Ventures、そしてそのほかの匿名の投資家から420万ドルのシード資金を調達している。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

人によるコントロールと機械学習を融合したスマート義手

義肢は年々良くなっているが、それらの強度と精度が使いやすさや能力(実際にできること)に貢献していないこともあり、とくに手足を切断手術した人たちがごく初歩的な動作しかできない場合が多い。

スイスの研究者たちが調べた有望と思われるやり方では、手動では制御できない部分をAIが引き受ける。

問題の具体的な例として、腕を切断した人が膝の上でスマート義手を制御する場合を考えてみよう。残存する筋肉に取り付けられたセンサーなどからの信号で、義手はかなり容易に腕を上げ、ある位置へ導き、テーブルの上の物をつかむ。

でも、その次はどうなる?指をコントロールするたくさんの筋肉と腱はない。そして義手の人工的な指を、ユーザーが望む曲げ方や伸ばし方ができるように解析する能力もない。ユーザーにできることが、単に総称的な「握る」や「放す」の指示だけなら、実際に手でできていたことを実行するのほぼ不可能だ。

そこが、スイス連邦工科大学ローザンヌ校(École polytechnique fédérale de Lausanne、EPFL)の研究者の出番だった。義手に「握れ」と「放せ」と命令したあと、それから先の動作を特に指示しなくても最良の握り方を見つけられるなら問題はない。EPFLのロボット工学の研究者たちは長年、「握り方の自動的な見つけ方」を研究してきた。だから今の義手の問題を解決するには、彼らがうってつけなのだ。

epfl roboarm

義手のユーザーは、本物の手がない状態でさまざまな動きや握りをできるだけうまく試みながら、そのときの筋肉信号を機械学習のモデルに解析・訓練させる。その基礎的な情報で、ロボットの手は自分が今どんなタイプの把握を試みているのかを知り、目的物との接触領域を監視して最大化することによって、手はリアルタイムで最良の握りをその場で作り出す。落下防止機構も備えており、滑落が始まったら0.5秒以内に握りを調節できる。

その結果、目的物はユーザーが基本的には自分の意思でそれを握ってる間、しっかりとやさしくその状態を維持する。目的物の相手をすることが終わってコーヒーを飲んだり、ひと切れのフルーツをボウルから皿に移したりするときは、その目的物を「離し」、システムはこの変化を筋肉の信号で感知して実際に離す行為を実行する。

関連記事:SmartArm’s AI-powered prosthesis takes the prize at Microsoft’s Imagine Cup【AIで動く義肢がMicrosoftのImagine Cupを勝ち取る、未訳)

MicrosoftImagine Cupを取った学生たちのやり方を思い出すが、それは手のひらにカメラを付けた義手の腕が目的物のフィードバックを与え、正しい握り方を教えていた。

一方こちらはまだまだ実験段階で、サードパーティ製のロボットアームと、特別に最適化していないソフトウェアを使っている。でもこの「人とAIとの共有コントロール」には将来性が感じられ、次世代のスマート義手の基盤になるかもしれない。チームの研究論文はNature Machine Intelligence誌に掲載されている。

画像クレジット:EPFL

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

有望な投資家や見込み客を見つけるためのデータ収集分析を助けるPredictLeads

PredictLeadsを創ったスロベニアのファウンダーたちは最近Y Combinatorを卒業したが、彼らはこの名門アクセラレーターにこれまで5回も応募し、6回目にやっと入学を認められた。

同社はベンチャーキャピタル企業(VC)や普通の企業の営業チームが、有望な新興企業や見込み客を見つける手伝いをするが、2016年の創業以来、紆余曲折を経験してきた。そしてやっと今年の初めに、YCの3か月のアクセラレーター事業に参加できた。

PredictLeadsのCEOであるRoq Xever(ロク・ゼヴェル)氏は「2017年には資金が底をつき、銀行も相手にしないから母親に金を借りた。でも、そのころからやっと上向きになり、大きな商談をまとめて利益を上げられるようになった」とコメントしている。

彼の言うとおりだ。今の多くのスタートアップと違って、PredictLeadsは何がなんでも利益を出す必要があった。「資金を獲得するためにYCに入るとは、夢にも考えなかった。利益を出す以外、資金を得る方法がなかった」とXever氏は言っている。

ゼヴェル氏のほかにPredictLeadsを引っ張っているのは、マーケティング担当のMiha Stanovnik(ミハ・スタノブニク)氏とCTOのMatic Perovsek(マティック・ペロブセク)氏だ。ゼヴェル氏によると、YCが関心を持ったのは、自分たちのプロダクトはVCにも売れるとわかってきてからやっとだ。

同社のツールPredictLeadsは、関心を持った有望企業を投資家や営業が調べる手助けをする。そして企業の製品やサービスに人気が出てきて、売れ行きもアップしてきたらユーザーに通知し、その企業を見込み客や見込み投資先として再検討するよう勧める。投資家や営業にとってまったく未知だった企業を、推薦することもある。

関連記事:VCs double down on data-driven investment models(VCたちはデータドリブンな投資モデルを重視、未訳)

最近は、投資の決定や企業調査のためのデータを得るためにサードパーティのツールを使うVCがますます増えている。そしてそのために、データにフォーカスした企業という新しいタイプの企業が生まれつつある。たとえばSocial Capitalの共同創業者Chamath Palihapitiya(チャマス・パリハピティヤ)氏は、彼のベンチャーキャピタルのファンドに軸足を置く家族企業からスピンアウトした。そして今のSocial Capitalの業態は、CaaS(Capital-as-a-Service) Technologies(サービスとしての資本のテクノロジー)だ、という。すなわち、データドリブンな知見をVC企業に提供することがその仕事だ。

一方スタートアップの方も、データの重要性を認識するようになった。やはり最近YCを出たNarratorも、このトレンドにでっかく乗ろうとしている。同社が望むのは、データサイエンスのためのオペレーティングシステムになり、一人のアナリストの費用で本格的なデータチームに相当するサービスが得られるソフトウェアを、企業に提供することだ。

そしてPredictLeadsは、見込み客や見込み投資先の判断のためのデータを、Webサイトやプレスリリース、ニュースの記事、ブログ、求人求職サイトなどなどから集めて、人間が監視する機械学習にかけ、それらのデータを構造化する。そうやって同社は今、2000万社の公開および非公開企業を追跡している。

また今や立派なYC卒業生だから、本社を米国に移そうとしている。ゼヴェル氏によると、候補地はニューヨークかサンフランシスコだ。当人は目下、そのためのビザの取得で悪戦苦闘している。

同社は米国時間8月26日、1000万ドルの評価額で150万ドルのシード資金を調達した。資金はファンドの定量分析と、営業チームを助けるためのSalesforceアプリの開発に投じられる。もちろん、そのためのチームの拡大にも。

関連記事:Y Combinator-backed Narrator wants to become the operating system for data science(データサイエンスのオペレーティングシステムになりたいNarrator、未訳)

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

さまざまな菌類に新種の機能性たんぱく質を作らせるスタートアップ

Y Combinatorの最新の卒業生Shiru(シル)は、食品の技術革命における前衛になろうとしている一連の企業集団の仲間だ。

同社を創業したJasmin Hume(ジャスミン・ヒューム)氏はこれまで、純植物性マヨネーズで有名な元Hampton Creek(ハンプトン・クリーク)、現在はJustの食品化学のディレクターだった。Shiruという社名は、食肉を意味する中国語のshi rouの同音字だ。ヒューム氏はJustで他のチームメンバーとともに多様な植物の組成を調べ、それらに含まれるたんぱく質(プロテイン)やその他の化学物質を識別し分類するという仕事をしていた。

一方Shiruは、計算生物学により、食品産業が求めるさまざまな目的に合った、それぞれ理想的なたんぱく質を見つけるというサービスを提供する。

食品産業のさまざま目的とは、具体的にはいろいろな食品添加物のことだ。求める食品添加物の性質や機能を最も良く満たすたんぱく質をShiruは見つけようとしている。彼らが求める性質とは、粘性のアップ、可溶性、泡の安定性、乳化作用、結合性などだ。

ある意味でShiruのアプローチは、Geltorの初期の製品開発ロードマップに似ている。SOSVIndieBioが支援していたGeltorは、機能性たんぱく質の生産を目指していた。Geltorはこれまで1800万ドルを調達し、そこで方向性を変えて食品ではなく美容産業および化粧品産業のためのたんぱく質をターゲットにした。Geltorが捨てた分野をShiruが拾ったというかたちになる。

起業したばかりのShiruにまだ製品はないが、同社が追究している科学は最近ますます理解が広まっている。ヒューム氏によると、同社は今後何種類かの遺伝子組み換えによる食品原料の開発を目指しているそうだ。その対象となる生物と彼らが作り出す食品原料とは、イースト菌やまだ名前を公表できないバクテリア、そして菌類などが作り出すたんぱく質だ。

ヒューム氏は「分子設計と機械学習を利用して既存のものよりも機能性の高いたんぱく質を見つける。求めるたんぱく質の性質は自然からヒントを得ている」と語る。

Shiruの創業までのヒューム氏の道のりには、血筋の良さが表れている。Justの前に彼女は、材料化学の博士号をニューヨーク大学で取得した。さらにその後彼女は、ニューヨークの最先端テクノロジー系投資企業であるLux Capitalで長期のサマー・アソシエイト(夏期特別インターン)を務めた。

今後の計画としては、今年後半に最初のたんぱく質のパイロット生産、そして少量の継続的生産を2020年内に開始する。同社はこれまでY Combinator以前には外部資本を導入していない。しかし現在は調達の過程にあるそうだ。

画像クレジット: Shiru

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

グーグルがコンタクトセンターの音声技術をアップデート

昨年6月にGoogle(グーグル)は、企業が自社のコンタクトセンターをもっと有効利用できるためのAI製品「Contact Center AI」を発表した。Contact Center AIはGoogleのさまざまな機械学習ツールを使って仮想エージェントを作り、エージェントの仕事を助ける。米国時間7月24日に、同社はこのツールのアップデートをいくつかローンチし、その中には特に音声認識機能の改良がある。

Googleによると、同社の自動化音声認識サポートは精度がとても高く、市販製品を導入した顧客がよく不平を言うノイズの多い電話でも正しく解釈する。その精度をさらに上げるために今回のアップデートで、「Auto Speech Adaptation in Dialogflow」(Dialogflowにおける自動音声適応)という機能をローンチした。Dialogflowは、ユーザーが顧客との会話型製品を作るための機械学習を利用したツールだ。今回のこのアップデートで、音声認識ツールは会話のコンテキストを捉えることができ、精度は40%向上したとGoogleはコメントしている。

Speech Recognition Accuracy

また、電話用の新しい機械学習モデルにより、米国英語の場合、短い発言の理解度が従来より15%向上した。またそのほかのアップデートとして、書き起こしの精度向上、訓練プロセスを容易化、エンドレスのオーディオストリーミングに「Cloud Speech-to-Text API」が対応、などがある。後者はこれまで、5分という制限があった。

Googleは、これらのオーディオのMP3を提供しているから、ダウンロードしてCDに焼くといいかも。

dialogflow virtual agent.max 1100x1100[原文へ]

(翻訳:iwatani、a.k.a. hiwa

AppleはTeslaから今度は車の内装の専門家をスカウト

テスラ(Tesla)の技術系高級役員がまた一人、アップル(Apple)に移籍した。Teslaのエンジニアリング部門の副社長だったSteve MacManus(スティーブ・マクマナス)氏は、今ではAppleのシニアディレクターだ。彼のLinkedInのプロフィールも、そうアップデートされている。

マクマナス氏がAppleに移籍したことは、Bloomberg(ブルームバーグ)が最初に報じた。Teslaで車の内装と外装を担当していたMacManus氏は、今年Appleに移ったTeslaの役員として3人目だ。彼は2015年からTeslaにいた。

彼の前にAppleに移って注目を浴びたTeslaの役員は、元チーフエンジニアのDoug Field(ダグ・フィールド)氏と、この電気自動車メーカーで運転システムを担当していたMichael Schwekutsch(マイケル・シュウェカッシュ)氏だ。

マクマナス氏は、特に車の内装と外装で長い経験を持つ工業デザイナーで、Teslaの前にはアストンマーチンの高級セダン、ラゴンダを手がけ、さらにその前にはジャガーランドローバーでシートやシートベルトまわりを担当した。

これら一連の人材スカウトは、Appleのもはやあまり秘密でもない自動運転車プロジェクトProject Titanの復活を示唆しているようだ。1月のニュースでは、以前その開発にか関わっていた200名を配置転換している

そのときAppleのスポークスパーソンは、「極めて優秀なチームがAppleで自動運転システムと関連技術を担当していた」が、一部はその後、機械学習などほかの部分へ移動されていたと言った。

今回、Appleからはコメントが届いてない。新しい情報が入り次第、この記事をアップデートする。

画像クレジット: EMMANUEL DUNAND/AFP/Getty Images

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

VMwareが機械学習計算をGPUなどで加速するBitfusionを買収

VMwareは米国時間7月18日、TechCrunchのピッチコンテスト「Startup Battlefield」に参加したことがあるBitfusion(ビットフュージョン)を買収したことを発表した。Bitfusionは、企業がGPUやFPGZ、ASICなどを使って行う複雑な計算負荷の高速化を助けるスタートアップ。4年前には、そのフォーカスはAIや機械学習よりもむしろハイパフォーマンスコンピューティングのほかの分野だったが、当然ながら近年ではAIやMLへの関心が増加したことで同社の方向性も変わった。

VMwareは、ベンダーやハードウェアを特定しないBitfusionの技術を利用して、同様の能力を顧客に提供していく。具体的には同社は、Bitfusionを同社のvSphereサーバー仮想化プラットフォームに統合する。

VMwareのCloud Platform Business部門の上級副社長でゼネラルマネージャーであるKrish Prasad(クリッシュ・プラサド)氏は「Bitfusionの買収が完了したら、ハードウェアアクセラレーターを仮想化することによってAIやMLのワークロードを支援していくVMwareの戦略がより強健になる。マルチベンダーのハードウェアアクセラレーターと、それらを軸とするエコシステムは、現代的なアプリケーションを動かしていくための基幹的部位だ。これらのアクセラレーターは場所や環境を問わず利用でき、オンプレミスでもクラウド上でもどちらでも使える」とコメントしている。

プラサド氏によると、GPUのようなハードウェアアクセラレーターを最大限有効利用するために多くの企業はそれらをベアメタルでデプロイしている。しかしVMwareの見解では、そういう使い方は(仮想化に比べて)低い利用率と効率を招きがちだ。「むしろハードウェアアクセラレーターは仮想化にきわめて適しており、リソースの共有を増してコストを下げる」と主張している。

両社とも、買収の価額を公表していない。Bitfusionは2017年に500万ドルを調達し、また2018年にはSamsung Ventures小から小額の戦略的投資を取得した。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

クラウドデータウェアハウスとデータサイエンスコミュニティを統合して仕事が楽に

Googleは2017年に、Google Cloud上のビッグデータ処理ツールのためにデータサイエンスのコミュニティを作りたくてKaggleを買収した。そして今日(米国時間6/24)同社は、Kaggleと、GoogleのクラウドデータウェアハウスBigQueryの直接的な統合を発表した

具体的には、データサイエンティストはKaggleのJupyter Notebook、通称Kaggle Kernelsでモデルを作れる。それからそのツールのAPIを使ってBigQueryにダイレクトにリンクでき、データウェアハウスのデータにSQLでずっと簡単にクエリを送れる。SQLは、データサイエンティストたちにとって、きわめてお馴染みの言語だから。

この方式の利点はGoogleによると、データに対しクエリを送ったり機械学習を実行したりするためにわざわざデータの移動やダウンロードをしなくてもよいことだ。この統合を紹介するブログ記事でGoogleは次のように書いている。「あなたのGoogle CloudアカウントがKernelsのノートブックやスクリプトにリンクしたら、BigQuery APIのクライアントライブラリを使ってノートブックの中で直接クエリを構成でき、BigQueryに対するクエリの実行やデータのさまざまな分析もできるようになる」。

データサイエンティストの仕事のやり方は独特だが、そのやり慣れたやり方で仕事ができるし、モデルを作って機械学習を実行することに伴う摩擦を軽減できる。いろんなツールをとっかえひっかえ使うのではなく、仕事全体をスムーズでよく統合化されたやり方でできるようになる。長期的には時間と精力の節約になるだろう。

しかも、Kaggleはデータサイエンティストたちのオープンなコミュニティだから、Kernelsを共有することもできる。逆に、公開されているリポジトリを検索するときKernelsを開始点として使ったり、さまざまなタイプのデータセットで実験するときの参照モデルとすることもできる。

Kaggleでは、ほかのデータサイエンティストたちといろんな問題をオープンに議論できる。コミュニティには300万のユーザーがいて、その公開リポジトリにはおよそ20万のKernelsがあなたの探求を待っている。

関連記事: Google、データサイエンス、機械学習のKaggle買収を確認

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

すべての人間を写真から消してくれるアプリが登場

人間嫌いでありながら元気な都市に住んでいる僕には、毎日不平のタネが尽きない。建物などそこに恒久的にあるものを撮ろうとすると、必ず群衆が写り込んでくるのなんかとくに嫌だ。でも、撮った写真から人間を削除するBye Bye Cameraアプリを使えば、その悩みもやっと解消する!

それはDo Something Goodに出品されているアートのつもりのアプリだが、ときどきアートには実用性がある。この創作グループ、中でもとくにアーティストのdamjanskiは、例えば人間を排除するCAPTCHAや、Googleの2つの会話エージェントによる対話など、デジタルのいたずらをいろいろ作ってきた。

今回にアプリについてdamjanskiがArtnomeに語っているところによるとそれは、「人間が絶滅した後の時代のためのアプリであり、自撮りや個人といった虚栄をすべての写真から取り去る」のだそうだ。幸いにも、犬は消えない。

でもアプリは人間が意図的に動かすのだから、人間が必要では? 世界から人間がいなくなったら、どうなるの? などと考えこんでもいいけど、幸いにしてこのアプリにはすべての人間を消滅させる気はない。

Bye Bye Cameraは、研究者向けに一般公開されているAIツールYOLO(You Only Look Once)を使っている。とても効率のいいオブジェクトクラシファイア(物を分類するソフトウェア)で、写真の中の人間の輪郭を素早く見つけて、Adobe(アドビ)なら「状況を生かした塗りつぶし」(context-aware fill)とでも呼びそうな機能のツールで、人間がいたところを背景で塗りつぶす。塗りつぶしはやや雑だが、確実に人間は消える。

楽しいプロジェクトだが、どこからか文句が来るかもしれない。人間性に関する議論を惹起したり、「誰でも使えるAI」の危険性、なんて話題にまで発展する可能性もありそうだ。

Bye Bye CameraはiOSのアプリストアで3ドルでダウンロードできる

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

顔写真が修正されていることを見つけて元に戻すニューラルネットワーク

Photoshopなどの画像加工ソフトを使って写真の顔を微修正することは一般的に行われているが、その画像に伴うデータに、いついつ修正されたと明記されることは少ない。カリフォルニア大学バークリー校とアドビの研究者たちが作ったツールは、写真が修正されていることを見抜くだけでなく、それを元に戻す方法も示唆する。

最初にお断りしておきたいが、このプロジェクトはPhotoshopによる修正を対象とし、特にその「Face Aware Liquify」(顔だけを液化)機能を使ったものだけに限定される。この機能を使うと、さまざまな顔の特徴を細かく、あるいは大きく、調整できる。どんな修正でも検出できるツールはまだ未来の話だけど、これはそれに向かっての第一歩だ。

研究者の中には、本誌のAI+ロボティクスイベントに最近出演したAlexei Efros氏もいる。彼らは、修正写真はアドビのツールを使ってるものが多いという想定から出発し、だからまずそれらのツールでできる修正に着目しよう、と考えた。

彼らは、ポートレート写真を少しずつ違ったやり方で修正するスクリプトを作った。目の位置を動かしてスマイルを強調する、頬と鼻を細くするなど。そして、それらの変形した視像とオリジナルを一緒に全部機械学習のモデルに投じ、それらの違いを見分けられるようになることを期待した。

学習は成功した。人間に画像を見せて、どれが修正されているか当ててみろと言ったら、当る確立はきわめて低い。でも訓練されたニューラルネットワークは、修正された画像を99%の精度で同定した。

それは一体、何を見ているのか?おそらく、画像の光学的なフローの中に、人間には感知できない小さなパターンを見つけているのだ。それらの小さなパターンが、どんな修正が行われたかを示唆する。そしてオリジナルを見たことがなくても元に戻すやり方を示唆できる。

対象はPhotoshopで修正された顔だけだから、自分の顔が変えられてどっかに勝手に載せられることを、このツールで防ぐことはできない。でもこれは、今少しずつ進歩しているデジタル鑑識技術の多くの小さな始まりの1つなのだ。

このプロジェクトに参加したアドビのRichard Zhang氏はこう言っている。「今の世界では、自分たちが消費するデジタル情報を信用することがますます難しくなっている。このような研究が今後もっともっと進歩することを期待したい」。

このプロジェクトを説明しているペーパーと彼らが書いたコードは、ここでで見られる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

さまざまな個人化用機械学習モデル構築APIがAWSから提供開始

Amazon Personalize」は、昨年11月のAWS re:Inventで発表されたが、それをいよいよAWSの顧客が利用できる。そのAPIを使ってデベロッパーは、機械学習のカスタムモデルを自分のアプリケーションに加えられる。それにより、製品のリコメンデーション(おすすめ)や検索結果、ダイレクトマーケティングなどを個人化(パーソナライズ)できるようになる。そのために機械学習の開発経験は、要らない。

そのAPIはデータを、元々はAmazon自身のリテールビジネスのために作られたアルゴリズムで処理する。ただし同社によると、すべてのデータは完全にプライベートに保たれ、顧客がその完全なオーナーになる。このサービスが今すでに使えるAWSユーザーは、以下のリージョンのユーザーだ:アメリカの3つのリージョン(東(オハイオ)、東(ノースバージニア)、西(オレゴン))、2つのアジア太平洋リージョン(東京とシンガポール)、EUのアイルランド。他のリージョンも、まもなくローンチする。

すでにAmazon Personalizeを使っているAWSの顧客は、Yamaha Corporation of America、Subway、Zola、そしてSegmentだ。Amazonのプレスリリースによると、Yamaha Corporation of AmericaのIT部長Ishwar Bharbhari氏はAmazon Personalizeについて、「機械学習モデルのセットアップと、インフラストラクチャやアルゴリズムのチューニングに要する時間が、自力でそのための環境を構築構成する場合に比べて最大60%は節約できる」、と言っている。

Amazon Personalizeの料金モデルは、Amazon Personalizeにモデルの訓練時間1時間あたりの訓練用データをアップロードする量1GBにつき24セントだ。リアルタイムのリコメンデーションリクエストはアップロードした数に応じた料金になり、大量のオーダーならディスカウントがある。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

マイクロソフトは2022年までに1万5000名の労働者にAIのスキルと資格証明を賦与

Microsoft(マイクロソフト)は米国時間5月17日朝、同社が教育プロバイダーのGeneral Assemblyと提携して、一定範囲のAI関連スキルの資格証明と教育訓練に投資すると発表した。目標は2022年までに1万5000名を教育訓練して、世界中で多くのAI人材を確保することだ。教育訓練のフォーカスはAIと機械学習、データサイエンス、データエンジニアリングなどに置かれる。

この新事業の初年度には2000名を教育訓練してAIと機械学習のロールに移行させる。そしてその後の3年でさらに1万3000名にAI関連のスキルを教育訓練する。

この取り組みの一環としてMicrosoftは、他社とともにGeneral AssemblyのAIのStandards Board(スタンダード委員会)に加わる。今後の6カ月でこの委員会は、AIスキルのスタンダードを定義し、評価の基準を開発、キャリアのフレームワークを設計、そしてAIスキルの資格証明書を作る。

教育訓練事業は、現在需要のあるAI関連雇用を満たすことにもフォーカスし、そこではMicrosoft固有の技術も学習する。Microsoftによれば、航空宇宙や製造業などいくつかの業種では、Azureを使いこなせるような社員がとても少ない。そこで教育訓練のフォーカスは、AI人材を雇用したいと思っている企業のそのような、Microsoft固有技術のニーズにも対応していく。

また人材ネットワークAI Talent Networkを作り、そこから長期雇用の人材や契約労働者を見つけられるようにする。General Assemblyは、22の大学キャンパスや求人求職サイトAdecco(アデコ)にも縁があるので、この人材ネットワークをアシストできる。Adeccoは昨年General Assemblyが41300万ドルで売った企業だ。

Microsoftはこの事業の背景として、雇用創出へのAIのインパクトを挙げている。2022年までには、新しいテクノロジーによって最大13300万の新たなロールが作り出されるそうだ。もちろん、同社のソフトウェアやクラウドの顧客がAzureのような同社製品を使える人々を楽に見つけられるようになるという計算もある。

Microsoftでグローバル営業、マーケティング、オペレーションを担当する執行副社長であるJean-Philippe Courtois氏は声明で「テクノロジー企業がイノベーションにコミットしていくときには、労働者がAIの教育訓練にアクセスできて、今日と明日の職場で伸びていけるようにする責任がある。我々の業態とGeneral Assemblyの専門的技術が組み合わされば、スキルのギャップをなくし、企業はAIに駆動される経済において自らのポテンシャルを最大化できる。その成果が今からとても楽しみだ」と述べている。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

ゲーム: この写真は本物の顔か?それともコンピューターが作り出した顔か?

コンピューターは最近ますます、人の心を落ち着かなくさせるような技能に秀(ひい)でてきた。それは、実在しない人間の顔を作り出すことだ。そしてコンピューターは、かつて存在したことのない人間の画像を作れるようになった。

今週、ThisPersonDoesNotExistが、このコンセプトをヴァイラルに広めるような役割を演じた。このWebサイトは、コンピューターが作り出した新しい顔を数秒間隔で次々と見せてくれる。そして、その…ときどき気持ち悪くなるような…猫バージョンが、ThisCatDoesNotExistだ。

しかも今度は、それがゲームになった。顔の画像を見て、どれが本物の人間か当てるゲームだ。(ネタバレ: そのゲームによると、上図の8つの顔はどれもコンピューターが作った顔だ。)

その名もまさしくWhichFaceIsReal(どの顔が本物)と呼ばれるそのサイトは、二つの画像を並べて表示する。どちらかが本物、他方がコンピューターが作った顔だ。このゲームを作ったのはワシントン大学の二人のプロフェッショナルで、上の二つのサイトと同じ技術を使っている。そのStyleGANと呼ばれるアルゴリズムを、Nvidiaのチームが最近オープンソースにした。このアルゴリズムは、二つのニューラルネットワークを対戦させる。一方は偽の顔の画像を作り、他方が偽を判定する。

現時点では、どれが本物か当てるのは不可能だ。でも、しばらくプレーしていると、もしかしてあなたなら、コンピューターが犯す間違いに気づくかもしれない。ゲームの作者も、いくつかの問題を指摘している。顔に水滴のようなしみがあったり、笑顔の口の前歯の数が多すぎたり…。

しかし、あなたがその90%を正しく当てたとしても、もしも偽の顔が、本物の顔とこれほど意図的なまでに対照的でなかったら、果たして当てることができただろうか? つまり偽の顔のどれかが、インターネット上のプロフィールのランダムな写真のような出来栄えだったとしたら、あなたは何も感じずにそれを見過ごしただろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa