AdobeのプロトタイピングツールXDがAlexaを統合

このところ人気が増しているプロトタイピングとデザインのツールAdobe XDに、Echo DotやEcho Showなどの上のAmazon Alexaによる音声体験をテストする機能が加わった。そのサポートは昨年10月に発表されたXDの音声プロトタイピングツールをベースとし、Adobeの初めてのAlexaスキル、すなわち制作中のプロトタイプをテストするためのスキルもある。

音声テクノロジーに関するAdobeの最近の調査によると、ユーザーは確かに音声テクノロジーを使うことに関心があるが、しかしこれまでのXDはWebやモバイルが中心だった。しかしAdobe自身も、最近の数か月で音声アプリの構築にいくつかの投資をした。また長年通常のアプリを作り慣れているデザイナーやデベロッパーも、音声アプリを任されることが多くなっている。そこで彼らのためには、使い慣れたツールで新しい音声アプリのテストができたほうがいい。

今回の統合に含まれるのは、上述のテスト用のAlexaスキルのほかに、音声プロトタイプをAlexaへエキスポートしプレビューするためのXDのAlexaプラグインだ。Adobeの音声UI/UX担当ディレクターMark Webster(マーク・ウェブスター)氏は「自分が作っているプロトタイプを実機の上で体験すると、投資家などがデザイナーやデベロッパーの意図をよく理解できる。それだけでなく、EchoなどのAlexaデバイスの上で音声プロトタイプを体験できれば、デザインについてより具体的な議論ができるようになる。そして部分的手直しも、製品開発のサイクルを一からやり直さずにできる」とコメントしている。

XDの音声サポートの初期的な段階はとても素朴で、単語を理解したら、それに対応して話をするだけだ。初歩的な機能をデモするにはこれでよくても、本物のデバイスでスキルをテストすることの代わりにはなりえない。

でも今後は、ほかの音声アシスタントもサポートされるのではないだろうか。当面は、Alexaだけだが。

XD Amazon Alexa Plugin 01

関連記事: Adobe XD now lets you prototype voice apps (Adobe XDで音声アプリをプロトタイピングできる、未訳)

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Microsoftがイーロン・マスクらのOpenAIに1000億円超を投資、Azueクラウドの人工知能化を目指す

Microsoft(マイクロソフト)はOpenAIに10億ドル(約1080億円)を賭けた。3年前に創立されたこのAIスタートアップのファウンダーにはイーロン・マスク氏をはじめとしてY Combinatorの前プレジデント、サム・アルトマン氏(写真左)などシリコンバレーの著名人が多数いる。

OpenAIの目的は人工知能をユーザーフレンドリーな方向に導くための研究・開発だ。マスク氏は「現在のAI開発の方向は人類の生存を脅かす問題に発展しかねない」と警告してきた。OpenAIはAIの暴走を防ぎ、責任ある開発を目指すという。

現地時間7月22日にMicrosoftとOpenAIは複数年に渡る「実際のコンピューティングを含むパートナーシップ」契約を締結したことを発表した。つまりこの契約で両社はMicrosoftのAzureクラウド向けに新しいAIスーパーコンピューティングテクノロジーを開発する。加えてOpenAIは 現在稼働しているサービスをAzureにポーティングする。またこの契約でMicrosoftはOpenAIの優先パートナー(Preferred Partner)に加わった。これは今後OpenAIが開発するAIテクノロジーの商用化にあたってMicrosoftらが優先的な取扱を受けることを保証する。

今回の発表にちりばめられた「独占的」や「優先的」という単語は興味深い。実はOpenAが創立されたときの理念の1つは人工知能の研究にあたっての自由な協力体制だったからだ。AI研究者は共同でj研究を行い、成果物も自由にメンバーが利用できることを意味していた。しかしいくつかの留保事項があった。プロジェクトの中OpenAI Inc.はNPOだが、子会社のOpenAI LPは営利企業だ。同社の定款の一部は「セキュリティー上の理由により」 非公開となっている。つまり同社の事業の一部は今後も公開されない。

Microsoftにとって今回の提携の目的はAzureに広範囲にAIプラットフォームを確立することだろう。これにより、AzureのスーパーコンピューティングテクノロジーをAIや総合機械知能の開発に役立てることができるようになる。OpenAIは総合機械知能の発展の中心的グループにMicrosoftを迎え入れることができる。発表によれば提携はAIにおける「安全性やセキュリティー上の懸念」を解消することを念頭に置いているという。もちろん10億ドルという資金も念頭に置いているだろう。

投資資金の使い道など詳細については不明ながら、OpenAIの共同ファウンダーでCTO(最高技術責任者)、Greg Brockman(グレッグ・ブロックマン)氏のアカウントから のHackerNewsへの投稿は「キャッシュによる投資」だとしている。

Update記事公開後にOpenAIから連絡があり、投資の内容が多少明らかになった。OpenAIの共同ファウンダー、CTOのブロックマン氏のコメントは以下のとおり。

今回の投資は全額キャッシュでOpenAI LPに対するもので、リミテッドパートナーシップに対する標準的な出資確約(Capital Commitment)だ。すなわち今後複数年にわたって我々の求めに応じてMicrosoftが必要なを出資することとなる。我々はこれを5年以内と予定しているが、それより短い期間に出資が完了する可能性がある。

OpenAIは創立時に10億ドルをマスク氏、アルトマン氏らから確保している。共同ファウンダーには前述のブロックマン氏に加えて、LinkedInの共同ファウンダーであるリード・ホフマン氏、YCの共同ファウンダーであるジェシカ・リビングストン氏、ベンチャー投資家のピーター・ティール氏、AWSらが名前を揃えている。AWSの存在はAzureとの関係で興味深い。 Infosysと YC Researchは数年といった短い期間では出資金を全額使うのは難しいだろうと予測していた。

画像:Microsoft

原文へ

(翻訳:滑川海彦@Facebook

VMwareが機械学習計算をGPUなどで加速するBitfusionを買収

VMwareは米国時間7月18日、TechCrunchのピッチコンテスト「Startup Battlefield」に参加したことがあるBitfusion(ビットフュージョン)を買収したことを発表した。Bitfusionは、企業がGPUやFPGZ、ASICなどを使って行う複雑な計算負荷の高速化を助けるスタートアップ。4年前には、そのフォーカスはAIや機械学習よりもむしろハイパフォーマンスコンピューティングのほかの分野だったが、当然ながら近年ではAIやMLへの関心が増加したことで同社の方向性も変わった。

VMwareは、ベンダーやハードウェアを特定しないBitfusionの技術を利用して、同様の能力を顧客に提供していく。具体的には同社は、Bitfusionを同社のvSphereサーバー仮想化プラットフォームに統合する。

VMwareのCloud Platform Business部門の上級副社長でゼネラルマネージャーであるKrish Prasad(クリッシュ・プラサド)氏は「Bitfusionの買収が完了したら、ハードウェアアクセラレーターを仮想化することによってAIやMLのワークロードを支援していくVMwareの戦略がより強健になる。マルチベンダーのハードウェアアクセラレーターと、それらを軸とするエコシステムは、現代的なアプリケーションを動かしていくための基幹的部位だ。これらのアクセラレーターは場所や環境を問わず利用でき、オンプレミスでもクラウド上でもどちらでも使える」とコメントしている。

プラサド氏によると、GPUのようなハードウェアアクセラレーターを最大限有効利用するために多くの企業はそれらをベアメタルでデプロイしている。しかしVMwareの見解では、そういう使い方は(仮想化に比べて)低い利用率と効率を招きがちだ。「むしろハードウェアアクセラレーターは仮想化にきわめて適しており、リソースの共有を増してコストを下げる」と主張している。

両社とも、買収の価額を公表していない。Bitfusionは2017年に500万ドルを調達し、また2018年にはSamsung Ventures小から小額の戦略的投資を取得した。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

イーロン・マスクが脳直結インターフェイス「Neuralink」をプレゼン

イーロン・マスク氏のステルス・スタートアップの1つがいよいよ表舞台に登場する。米国時間7月16日午後8時(日本時間7月17日正午)に 同社のサイトからビデオストリーミングによるプレゼンが公開される予定だ。2017年に創立されたNeuralink(ニューラリンク)のテクノロジーについて詳しく知ることができるはずだ。

NeuralinkはBCI(脳コントロールインターフェイス)を開発しており、マスク氏の遠大なテクノロジーのビジョンの重要な一環を占める。BCIは人間によるコンピュータのコントロールを改善し、AIがもたらす危険性を大きく減少させルのに役立つという。

そこでこれまでにNeuralinkについて分かっていることを振り返ってみよう。創立当初の目的は(少なくともその後1年程度は)脳に直結するインターフェイスをてんかんなど大脳に起因する慢性疾患の症状の軽減に役立てることだった。この研究の過程で「超広帯域の脳-マシン・インターフェイス」によって人間の脳とコンピュータを直結するテクノロジーが開発されたという。ともあれNewralink自身が公開している情報はこれだけだ。

Wait But Whyにサイトの共同ファウンダーであるTim Urban(ティム・アーバン)氏が発表した記事がNeuralinkが解決を目指す課題に関する最初の詳しい解説だった。私も同じ日にスタートアップの背景と目的を分析する記事を書いた。要約すれば、Neuralinkの使命は宇宙植民計画などマスク氏のほかのベンチャーと同様「人類の存続を脅かす危機」とマスク氏が呼ぶものを避けるための努力といっていいだろう。

Neuralinkの目的は当初の医療テクノロジーという領域をはるかに超えて拡大した。Wait But Whyによれば、医療のような現実の応用からスタートしたのは、コンセプトを実験する上で規制当局を納得させるのに便利だったからだったらしい。マスク氏の最終目的はコミュニケーションにおける「圧縮」過程を取り除くことだというのがTim Urban氏の説明だ。マスク氏によれば、例えば人間がコンピュータと対話するとき、内心の考えをキーボードで打ったり、マウスを操作したりして伝える。このとき、実際の考えは大幅な圧縮を受けている。Neuralinkは情報の圧縮と伸張の過程を取り除く。これにより人間とコンピュータの対話をロスレスで広帯域の直接コミュニケーションに変え、容易化、高速化を実現する。

このテクノロジーが人類の存続を脅かす危機を避けることに関係するというのはこういうわけだ。マスク氏によれば、人類は今後も否応なくAIの発達にさらされ、次第にコンピュータの処理能力が人間を圧倒するようになる。高度なAIを搭載したロボットが世界の支配者になるというドゥームズデー・シナリオを避けるためには、人間が脳を直接コンピュータに接続することでコントロール能力を格段に高めるようにする他ないというのがマスク氏の考えだ。

2年前にはこの最後の目標にはそのまま受け取るのが難しい部分も含まれていた。しかし今日、Neralinkがどこまで達成できたのか、目標設定に変更はあったかのなどについて報告を聞くことできる。Neuralink.comからストリーミングがもうすぐ開始される(日本時間で本日正午)。

画像:DAVID MCNEW / AFP / Getty Images

原文へ

(翻訳:滑川海彦@Facebook

AmazonのAlexaスキル開発キットがヒンズー語をサポート

Amazonの音声アシスタントのユーザーは、もうすぐヒンズー語でAlexaに話できるようになる。Amazonの米国時間7月16日の発表によると、デベロッパーのためのAlexa Skills Kitにヒンズー語の音声モデルを加えた。またAlexaのデベロッパーはこれまでインドで発表した自分のスキルを、ヒンズー語対応にアップデートできる。

Amazonは先月の機械学習と人工知能のカンファレンス「re: MARS」で、「流暢なヒンズー語をAlexaに加える」と発表した。それまでAlexaが理解できたのは、ヒンズー語混じりの英語、ヒングリッシュのコマンド少々だけだった。Alexa担当のヴァイスプレジデントでトップのサイエンティストであるRohit Prasad(ロヒャット・プラサド)氏はインドの通信社IANSに、Alexaにヒンズー語を加えることは「コンテキスト的にも文化的にもそしてコンテンツの面でも難題だった」と言っている。なぜなら、インドで使われている方言やアクセントやスラングがあまりにも多様だからだ。

英語とともに、ヒンズー語はインドの公用語のひとつだ。Googleの音声アシスタントもヒンズー語をサポートしている。Citi Researchによると、Amazonのマーケットシェアは約30%で、メインのコンペティターであるウォルマート支援のFlipkartと同じぐらいだ。

画像クレジット: Amazon

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Amazon Alexa対応の車輪付き家庭用ロボ、開発に本腰

Bloomberg(ブルームバーグ)は4月に、Amazonが「ベスタ」(Vesta)というコードネームで家庭用ロボットを開発中と報じたが、今度はそのプロジェクトが継続中と報じている。しかもその記事にはロボットの具体的な詳細もあり、実はAlexaをサポートしていて車輪で動き回るそうだ。友人の天才的イラストレーターに想像図を描いてもらったら、上図のようになった。

「Vestaは今年リリースされるらしいが、まだ大量生産の準備はできていない」とブルームバーグの情報筋は言っている。どんなプロジェクトでも途中で棚上げにされることはあるが、でも同社はこのところ技術者など開発スタッフを増員してリリースを目指しているそうだ。

現在のプロトタイプでは、ロボット本体の高さは人間の腰の高さぐらいで、センサーを入力源とするコンピュータービジョン技術が介助する。ブルームバーグの記事に書かれている社内デモによると、Alexaにありがとうと言うとユーザーのところへやってくる。その機能はEchoデバイスとほとんど同じのようで、呼びかけに応える、タイマー、音楽の再生などができる。

Vestaが実際にローンチした場合の外見は、Kuriが良いヒントになりそうだ。この、Bosch(ボッシュ)の社内的スタートアップであるMayfield Robotics(メイフィールド・ロボティクス)が開発したロボットは昨年閉鎖され、市場には出なかった。Kuriには、ビデオや写真の撮影、ゲームプレイ、家族との対話などができた。

またAmazonはさらに、Sonosに対抗する高品質のEchoスピーカーを来年出すらしい。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Amazonは社員再教育に800億円相当を投じ全社員の3分の1を高度な職種に再配置

【抄訳】
米国時間7月11日、Amazonは7億ドル(約800億円)を投じて米国の労働者を再教育し、彼らをスキルのある技術職や非技術職に移動していくと発表した。その具体的な新しい職場は、会社のオフィスやテクノロジーハブ、フルフィルメントセンター、リテールストア、輸送ネットワークなどだ。それによる同社の目標は、2025年までに米国の同社従業員10万名をスキルアップすることで、それはAmazonの全米の労働者の3分の1に相当する。

発表によると、Amazonが特に欲しいのはデータマッピングのスペシャリストやデータサイエンティスト、ソリューションアーキテクト、ビジネスアナリスト、さらにロジスティクスコーディネーター、工程改善マネージャー、そして輸送運送(トランスポーテーション)のスペシャリストだ。同社のワークフォースと米国の雇用の現況を見るかぎり、これらは過去5年間の雇用増加率の最も高い、そして高度なスキルの職種だ。

Amazon自身のデータによると、データマッピングスペシャリストの過去5年間の雇用増加率は832%、データサイエンティストは505%、ソリューションアーキテクトは454%、セキュリティエンジニアは229%、ビジネスアナリストの雇用は160%の増加だ。また、高度なスキルを持つカスタマーフルフィルメント(顧客対応)の職種は400%の増加となっている。

Amazonの米国のワークフォースは今年30万名に達すると予想され、全世界では従業員数63万名となる。この再教育投資は、ワーカー1人あたり約7000ドル(約76万円)となり、企業の社員再教育事業としてはこれまでで最大である。

資金は既存の事業と新しい教育事業の両方に分散され、また技術的学歴経験のある者とない者の両方に等しく注力していく。新しい社員再教育事業としては、まずAmazon Technical Academyが非技術系のAmazon社員にスキルを付けてソフトウェアとエンジニアリングのキャリアへ移行させる。Associate2Tech事業はフルフィルメントセンターの学卒者を技術職へ移動する。そしてMachine Learning Universityは技術的経験学歴のある者を機械学習へ向けていく。

そのほか既存の事業であるCareer Choice事業(フルフィルメントセンター学卒者の再教育)、Amazon Apprenticeship(見習い制度)、AWS Training and Certificationなども活用する。

【後略】

画像クレジット: Ted S. Warren/AP

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

SNS分析・運用サービスを提供するAIスタートアップのAIQが2億円調達

AI技術を活用したSNS分析・運用サービス「AILINK(アイリンク)」などを提供するAIQ(アイキュー)は7月12日、総額約2億円の資金調達を実施したことを明らかにした。調達先はand factoryほか複数の投資家と金融機関。AIQにとっては外部からの初の資金調達となる。

社会実装を重視してAIをSNS運用サービスに展開

AIQの設立は2017年7月。創業からちょうど2年になる人工知能スタートアップだ。AIQ代表取締役社長CEOの高松睦氏は前職で、大手通信キャリアを相手に先端技術を使ったソフトウェアの提案・開発を行っていた。そこでディープラーニングに出会い、「ディープラーニングを使い、自分たちのサービスとして提供できれば」と考えたことが起業のきっかけだった。

AIQ代表取締役社長CEO 高松睦氏

「先端技術を扱ってはいるが、ビジネスサイドから人工知能を手がけているのが我々の特徴。研究を深掘りしていくというよりは、社会実装することを重視している」(高松氏)

AIQでは、画像解析エンジンとSNSに特化した自然言語処理エンジンを独自に開発。2つを組み合わせることによって、SNSに投稿された写真や動画、テキストなどの情報から、投稿者の性別・年代・地域・趣味嗜好などの属性を、高い精度でプロファイリングできるという。

また、これらのエンジンを使ったサービスも展開している。その代表的なものがインスタグラムアカウントの分析・運用サービスAILINKだ。企業のインスタグラムアカウントと親和性の高いユーザーを抽出でき、相性のよいアカウントには自動でフォローや「いいね!」などのアクションを実施。フォロワー増やマーケティングに役立てることができる。2018年9月には、顧客からの要望が高かったTwitter対応版もリリースした。

AILINKはフォロワー増を目的として導入されることが多いそうだが、「ユーザー分析をした上で自動運用を行うので、効果が高い」と高松氏は話している。「マスマーケティングが頭打ちになる中で、コアなファンとのつながりを持つことができ、ケアすることも可能。購入単価増に結び付けることもできる」(高松氏)

AILINKサービス紹介サイトより

インスタグラムの自動運用ツールには、競合も数多い。どういった点で優位性があるのか高松氏に尋ねると、「独自のSNS分析に適したAIエンジンを持つことと、データを保有している点だ」との答えが返ってきた。「ハッシュタグのみでなく投稿全体を分析し、ランダムなゴーストアカウントではなく興味がありそうな人をフォローするので、フォローバックがきちんと得られて、タイムラインで情報を届けることができる」ということだそうだ。

高松氏はSNSをAI開発とサービス展開のフィールドとして選択した理由について、こう述べている。「スタートアップとして人工知能を手がけるためには、学習のためのビッグデータがなければならない。SNSは豊富に学習データがあり、着手しやすかった」(高松氏)

フォロワーのさらなる活用のために新プロダクトを準備

今回の調達資金は、現サービスの開発、販売のための人材強化に充てるというAIQ。また、8月に新サービスの立ち上げも予定しているという。

「AILINKでフォロワーは蓄積できたとして、その後のアクションに顧客は悩みを抱えている。新サービスでは、フォロワー分析に焦点を当てる。例えばスイーツに関するアカウントなら、和菓子なのかアイスクリームなのかケーキなのか、アカウントのつながりを分析する。ネットワーク分析の結果を利用して、フォロワーをインフルエンサーとしてマーケティングに生かしたり、商品開発に協力してもらったりといった、次のステップを考えるための『究極のファンベースマーケティングのためのプラットフォーム』を用意したい」(高松氏)

また、本ラウンドのリード投資家であるand factoryとは、資本業務提携も実施。and factoryが展開するユースホステル事業「&AND HOSTEL」などのIoTデータや提供するアプリで蓄積するユーザー行動のビッグデータなどを活用した、データとAIによる新プロダクトの研究開発を今後両社で検討していくという。

マイクロソフトからAzure Kinect AIカメラキットが約4.3万円で登場、まずは米国と中国で

今年のMWC(Mobile World Congress)でMicrosoft(マイクロソフト)は3次元認識能力があるAIカメラであるKinect(キネクト)をデベロッパー向けに復活させることを発表したAzure Kinect DKパッケージに含まれるのは100万画素の奥行きセンサーカメラ、360度マイク、1200万画素の通常のRGBカメラ、姿勢センサーなどで、全体は比較的小さくまとめられていた。DKパッケージは数カ月前から予約可能となっている。

米国時間7月11日、Microsoftは米国と中国で一般ユーザー向けにこのパッケージを市販することを明らかにし、399ドル(約4万3300円)で予約の受け付けを開始した。

オリジナルのKinectはXboxのゲーム用に開発されたアクセサリで、大きな注目を集めないまま終了していた。これに対してクラウド版のAzure Kinectはビジネスユースを念頭に置いている。つまり視覚認識能力があるAIツールを開発するデベロッパー向けにプラットフォームを提供するもので、名称のとおりAzureのエコシステムを全面的に利用できる。新しいKinectではMicrosoftの各種の機械学習サービスも利用できる(すべてのサービスがAzureの利用を必須としてるわけではない)。

Microsoftは、デベロッパー向けにXBox用Kinectを思いださせるボディートラッキングプレビューができるSDKなど多数のSDKを発表している。

kinect developers

新しいKnect DKのカメラはオリジナルのものとは異なり、むしろ同社が今年バルセロナのMWCで公開したHoloLens 2(ホロレンズ2)のカメラに近い。プレスリリースによれば、Azure Kinect DKには第2世代のHoloLens ARヘッドセットで利用されているToFセンサーが含まれている。ToF(Time-of-Flight)カメラはパルス光を照射し、画素ごとに反射時間を計測してフレーム全体の奥行きを一挙に認識する仕組みだ。DKのテクノロジーの中心となるのはこのToFカメラだが、Microsoftによればマイクロフォンアレイも発話者を聞き分けるなど高度な音声認識のために役立つという。

新しいKnectキットは生命科学、ヘルスケア、リテール、ロジスティクス、ロボティクスなどの分野で画像の奥行き認識を利用したAI、機械学習プロダクトを開発するプラットフォームとして役立つものとMicrosoftは期待している。同社のパートナーであるQualcommからも同種のキットが発表されているが、今回のKinect DKのような3次元認識カメラは含まれていない。

(Techcrunch Japan編集部追記)Azure Kinect DKは日本Microsoftのサイトから購入を申し込むことができる。サイトは日本語だが申し込みは英語でアカウントの取得が必要。

原文へ

(翻訳:滑川海彦@Facebook

AI開発のレトリバが7.5億円調達、コールセンター関連技術をさらに強化

レトリバは7月10日、SBIインベストメントと東京大学エッジキャピタルを主要インベスターとする第三者割当増資により総額7.5億円の資金調達を発表した。具体的な調達先は、この2社のほか、SMBCベンチャーキャピタルとみずほキャピタルの2社の計4社。

同社は、プリファードインフラストラクチャー(PFI)から2016年8月に分社化したAI開発のスタートアップ。PFIから、統合検索プラットフォーム「Sedue 」(セデュー)、リアルタイム大規模データ分析基盤「Sedue for BigData」、オンライン機械学習プラットフォーム「Sedue Predictor」、キーワード抽出プラットフォーム「Sedue Extractor」の事業を受け継いでいる。

現在ではこれらの技術を基にして、コールセンターのオペレーター向けに「Talk Coordinator」、管理者向けに「Voice Visualizer」、分析用として「VoC Analyze」の3つのソリューションを提供している。

Talk Coordinatorは、音声認識や自動分類、類似文検索、重要文検出といった技術を使って、顧客などとの通話中における回答支援から、通話後の後処理までを支援するソリューションだ。Voice Visualizerは、サポートを必要とするオペレーターと顧客の通話を検知するソリューション。音声認識と重要文検出の技術が使われている。

VoC Analyzeは、自動分類、類似文検索、集計・分析などの同社技術を使い、膨大な問い合わせ情報を内容ごとに分類する。また、重要なやり取りを抽出する機能も備えており、コールセンターの業務効率と顧客への回答精度の向上を支援するソリューションだ。

関連記事:PFIから自然言語処理と機械学習の部門がスピンアウト、新会社「レトリバ」が2.5億円を調達

なお同社は、前述の技術のほか、計10系統のさまざな独自技術を有している。今回の資金調達によって、コールセンター領域の製品とソリューションの強化、自然言語処理/機械学習技術を使った新ソリューション開発、高度な人材の登用、強固な株主体制構築による経営体制/ガバナンスの強化を予定しているとのこと。

フランスのクラウドプラットホームもGPUインスタンスでデータ指向ユーザー狙う

フランスのClever Cloudは、PaaS(Platform as a Service)タイプのクラウドホスティングサービスだ。同社は米国時間7月4日、機械学習のためのGPUインスタンスをローンチし、それをClever Gridという新しいブランド名で提供することになった。。

同社が使用するGPUはNvidiaのGeForce GTX 1070、分単位で課金される。最もベーシックなインスタンスが1時間0.42ユーロ(約51円)、1日10ユーロ(約1200円)、1か月300ユーロ(約36500円)だ。このお値段でメモリー6GB、8コアCPU、1GPU、ストレージ250GBを使える。

もちろん仕様アップは可能で、GPUインスタンスの最大仕様はメモリー60GB、32コアCPU、4GPUとなる。その料金は、月額1200ユーロ(約14万6000円)だ。

Screen Shot 2019 07 04 at 6.59.39 PM

クラウドインフラストラクチャについてあまりよく知らない、データサイエンティストなどのユーザーのためにClever Cloudは、インフラストラクチャの管理をできるだけ抽象化している。ユーザーは自分のPythonコードをWebインタフェイスから自分のクラウドインスタンスの上で直接実行できる。

GPUインスタンスはTensorflowやscikit-learn、CUDA、Keras、pytorchなどをサポートしている。GPUインスタンスの上でDockerのコンテナを動かせる。

Clever CloudはGitHubのリポジトリを直接統合しているから便利だ。自分のGitHubアカウントにコネクトして、そのリポジトリでクラウドのインスタンスをスタートできる。するとユーザーのコードがサーバー上でデプロイし実行される。

そんなシームレスなデプロイに加えて、Clever Cloudにはモニタリングやバックアップ、セキュリティアップデートなど、ユーザーのサービスが円滑に動くための、ユーザー環境の脇を固める機能がいろいろある。

Clever Cloudのクライアントには、Airbus(エアバス)、MAIF、Compte Nickel、Sogeti、South African Ministry of Health(南アフリカ保健省)などが名を連ねる。

Clever Grid

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

本郷発のAIを世界へ、AIスタートアップを支援する「HONGO AI 2019」が始動

NEDO(国立研究開発法人新エネルギー・産業技術総合開発機構)は7月4日、アーリーもしくはシードステージのAIスタートアップ企業を表彰するコンテスト「HONGO AI 2019」の募集を開始した。最終選考会および授賞式は、10月2日に東京都文京区にある東京大学の伊藤謝恩ホールで開催する予定だ。

市場の成長性や技術の模倣困難性、チームの質などの観点から産官学の有識者が選考に加わり、事前選考を通過した企業は「HONGO AI Award」に出場できる。HONGO AI Awardの受賞企業は、ベンチャーキャピタル(VC)からの投資機会や、本事業委託先であるアドライトによる大手企業とのマッチングなどの事業支援を受けられるとのこと。

主催者のNEDOはこれまで、ロボットと人工知能の基礎的な研究と社会実装を5年前から、3年前からは社会のニーズ応じた応用研究を進めていた。また2年前にAIコンテストを開催した実績もある。今回HONGO AI事務局の協力を得てこのAIコンテストを復活させた。インターネットが普及し始めたことに渋谷近辺がビットバレーと呼ばれたように、AIが普及するこれからの時代に本郷近辺がHONGO AIと呼ばれるように、存在感を高めるのが狙いの1つだ。

HONGO AI事務局とは、東京大学がある東京・本郷地域でのAIスタートアップ企業を盛り上げるために、2019年に結成されたばかりの有志の任意団体。現在は代表幹事を、経営共創基盤(IGPI)、Deep30投資事業有限責任組合、ディープコアが務めている。

応募要件は、株式価値が20億円未満、累計の資金調達額が5億円の、シードもしくはアーリーステージのスタートアップ。選考には、HONGO AI事務局のディープコアやDeep30だけでなく、さまざまなVCやCVCへの参加を募る。

東京大学の松尾 豊教授

選考委員の1人である東京大学大学院工学系研究科で人工知能を専門分野とする松尾 豊教授は、「東大だけでなく、東工大、早稲田、筑波、京大、阪大などポテンシャルの高い大学はたくさんあり、AIスタートアップが生まれる環境は整っている。HONGO AIのような取り組みが全国に波及することに期待している」とコメント。

HONGO AIの一番の強みといえるのが、東大から供給される人材。松尾教授は「現在、東京大学で100人ぐらいがAIやディープラーニングを研究しているが、これが10倍ぐらいの数になれば、シリコンバレーや深圳と肩を並べるレベルになるのではないか」とも語る。ちなみに松尾研究室の昨年の卒業生は、進学もしくは起業の道に進んでおり、企業に就職した学生はいなかったそうだ。大学卒業後は、就職せずに起業という流れは今後も強くなっていくだろう。

日本のAI技術が今後どのように進化するのかも含め「HONGO AI Award」に期待したい。

中国では顔認識にも美顔フィルターを搭載へ、自分の顔が醜いと利用を拒否

中国の顔認識ソフトウェアは、正確なだけではダメなのだ。Alibaba(アリババ)傘下でQRコード決済サービスなどを展開しているAlipayは最近、ユーザーの外見がソフトウェアの成功の鍵であることを証明した。

米国時間7月2日、Alipayは中国語のソーシャルメディアであるWeibo(微博、ウェイボー)で、その決済アプリの「あなたのお顔で払いましょう」システムにビューティーフィルター(美顔フィルター)を加えたと発表した。1週間後には、Alipayの顔スキャンシステムを装備している小売店全店に、その機能が行き渡る。

AlipayはWeiboにこう書いている。「あなたは(自撮りアプリの)ビューティーカメラで撮ったのよりもずっと美しくなります。あなたご自身も感動されるでしょう」。

この新しい機能は、顔認識マシンは人の顔を醜くするという苦情への対応だ。ニュースポータルであるSina Technologyが行った調査によると、回答者の60%以上がこの決済方法では自分の顔がふつうのカメラよりも醜くなる、と答えている。美容を気にする人々は、スーパーマーケットの混みあったレジでコンピューターの大きな画面に自分の無愛想な顔が映ったらとっても嫌だろう。

中国では美容意識の高まりにより、香港に上場した美顔セルフィーアプリのMeitu(美图、メイツー)を捨てて、最近Nasdaqに上場して1億8000万ドルを獲得した整形手術のマーケットプレイスのSo-Young(ソヨン、新氧)へ行く人も増えている。

メッセージングの大手WeChatの決済アプリWeChat Payも、Alipayに追随して美顔認識を採用するだろうか?ビューティーフィルターは企業にとって、必須ではないが競争上無視できないツールだ。スマートフォンメーカーのXiaomi(シャオミ)も最近Meituをマネて、セルフィーやステッカーやグラフィクスを重視した新機種を発売した。

Alipayの月間アクティブユーザーは10億を超えている。WeChatの決済アプリはそこまで行っていないが、3月には1日に処理するトランザクションが10億を超えたと発表した。

画像クレジット: Alipay via Weibo

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

IntelとBaiduがニューラルネットワーク訓練専用プロセッサーでパートナーシップ

米国時間7月2日、Baidu(バイドゥ)が北京で開催したAIデベロッパーのためのCreateカンファレンスで同社とIntel(インテル)は、後者のニューラルネットワークを訓練するためのチップNervana Neural Network Processorでパートナーすることを発表した。名前から明確に分かるように、この開発途上のチップ(NNP-Tと略称)は、大規模なディープラーニングを実行するニューラルネットワークを訓練するための専用プロセッサーだ。

NNP-Tに関するBaiduとIntelのコラボレーションにはこのカスタムアクセラレーターのハードウェアとソフトウェアの両方が含まれ、それらが確実に、BaiduのディープラーニングフレームワークPaddlePaddleに向けて最適化されているように図る。Intelはすでに、Intel Xeon Scalableプロセッサーの上でのPaddlePaddleの最適セットアップで協力しているが、今回のパートナーシップはそれを補完するものになる。NNP-Tの最適化は、ニューラルネットワークの分散訓練にフォーカスしたPaddlePaddleのアプリケーションをとくに対象とする。それにより、他のタイプのAIアプリケーションも完成させる。

IntelのNervana Neural Network Processor系列は、同社が2016年に買収したNervana社からその名前を受け継ぎ、Nervanaの元CEO Naveen Rao氏が率いるIntelのAIグループが開発した。NNP-TはAIの訓練用に特製されていて、データセットの取り入れとジョブのやり方の学習に用いられる。また今年のCESで発表されたNNP-Iは、推論専用である。すなわち学習の結果を利用してさまざまなAIの仕事そのものを行う。

NNPがデビューしたのは2017年で、第1世代のチップは現在、ソフトウェア開発のプロトタイプ、および、パートナー向けのデモハードウェアとして利用されている。そして、最新のいわゆる「Spring Crest」(春の最盛期)世代は今年、プロダクション向けに利用可能となる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

誰でもAIの威力を利用できるようにするMITの対話型機械学習予測ツール

もうすぐ、強力な予測ツールを開発するのに何も特別なものは必要なくなる。ごく普通のタッチスクリーンデバイスと、自由にアクセスできるデータさえあればいい。MITとブラウン大学の研究者による新しい実験は、「Northstar」と呼ばれる対話型データシステムに、「機械学習モデルを即座に生成する」能力を追加することに成功した。既存のデータセットに適用して有用な予測を生成できる。

研究者が示した例としては、医師がこのシステムを利用し、患者の医療履歴から、特定の疾患にかかる可能性を予測するというものがある。また、事業主が過去の売上データを使用して、より正確な予測ができるようにするというものもある。いずれも手作業による煩雑な分析は必要なく、迅速に処理できるものだ。

研究者はこの機能を、Northstarシステムの「仮想データサイエンティスト(VDS)」と呼んでいる。この名前は、人間のデータサイエンティストに取って代わるもののような印象を与えるが、人材がすぐに確保できないような状況では、実際にそれも可能だろう。一般的な医師の診療所に、専門のデータサイエンティストがいるわけでもないし、ほとんどの中小企業が、そうした人を常に雇っておけるわけでもない。さらに、個人経営のコーヒーショップや小売業者も、普通はこうした機能を利用することはできないだろう。

このツールは、進化し続ける自動機械学習技術を利用して新たに開発されたもので、AI技術を利用できる人の数を増やすのに役立つ。

Northstar自体は4年以上かけて開発されたもの。複数のプラットフォーム上で動作する。まず空白のキャンバスを提示し、ユーザーがデータセットをアップロードすると、独自のインターフェイス上に箱として表示される。ユーザーは、それらの箱をキャンバスの真ん中あたりにドラッグしてから、箱と箱の間に線を引いて接続する。それにより、あらかじめ選択したアルゴリズムに従って、互いに組み合わせて処理すべきものであることを指示するわけだ。

たとえば、患者の代謝率のデータセットと年齢のデータを持ってきて組み合わせることで、それらの2種類の要因から特定の疾患が発生する頻度を予測するといったことが可能になる。このように、仮想データサイエンティスト機能を使用することで、複数の入力を組み合わせたAIベースの予測分析を生成することが可能となる。

研究者はこのVDSシステムを設計する際に、自動化された機械学習として、これまでで最も速く動作するアプリケーションとなるようにした。それも、このシステムを誰でも使えるものにするためには重要なポイントだ。というのも、このデジタルのホワイトボードで作業しても、その結果が得られるのに何時間も待たされるのでは、とても実用的とは言えないからだ。今後は、エラーの報告機能を改善することにしている。専門家ではないユーザーにとって、単に使いやすいだけでなく、何かおかしくなったときに、どこで間違えたのかをはっきりと示すことができるようにする。次に使うときには、そこを修正できるようにするためだ。

原文へ

(翻訳:Fumihiko Shibata)

MITが人種に関係なく乳がん発症を5年前に予測できるAIツールを開発

MITのコンピューターサイエンス・AIラボは、乳がんを発症の5年前に予測できる深層学習ベースの新たな予測モデルを作り出した。このプロダクトを手がける研究チームは、他の似たようなプロジェクトでは往々にして白人患者が大半を占めるデータを元にしているために人種の偏りがあることを認識していて、今回のモデルは白人女性、黒人女性のどちらでも同じように正確な結果が出るよう「よりバランスのとれた」データを活用している。

「それが鍵だ」とMITはブログ投稿に書いている。というのも、黒人女性の乳がん死亡例は白人女性よりも42%も多く、それには主に黒人女性は最新のがん検知技術を十分に利用できていないという要素が関係しているとされている。MITは今回の技術の開発は、深層学習モデルの向上の恩恵をあまり受けていないマイノリティの健康リスクをより正確に評価することが目的だ、と話す。アルゴリズムの偏見の問題は多くの産業研究でみられ、この分野でAIを展開しようとしているテック企業が今後リリースするプロダクトですら同様だ。

マサチューセッツ総合病院の患者6万人(マンモグラフは計9万)のマンモグラフと患者の結果(その後のがんの発症)をベースに訓練された今回のMITツールは、データから深層学習を使って一見してそれとはっきり分からない、そして医師でも識別できないパターンを特定する。仮説に基づくものではなく、リスク要因についての知識を備えていることから、結果はこれまでのところ特に予測や診断前の発見でかなり正確なものとなっている。

全体的に、このプロジェクトは個人が正しいスクリーニングプログラムを受けられるようヘルスケア専門家をサポートし、そして診断の遅れに伴う悲しい結末をなくすためのものだ。MITはまた、人種間のギャップや低い精度など似たような問題を抱える他の病気の検知を改善するのにこの技術が活用されることを願っている。

イメージクレジット: MIT

[原文へ]

(翻訳:Mizoguchi)

すべての人間を写真から消してくれるアプリが登場

人間嫌いでありながら元気な都市に住んでいる僕には、毎日不平のタネが尽きない。建物などそこに恒久的にあるものを撮ろうとすると、必ず群衆が写り込んでくるのなんかとくに嫌だ。でも、撮った写真から人間を削除するBye Bye Cameraアプリを使えば、その悩みもやっと解消する!

それはDo Something Goodに出品されているアートのつもりのアプリだが、ときどきアートには実用性がある。この創作グループ、中でもとくにアーティストのdamjanskiは、例えば人間を排除するCAPTCHAや、Googleの2つの会話エージェントによる対話など、デジタルのいたずらをいろいろ作ってきた。

今回にアプリについてdamjanskiがArtnomeに語っているところによるとそれは、「人間が絶滅した後の時代のためのアプリであり、自撮りや個人といった虚栄をすべての写真から取り去る」のだそうだ。幸いにも、犬は消えない。

でもアプリは人間が意図的に動かすのだから、人間が必要では? 世界から人間がいなくなったら、どうなるの? などと考えこんでもいいけど、幸いにしてこのアプリにはすべての人間を消滅させる気はない。

Bye Bye Cameraは、研究者向けに一般公開されているAIツールYOLO(You Only Look Once)を使っている。とても効率のいいオブジェクトクラシファイア(物を分類するソフトウェア)で、写真の中の人間の輪郭を素早く見つけて、Adobe(アドビ)なら「状況を生かした塗りつぶし」(context-aware fill)とでも呼びそうな機能のツールで、人間がいたところを背景で塗りつぶす。塗りつぶしはやや雑だが、確実に人間は消える。

楽しいプロジェクトだが、どこからか文句が来るかもしれない。人間性に関する議論を惹起したり、「誰でも使えるAI」の危険性、なんて話題にまで発展する可能性もありそうだ。

Bye Bye CameraはiOSのアプリストアで3ドルでダウンロードできる

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

脳でコントロールするロボットやコンピューターが手術不要で実現する

カーネギーメロン大学とミネソタ大学の共同研究グループが、ブレインコンピュータインタフェース(Brain-Computer Interface、BCI、脳とコンピューターのインタフェイス)およびロボット工学における大きな突破口を開いた。彼らが開発したのは、人間が自分の心でロボットアームをコントロールする方法だ。手術のような侵襲的な手続きは要らない。

この実験のマインドコントロールロボットは、高度な運動制御能力も示した。画面の上で動くコンピューターのカーソルを、追うことができたのだ。これは言うまでもなくロボット工学の分野における大きな前進であり、個別ケースではなく一般的に、コンピューターを脳で制御できる可能性を実証している。それにはありとあらゆる用途がありえるが、麻痺などで運動能力に制約のある人でも、コンピューター化されたデバイスを操作できるようになるだろう。

これまで成功した高精度のBCI技術は、脳の信号をピックアップするインプラントを必要とした。インプラントを埋め込むのは危険であるだけでなく、高価であり、人間への長期的な影響も解明されていない。そのため広く普及することはなく、少数の人たちだけが恩恵に与っていた。

研究グループが開発した画期的な技術では、体内に装着するのではなく皮膚に貼ったセンサーからの低品質な信号を利用する。彼らは皮膚感覚と機械学習を結びつけて、ユーザーからの信号を捉える。その信号の起源は脳の内奥だが、捉えた信号には非侵襲的なテクニックにありがちなノイズがない。

この画期的な発見は、医療現場での実用化に向けてそう遠くないかもしれない。チームは、近く臨床試験を始めたい意向だ。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

あなたの製品のAIは誰かを困らせていないか?

人工知能(AI)は、顧客の人生をびっくりするような新しい方法で楽にしてくれるものだと、みんなが想像している。製品開発をする側からすれば、最優先すべきは常に顧客だ。しかし、ある顧客の助けになる開発中のソリューションが、別の顧客を遠ざけてしまうという新しい問題を引き起こすことがある。

私たちには、AIを生活や事業を支える非常に優秀な夢のアシスタントだと思いたがる傾向があるが、そうとばかりは言えない。新しいAIサービスをデザインする人間は、このことを肝に銘じておく必要がある。そのサービスが、人を煩わせたり、負担に感じさせたり、悩ませたりする可能性はないか。それは誰か、どんな形によるものか。そしてそれは、直接的に顧客を襲うのか、それともその顧客と共に第三者を捲き込んでしまうのか。AIサービスを利用して顧客の仕事を楽にさせるために、他の人たちに厄介事を押しつけるようでは、結果としてブランドイメージに大きな傷を付けることになる。

私がAmy.aiを使ったときの経験を例に挙げよう。これは、エイミー・イングラムとアンドリュー・イングラムという名前のAIアシスタントを提供するサービスだ(x.aiの製品)。AIアシスタントのエイミーとアンドリューは、最大4人のスケジュールを調整できる。このサービスは、電子メールを操り、非常に困難な会議のスケジューリングを、少なくともスケジュールを立てる人間の立場で解決してくれる。

「エイミー、来週、トムとメアリーとアヌシヤとシャイビーシュと会議ができる時間を探してくれ」と言うだけでことが済むパーソナルアシスタントなら、誰だって使いたいだろう。こう命令すれば、会議室を抑えたり、全員に電子メールを送って、みんなの返事を聞いて調整をするといった雑務を負わずに済む。私自身は、エイミーを使って4人の同僚の都合がいい時間を見つけて楽ができたのだが、それが私以外の4人に苦痛を与えていたのだ。互いに都合がいい時間と場所が見つかるまで大量の電子メール攻撃にさらされたと、彼らは私を責め立てた。

自動車デザイナーは、運転支援のためのさまざまな新しいAIシステムを導入している、もうひとつのグループだ。たとえば、Tesla(テスラ)は先日、オートパイロットソフトウェアをアップデートして、AIが適当と感じたときに自動的に車線変更ができるようになった。隣の車線のほうが速いと、システムが判断したときなどが想像できる。

これを使えば高速車線に安全に入ることができるので、自分で車線変更するときと違い、ドライバーが一切の認知的負担から解放されて有り難いという考え方のようだ。だが、Teslaのシステムに車線変更を任せてしまうと、ハイウェイでレーサー気分になりたい人や、競争心を満たしたい人たちの楽しみが奪われることになる。

隣の車線を走っているドライバーは、Teslaのオートパイロットに対処せざるを得ない。Teslaがぎこちない走りをしたり、速度を落としたり、ハイウェイの常識から外れる動作を見せたりすれば、他のドライバーをイラつかせることになる。さらに、隣の車線の車が高速走行していることをオートパイロットが認識しないまま車線変更を行えば、これまた他のドライバーを怒らせてしまう。私たちには、高速車線は時速100kmで走るものという共通の認識がある。みんなが100kmで走っているところへ、なんの前触れもなく、まったく周りを見ていないかのように、時速90kmの車が割り込んでくるのだ。

あまり混雑していない2車線のハイウェイなら、Teslaのソフトウェアもうまく動作してくれるだろう。しかし、渋滞しているサンフランシスコ周辺の高速道路では、混み合った車線に針路を変えるごとに、システムはとんちんかんな操作を行い、その都度周囲のドライバーを怒らせてしまうに違いない。そんな怒れるドライバーたちと個人的な面識がなくとも、私なら十分に気を遣い、エチケットを守り、行儀よく、中指を立てられないように車線変更する。

インターネットの世界には、Google Duplexという別の例がある。これは、Androidユーザーのための、AIを使った賢いレストラン予約機能だ。消費者の意見を基に、よさそうな店のディナーを、本人に代わって予約してくれる。予約をしたい人間にとっては、これは便利なサービスだ。なぜなら、店が開いている時間に電話をかけたり、話し中のためにかけ直したりといった面倒がなくなるからだ。

ところが、電話を受ける店の従業員にとっては、厄介なツールになりかねない。システムが自分はAIであると伝えたとしても、従業員はそれに伴う、新手の、融通の利かないやりとりを押しつけられる。それでいて目的は、予約を受けるという、いたって簡単な、以前と変わらない作業だ。

Duplexは店に客を連れてきてくれるわけだが、一方では、そのシステムは店側と客との対話の幅を狭めてしまう。別の日ならテーブルが空いているかもしれないし、早めに食事を終わらせてくれるなら、なんとかねじ込むこともできるかもしれない。しかし、このような例外的な判断はシステムにはできない。AIボットは電話を受ける人を困らせるという考え方も、じつは正しくないようだ。

顧客の生活を楽にしてあげたいと考えるのなら、あなたが夢見る支援のかたち以上に、主要顧客に関わる他のすべての人たちにとって、それが悪夢になりかねないことを考慮しなければいけない。あなたのAI製品に関わる人たちが不快な体験をしたかもしれないと少しでも疑いを持ったなら、周囲の人たちを怒らせずに顧客を喜ばせることができる、より良い方法を、さらに追求するべきだ。

ユーザーエクスペリエンスの観点に立てば、カスタマージャーニーマップは、主要顧客の行動、思考、感情の体験、つまり「バイヤーペルソナ」を知るうえで役に立つ。あなたのシステムと、直接の顧客ではない、何も知らない第三者との接点を特定するのだ。あなたの製品のことを知らないこれらの第三者のために、彼らとあなたのバイヤーペルソナとの関わり方、特に彼らの感情体験を探る。

欲を言えば、そのAI製品の周囲にいる人たちも十分に喜ばせて、購入を見込める顧客へと引き込み、やがては製品を購入してくれることを目指したい。また、エスノグラフィー(生活様式を理解し、行動観察・記録すること)を使って、何も知らない第三者とあなたの製品との関係を分析することもできる。

これは、プロセスに関わるときと、製品に関わるときの人々の観察結果を総合させる調査方式だ。

この調査の指標となるデザイン上の考え方には「私たちのAIシステムは、製品に関わるすべての人の助けとなり、もっと知りたいと思わせるよう働かせるには、どうしたらいいか?」というものが想定できる。

これはまさに人類の知性だ。人工物ではない。

【編集部注】著者のJames Glasnappは、パロアルト研究所上級ユーザーエクスペリエンス研究者。

[原文へ]

(翻訳:金井哲夫)

ロボットが電子レンジを普通に使えるようになるためIntelが奮闘中

コンピューターやロボットのトレーニングは、オブジェクトを理解して認識する(たとえば、オーブンと食洗機を区別するとか)だけでは終わらない。人が日常行っている比較的簡単な作業ができるレベルにまで、訓練を重ねる必要がある。人工知能に冷蔵庫と薪ストーブの違いを教えることができても、本当に実用的なロボットにするには、それらの器具を操作できなければならない。

IntelのAI研究者たちが、カリフォルニア大学サンディエゴ校とスタンフォード大学と共同で取り組んでいる新たな課題がそれだ。コンピュータービジョンおよびパターン認識のためのカンファレンスで発表された報告書では、各部品に完全な注釈が付けられた非常に精細な3Dオブジェクトの大規模なデータセット「PartNet」を、共同研究チームはがどのように構築したかが詳しく説明されている。

このデータセットは他に類がなく、すでにロボティクス企業の間で需要が高まっている。なぜなら、オブジェクトを現実世界で認識し操作できるようデザインされた、人工知能用の学習モデル生成のための高度なアプリケーションを備えることで、オブジェクトを部品に分割して構造化できるからだ。そのため、たとえば上の画像のように、電子レンジを手で操作して残り物を温め直す作業をロボットにやらせたいときは、ロボットに「ボタン」のことと、ボタンと全体との関係を教えてやればいい。

ロボットはPartNetで訓練を行うのだが、このデータセットの進化は、どこかの道端に放置された「ご自由にお持ちください」とドアに貼り紙されたいかにもCGっぽい電子レンジを操作するだけに留まらない。そこには2万6000種類以上のオブジェクトがあり、それらは57万個以上の部品で構成されている。そして、カテゴリーの異なるオブジェクトで共通に使われる部品には、すべてが同類であることを示すマーキングがされている。そのため、ある場面で椅子の背を学んだAIは、別の場面でそれを見かけたときに椅子の背と認識できる。

これは、ダイニングの模様替えをしたいが、ロボット家政婦には、お客さんが来たときに、古い椅子でしていたのと同じように、新しい椅子の背も引いて勧めさるようにしたい、なんていうときに便利だ。

たしかに、今私が示した例は、遠い彼方の、まだまだ仮想の未来から引っ張ってきたものだが、世の中には、完成を目の前にした、詳細なオブジェクト認識のためのもっと便利なアプリケーションが山ほどある。しかも、部品特定能力は、汎用オブジェクト認識における判断力を強化してくれるはずだ。それにしても、家庭用ロボティクスにあれこれ思いを巡らせるのは、じつに楽しい。そこに、現在の進歩したロボティクス技術の商品化を目指す数多くの取り組みが集中している。

[原文へ]
(翻訳:金井哲夫)