ロボットアームの動きは適度に遅いほうが不気味の谷現象を防げる

ロボットアームは空中に投げた物でもつかめるほど速く動けるが、でも実際にそうすべきだろうか?Disney Research(ディズニー研究所)が行った実験によると、ロボットを操作している人間を不安がらせないためには、そこまですべきでない。同研究所のロボット技術者たちは、人間が正常と感じるためにはロボットの反応時間を遅くした方がいいことに気づいた。

ディズニーはもちろん、何十年も前からロボットに関心があり、そのテーマパークにおけるオートメーションは世界でもっとも有名なロボットの一部だ。でもそれらのロボットには、人間と直接対話する機会がほとんどない。そこで同社の研究所は一連の研究プロジェクトにより、安全でしかも不気味ではない、ロボットと人間の共存を研究してきた。

今回の研究テーマは、ロボットに物を手渡すとき、怖がらずに自然にそれができるためにはどうするかだ。もちろん、人間がチケットや空のカップなどに手を伸ばしたとき、ロボットが電光石火のスピードで間髪をいれずそれらをつかみ取ったら、危険であるだけでなく人間は恐怖を感じるだろう。

関連記事:投げられたラケットなどもキャッチできるスーパー・ロボットアーム登場

そこで、この場合の、擬人化された猫に取り付けられているロボットアームは、正常な人間の速さで動く。しかし、でも、いつその腕を伸ばすべきか? 実験で分かったのは、人間は自分に何かが手渡されようとしていることの認識に1秒を要し、その後手を伸ばしてそれをつかむ。コンピュータービジョンのシステムなら、物を認識して手を伸ばす動作がもっと速いが、それは人間が見ると奇妙に感じる。

研究者たちが行った実験では、ロボットが人間からリングを受け取るスピードや遅延を三種類に変えてみた。

ロボットの手の動きが速いと、人間はそれを「温かみがなくて不快」と感じた。遅い速度が一番好評だった。ロボットの手の動きに初動時の遅延がないと、それも人間にとっては不安だった。ただし遅延が長すぎると、やはり不安が生じた。

誰かの手が自分のほうへ伸びてきて自分の手から何かを取ろうとするときには、そのための快適な間合いがあることがわかった。その動きはある程度遅いほうが良い。適度に遅くてしかも遅すぎないことが、人間らしさを感じさせる。

この手渡しシステムは、米国時間11月7日に発表される研究論文に詳しく説明されている。実験はしっかりとした日常的環境で行われ、物の動きや予期せざる力などもある。ディズニーワールドのカフェでおしゃれキャットのロボットが、あなたの手からマグを取り上げるようになるのはまだ先の話だが、でもそのロボットの手の動きが人びとを怖がらせるほど「目にも止まらぬ速さ」ではないことは、これで確実になった。

画像クレジット: Disney Research

参考記事: 不気味の谷現象

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

アドビのProject Sweet Talkは肖像画に命を吹き込む

Adobe MAXで最も興味深いセッションの1つは、伝統的なSneaks基調講演だ。Adobe(アドビ)のさまざまな部門のエンジニアが登場して、最先端の仕事を見せびらかす。そこから製品化されるものもある。もちろん、そうならないものもある。最近は、やはりAIに焦点を当てた仕事が多くなっていて、Adobe Senseiプラットフォームもよく利用されている。今年は、まだ初期の段階のProject Sweet Talkがお披露目された。今回のイベントの注目の1つだ。

画像クレジット:Lisa Werner/Getty Images

アイデアは非常に単純なものだが、それを実現するのは難しい。これは、スケッチでも絵画でもいいが、肖像画を入力すると、そこに描かれた顔のパーツを認識し、ナレーションに合わせて口の動きをアニメーション表示するというもの。すでに、同社のCharacter Animatorでも似たようなことができる。Stephen Colbert(ステファン・コルバート)のThe Late Showのようなショーで見た人もいるだろう。ただし、アニメーションのコマ数に制限があるので、最高のアニメーターの手にかかっても、常にリアルに見えるとは限らない。少なくとも、この製品を使って線画をアニメーション化するような場合にはリアリティに欠けるきらいがある。Project Sweet Talkは、それよりはるかによくできている。ナレーションを分析し、AIを使用して、キャラクターの口と頭の動きをリアルにアニメーション化できるのだ。

このチームは、アドビの研究者のDingzeyu Li(ディンゼユ・リ)氏がリーダーとなり、マサチューセッツ大学アマースト校のYang Zhou(ヤン・チョウ)氏、ともにAdobe ResearchのJose Echevarria(ホセ・エシュバリア)氏、Eli Shectman(エリ・シェクトマン)氏がメンバーとなっている。実在の人々がカメラに向かって話している何千時間ものYouTubeの映像を、独自のモデルに入力した。驚くべきことに、そのモデルは、スケッチや絵画に非常にうまく適用できる。その顔が、単純な動物の顔のスケッチのように、人間の顔には似ても似つかないものであってもだ。

「アニメーションは難しいものだということを、私たちはみな理解しています」と、リ氏は私に語った。「顔の動きを、与えられたオーディオトラックに揃えたいとすれば、さらに難しいものになります。Adobe Character Animatorには、すでに「自動リップシンク」と呼ばれる機能があり、動きをオーディオに合わせることができます。しかし、実際に使ってみると、限界も見えてきます」。現在のCharacter Animatorで動かすことのできるのは口だけ。他のすべての部分は静止したままだ。それでは、もちろんリアリティのある動きは再現できない。この記事に埋め込んだProject Sweet Talkの作成を見れば、自動的に顔を巧みにゆがませて、うまくリアルに見せていることがわかる。これらの元になっているのは、すべて普通のJPEG画像だ。

だたし、この顔の輪郭をゆがませる処理のため、Project Sweet Talkは、写真に対してはそれほど優れた効果を発揮できない。単純に結果の見栄えがよくないのだ。しかしそのせいで、このプロジェクトがディープフェイクに悪用される心配はないということになる。「リアルに見えるディープフェイクを生成するには、多くの学習データが必要となります」とリ氏は言う。「私たちの場合は、目印となるものだけに注目しています。画像の中から抽出できるものです。そして、このようなアニメーションには、目印だけで十分なのです。しかし、私たちの実験によれば、目印だけでは、写真を使ったアニメーションには不十分だということもわかっています」。

将来的にアドビは、この機能をCharacter Animatorに組み込んでくる可能性がある。リ氏は、現在のCharacter Animatorでも可能となっているような、リアルタイムシステムを開発することは、チームの優先順位の上位にあると語った。

原文へ

(翻訳:Fumihiko Shibata)

wilk_output_1
cat_output_1

デリバリーロボが地図なしで配達先のドアを自力で見つける方法

MITの研究者が開発した新しい行路発見方法は、さまざまな業界で客先まで物を届けなければならないロボット、いわゆるデリバリーロボットにとても役に立つ。彼らが考案したのは、前もって地図が与えられていなくてもロボットが客先の入り口のドアを見つける方法だ。

今ある自走デリバリーロボットの多くは、Starshipが開発してその後Postmatesなど多くの企業が採用した、車輪付きクーラーボックスタイプも含めて、顧客が外の路上に立っていなければならない。しかし未来のデリバリーロボットが自力でドアまで辿り着くためには、人間の配達員と同じく詳細な地図的能力(マッピング能力)だけが問題ではない。

MIT Newsによると、正確に客先のドアまで行けるためにご近所全体のマッピングができる能力は、それを全国レベルあるいは全世界レベルで実現しようとすると非常に難しい。それは一般的に難しいだけでなく、個々のユーザー企業の特殊性に合わせたマッピング能力ともなると桁違いに難しい。そこで研究者チームは詳細なマッピング方式を諦め、ロボットが現場で周囲の情報を処理してドアの場所を見つける方法を考えた。

これは、SLAM(Simultaneous Localization And Mapping)と呼ばれる方法の変形だ。MITのチームはちょっとした工夫により、ロボットがまわりの物を見つけてそれにラベルを付けていくセマンティックマップではなく、「前進するコスト」のマップというものを考案した。それは、訓練用の地図から得られたデータを使ってロボットが自分の身の回りのヒートマップを作る。そしてその色分けマップの中に「いちばん正面ドアらしいもの」を見つけ、そこへの最も効率的な経路を割り出す。

私たち人間も、初めて訪れる家では「家の正面ドアとはこんな形をしていて壁のどこそこにあるものだ」という過去の知識に基づいて入り口のドアの所在を判断する。MITのデリバリーロボットは、それと似たことをする。それはどちらも思考力を使わない直感的な判断だ。

ロボットが既存の地図に頼らずにAI的な能力で自分の周囲の環境を判断できることには、今後いろんなユースケースがありうる。でも商用のユースケースとして今のところいちばん需要が大きいのは、デリバリーロボットだろう。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Cortanaはユーザーの個人秘書になってメールも読んでくれる

ほんの数年前、Microsoft(マイクロソフト)はCortana(コルタナ)が、Googleアシスタント、Alexa、Siriの有力な競争相手になることを望んでいた。それからだいぶ時間も経ったが、Cortanaは市場に食い込むことができなかった。

CortanaがWindows 10搭載PCに組み込まれていることを意識している人はどれくらいいるだろう。同社の野望は出鼻をくじかれた。マイクロソフトでは、これからはCortanaを、個人の生産性を向上させるアシスタントにしたいと考えている。同社のエコシステム全般を考えれば、天気予報をしゃべらせるより、Cortanaにはそのほうが適しているのは確かだろう。

画像クレジット:Justin Sullivan/Getty Images/Getty Images

米国時間11月4日に同社はIgniteコンファレンスで、Cortanaが日々の業務で役立つようなる多くの新機能を発表した。これらはいずれもAIを人間の知性を手助けし、増強することのできるツールと位置付ける同社の大きなビジョンに沿ったもの。

こうした機能のうち最初のものは、iOS用Outlookで、マイクロソフト独自のテキスト読み上げ機能を使ってメールを読んでくれるもの。男声と女声が用意されている。Cortanaは、会議のスケジュールを設定したり、参加者を調整するのにも役立つ。マイクロソフトは、以前のコンファレンスで、すでにこの機能をデモしていた。

来月以降Cortanaは、ユーザーの関わるすべての会議について要約し、関連するドキュメントを添付し、ユーザーが電子メールで送信したコメントについてのフォローに対するリマインダーを記した電子メールを、毎日送ってくれるようになる。特にこの最後の部分は、かなり興味深い。というのも、GoogleのGmailに表示される単純でうっとうしい返信文面の候補よりも、1歩進んだものと考えられるからだ。

原文へ

(翻訳:Fumihiko Shibata)

 

アドビがSensei AI利用の写真編集アプリ「Photoshop Camera」を発表

InstagramやSnapchatの普及で人々の写真との関わり方が大きく変化した。しばらく前まで写真を編集するには高価なソフト、ハードが必要でユーザーは写真家、デザイナーなどのプロやセミプロが主だった。ところが今では誰でもスマートフォンで写真を加工している。とはいえ、スマートフォンアプリに付属しているフィルターの機能は初歩的で、PhotoshopやLightroomを代替するものではない。あくまでスマートフォンでセルフィーを撮ってその場でちょっと明るさを補正して投稿するというような用途向けの「そこそこ」のプロダクトだった。

Adobe(アドビ)はこのことを認識しており、米国時間10月4日に米国ロサンゼルスで開幕したAdobe Maxで手を打ってきた。

それがPhotoshop Cameraだ。 これはAdobeのAI、Senseiを利用した写真編集のためのモバイルアプリでiOSとAndroidで利用できる。Photoshop Cameraを起動し、写真を撮影するかカメラロールから選択する。アプリはAIで内容を判断し多数の編集オプションを提供する。明るさや色などの基本的修正から複雑な背景から空を入れ替えるなどの高度な編集まで可能だ。

Photoshop Cameraは食べ物、人物、遠くの山並みなど被写体を認識し、最も適切と考えた「レンズ」(他のアプリでいうフィルター)を提示する。こうしたレンズも他の編集もすべて非破壊的だ。つまり元の画像を変更しないのでどんな状態からでもオリジナルにロールバックすることができる。

こうしたAI活用が可能になったのはAdobeが長年蓄積した何億枚にもおよぶ膨大な写真データによるものだという。おそらくいちばん重要なのはAdobeが写真をAの状態からBの状態に変えるためにどのような編集処理を行えばいいか判断できるという点だろう。

私は先週、アドビを取材し、アプリが実際に動作することを見ることができた。短いデモではこのアプリの能力をフルに紹介するのは難しかったと思うが、私は強い印象を受けた。アプリはごく普通の風景写真を処理してネイチャー雑誌のカバーフォトのように仕上げた。また料理の写真を見るなり1秒もかけずに「どの部分が料理か」を認識し、その部分だけを処理してシズル感を高めた。

アドビの担当者によれば、こうしたフィルター処理が可能になったのはBilly Eilish(ビリー・アイリッシュ)氏のようなフォトグラーやデザイナーと緊密に協力してきたからだという。このときアドビのCTOであるAbhay Parasnis(アブヘイ・パラスニス)氏は「地域、時期限定のカスタムレンズというのも面白いかもしれない」 と語った。つまりあるコンサート会場に行ったユーザーだけに提供されるレンズといったものだ。

このPhotoshop Cameraをすぐに使いたいユーザーはアドビに登録してプレビューモードへの招待を受ける必要がある。一般公開は2020年に入ってからとなるらしい。登録はこちらから

【Japan編集部追記】 日本からも上記リンクで申し込みは可能だがアプリのダウンロードができるようになるまでにはしばらく待つことになる。

原文へ

(翻訳:滑川海彦@Facebook

プロ用オーディオツールのAccusonusがAIでビデオの音を向上させるツールを発表

ビデオに使われているオーディオの音質を向上させるAccusonus(アクソナス)が、シリーズAで330万ドルを調達した。このラウンドをリードしたのはギリシャ・アテネのVenture Friendsで、Big PiやIQBility、PJ Tech、それにAccusonusの共同創業者で前はAware Inc.のCEOだったMichael Tzannes(マイケル・ツァネス)氏が率いる米国の投資家グループが参加した。Accusonusは、ギリシアと米国のいわば二重国籍だ。

2014に創業したAccusonusの創業者は、これまでも多くの他社よりもずっと長く、さまざまなオーディオや音楽のアプリケーションにAIを利用してきた。同社の最初の製品であるDrumatom(ドラマトム)は、ドラムを録音するときのマイク漏れをコントロールする。2017年にAccusonusは第2弾の製品としてRegroover(レグローバー)をリリースした。これはAIを利用したソフトウェア楽器で、オーディオのループを個々の楽器(スネア、シンバル、バスドラなど)に分解して、新しいビートの作成などを可能にする(参考記事)。

同社のプロダクトは、Bob Dylan(ボブ・ディラン)やLou Reed(ルー・リード)、Goo Goo Dolls、Super Furry Animals、Wilco、Jennifer Lopez(ジェニファー・ロペス)などなど多くのミュージシャンが使ってきたと言われている。

しかし最近の同社は、音をきれいにしたいと願うビデオやポッドキャストのプロデューサーのための、シンプルで使いやすい一連のツールを開発してきた。今ではスマートフォンなど消費者向け録画録音機器の普及で毎日膨大な量のコンテンツが作られているから、音楽の製作以外の市場がものすごく大きい。

共同創業者でCEOのAlex Tsilfidis(アレックス・シルフィディス)氏によると、AccusonusはAIを利用したツールによって、高品質なオーディオへのアクセスを万人のものにしたい。従来のオーディオソフトに必要だった厳しい学習曲線を不要にしたい。

彼によると、新しいアルゴリズムの発明とUXの微調整に苦戦した結果、Accusonusのオーディオツールは初心者でも使いやすくなり、またオーディオやビデオのプロにとってはワークフローの効率化が図れた。

具体的には、AccusonusのツールであるEnhancement and Repair of Audio(ERA)を使えば、そのソフトウェアの中の1つの仮想ノブを回すだけでオーディオの録音をクリーンアップできる。ERAツールはプラグインとして動作するので、ビデオやオーディオのメジャーなプラットホームと互換性がある。それは入門レベルのエディターAudacityやGaragebandでも、あるいはもっとハイエンドなAdobe Premiere ProやApple Final Cut、Avid Pro Tools、Apple Logic Pro、Da Vinci Resolveなどでもいい。

シルフィディス氏によると、初心者とプロという2つの顧客グループをサポートすることにはメリットがある。プロのユーザーから寄せられるフィードバックは、ノンプロ向け製品の改良に役立つことが多い。もちろん2つのグループには重複部分もある。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Paidyが総額150億円の大型調達、オンライン決済で大型加盟店との取引拡大目指す

後払いサービスを提供しているPaidy(ペイディー)は10月31日、総額150億円を調達したことを発表した。内訳は、シリーズCエクステンションによる第三者割当増資で90億円、デットファイナンス(借入金)での66億円となる。同社はこの資金を使って、大型の加盟店との取引拡大のほか、2020年までにユーザーを1100万アカウントまで増やすことを目指す。

第三者割当増資の引き受け先は、PayPal Venturesのほか、Soros Capital ManagementやJS Capital Management、Tybourne Capital Management、および匿名の投資家が含まれる。デットファイナンスは、Goldman Sachs Japan(ゴールドマン・サックス・ジャパン)やみずほ銀行、三井住友銀行、住友三井信託銀行からのものだ。

Paidyによると、今回の資金調達は国内のフィンテック企業への最大の投資で、同社への総投資額は累計156億円になる。同社によると、シリーズDではなく昨年のシリーズCのエクステンション(増額)を選んだのは既存の投資家の株式保有率を維持するためであり、そのために前の投資ラウンドと同じ優先株を発行した。

2014年に創業したPaidyは、日本の消費者の多くがeコマースの決済にクレジットカードをあまり使わないことに着目。日本のクレジットカードの普及率は比較的高いものの、ネットでの買い物は代引きや、コンビニのような受け取り場所を使う人が多い。消費者にとってはそのほうが楽だが、売る側はまだ代金が払われていない商品を送る必要があるほか、配達事故にも対応しなければならない。

ネットショップがPaidyでの決済対応していれば、消費者はそのストアのアカウントを作成や、クレジットカードの登録が不要で商品代金を支払える。利用者は、携帯電話番号とメールアドレスを入力するだけでOKで、SMSや音声で送られるコードで認証する仕組みだ。商品の代金はPaidyが払い、毎月決められた日に顧客に請求される。Paidyは機械学習の独自のモデルを使ってユーザーの信用を計り、未払い事故を減らす。またコンバージョン率や平均購買単価、それにリピート購入が増える。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Microsoft AIプロジェクトでインドの運転免許試験がスマートに

米国の巨大企業が、うんざりするような運転免許証の発行手続きを簡単にしてくれるかもしれない。その兆しを、インドでちらりと覗き見ることができる。

インドのヒマラヤ山脈の麓に位置するウッタラーカンド州の州都デヘラードゥーンでは、ここ数週間、運転免許証を取得した何百人もの人たちは、試験の際に隣に教官を乗せることがなかった

代わりに、彼らの車にはスマートフォンが取り付けられ、そこではHAMSが実行されていた。HAMSとは、Microsoft Research(マイクロソフトリサーチ)のチームが開発したAIプロジェクトだ。HAMSは、スマートフォンのフロントとリアのカメラ、その他のセンサーを使って運転者(とその目の動き)と前方の道路をモニターする。マイクロソフトリサーチによると、運転試験中の縦列駐車やロータリーでの見極めなど、車の軌道を正確にトラッキングできるよう、HAMSをカスタマイズしたという。

このAI技術は「例えば試験中に車を停止してしまったり、規定回数を超えて前後に進路変更を繰り返すといった運転者の行動を判断できる」とチームは話している。さらに「車線変更の前にミラーで確認したかどうか」といったこともわかるという。

インド行政職ウッタラーカンド州政府秘書官のShri Shailesh Bagauli(シリ・シャイレッシュ・バガウリ)氏は、デヘラードゥーン州交通局の運転免許証試験にHAMSを導入したことは「効率的で世界をリードするサービスをウッタラーカンドの住民に提供するという、交通局の目標に大きく近づくものです。路上の安全にAIを利用する先駆けと慣れたことに、私たちは誇りを持っています」と語っている。

HAMSは、Harnessing AutoMobiles for Safety(安全のための自動車制御)の頭文語だが、そもそも路上での運転者と運転の安全を向上させるために開発されたものだ。「運転者の訓練と試験は、その目標の基盤となります。そのためこのプロジェクトは、運転試験での運転者の評価という方向に傾くのは自然なことです」とチームは話す

運転免許試験の自動化は、少しずつ世界に広がっているが、試験場の道に沿って支柱を立ててカメラを設置するなど、大掛かりなインフラ整備が必要とされている。マイクロソフトのチームによれば、HAMSなら車内の映像も含め、試験の監視態勢を向上させながらも自動化のコストを削減できるという。

一部の調査(PDF)によると、インドでは運転免許証の交付を申請した人のうちの相当数が、面倒を嫌って試験を受けにすら来ていないという。「HAMS技術を使用した自動化により、審査官の負担が軽減されるばかりか、受験者にとってプロセスをわかりやすく透明化することができます」と、2016年にHAMSプロジェクトを立ち上げたマイクロソフトリサーチ・インドの副担当責任者Venkat Padmanabhan(ベンカット・パドマンアブハム)氏は話していた。

インドがこのプロジェクトの実験場となったことは、特段驚くことではない。米国の技術系企業はインドでの存在感を高めつつあり、成長著しい市場のひとつとして、さまざまな挑戦がそこで展開されている。

マイクロソフト、グーグル、アマゾンは、インドを実験場として、現地市場のためのソリューションを開発している。そのなかには、他国に展開されたものもある。マイクロソフトもすでに、インドで農家の収穫量を高める技術や、失明予防の技術を病院と共同で開発している。昨年は、アポロ病院と共同で、心臓疾患のリスク予測のためにカスタマイズしたAIを使ったAPIをインドで構築した。

また昨年、マイクロソフトは伝説的なクリケット選手Anil Kumble(アニル・クンブル)氏と共同で、子どもたちのバッティングフォームの分析に役立つトラッキング装置を開発した。さらにマイクロソフトは、保険会社ICICI Lombardと共同で、損害賠償請求や保険の更新の手続きを支援するAIシステムを開発している。

グーグルも、インド向けのサービスやツールを幅広く開発している。昨年は、現地の言語で書かれた小説を簡単にウェブ上で公開できるパブリッシャー向けのツールを立ち上げた。今年も、このAndroidを開発した企業は、洪水予測ツールの改良版を発表している。そしてもちろん、YouTube GoGoogle Stationといった人気アプリをインド専用サービスとしてスタートさせている。

[原文へ]

(翻訳:金井哲夫)

インボイス管理にAIを活用するStampliが約27億円を調達

インボイス管理の自動化を手がける米国カリフォルニア州マウンテンビュー拠点のStampli(スタンプリ)は米国時間10月30日、2500万ドル(約27億円)のシリーズBラウンドのクローズを発表した。本ラウンドはSignalFireがリードし、Hillsven CapitalやBloomberg Betaなどの既存投資家、NextWorld Capitalのような新規投資家が参加した。

Stampliはインボイス管理にフォーカスしたソフトウェアを開発するために2015年に設立された。インボイス管理における問題は、組織の調達サービス部門や請負ベンダーの多くの人が、そのプロセスについてよく知らないことだ。これは、財務部門の人が往々にして他部門の同僚が抱える問題を解決するために同僚を追跡する羽目になることを意味する。

Stampliでは、支払いプロセスの全てがコラボできるソフトウェアで行われる。各インボイスはそれぞれにコミュニケーションハブに変わり、支払いを可能な限り効率的に扱えるよう、あらゆる部門の人が空欄を埋めたり、質問に答えたりすることができる。さらにStampliは組織がどのように予算を割り当てているか、承認の流れをどのように管理しているか、インボイスからどのようなデータを抽出しているか、そのパターンを確認するために機械学習を使っている。

言い換えれば、Stampliはそれぞれの組織にとってどんどん使い勝手が良くなる。Stampliは組織がシステムで処理する決済量と、何人の高度ユーザーが参加しているかに基づいて課金する。Stampliは高度な決定を行う財務部門のユーザーと、まれにプラットフォームでコラボ作業をするだけの他部門のユーザーの違いを認識する。

共同創業者でCEOのEyal Feldman(エヤル・フェルドマン)氏は、その他の同社の大きな特徴は支払いそのものには関与しない立場をとっていることだと考えている。同社は顧客に支払い者を選ばせ、システムのその部分のコントロールを維持できるようにしている。

現時点で、Stampliは年間120億ドル(約1兆3000億円)ぶんのインボイスを処理していて、1900社と4万人が同社のプラットフォームを利用している。

今回のラウンドは、同じくSignalFireがリードした2018年8月の670万ドル(約7億3000万円)のシリーズAに続くものだ。シリーズAにはUpWest Labs、Bloomberg Beta、Hillsven Capitalが参加した。Stampliの累計調達額は3470万ドル(約38億円)となった。

[原文へ]

(翻訳:Mizoguchi)

Googleがここ数年で最大の検索アルゴリズム更新、ニューラルネットのBERTテクノロジー投入

米国時間10月25日、Google(グーグル)は検索エンジンのアルゴリズムをアップデートしたことを発表した。ここ数年で最大で、検索者の意図の推測精度を改善するためにニューラルネットワークを利用する。

Googleでは「検索10回のうち1回の精度をアップさせた」としている。このアップデートは当面米国における英語の検索が対象だが、ほかの地域、他の言語も近くサポートされる。検索時に表示されるスニペットについてはすでに世界でアップデート済みだ。

検索エンジンの世界では、アルゴリズムの改善というのは地味で目立たないものが多いが、検索の10%にも影響するというのは驚くべき数字だ。世界中のSEO専門家はここしばらく徹夜が続くだろう。

Googleではこのアップデートは長く会話的な検索の場合に特に威力を発揮すると考えている。実はGoogleはユーザーがなるべく会話的、説明的に検索テキストを入力することを望んでいる。そのほうが単なるキーワードの羅列より検索意図を理解しやすいからだ。

2019 10 25 0945 1 ニューラルネットを利用した新しいアルゴリズムは双方向エンコーダーによる変形生成、「Bidirectional Encoder Representations from Transformers」あるいは、セサミストリートの有名なキャラにかけて頭文字でBERT(バート)と呼ばれる。同社は昨年BERTによるモデル化の実装をオープンソース化して公開している。 変形生成(Transformers)というはもっと最近開発された機械学習テクノロジーで、データ要素間にシーケンシャルな関連がある場合に特に有効だという。自然言語による質問を解析する場合に効果があることは当然だ。

また今回のBERTアップデートはGoogleが最新のTPUチップを検索に活用した最初の例だ。

このアップデートにより、Google検索はユーザーが何を探しているかを理解し、もっともふさわしい結果をページないしスニペットとして表示してくれるようになるはずだ。アップデートはすでに公開が始まっている。

画像:Getty Images

原文へ

(翻訳:滑川海彦@Facebook

Peaceful Morningが2019年版RPAカオスマップを公開

Peaceful Morningは10月23日、RPA(Robotic Process Automation)カオスマップの2019年版を公開した。RPAは、機械学習や人工知能などを活用して事務処理などの業務の自動化・効率化をを図るサービス。同社はRPA関連のオンライントレーニング「UiPathオンライントレーニング」、エンジニアフリーランス支援の「RPA HACKフリーランス」、メディア「RPA HACK」などの事業を手がける企業だ。

同社によるとRPAは普及期に突入しており、MM総研の調査では国内企業のRPA導入率は2019年1月時点で32%になっているとのこと。また、NTTグループが開発・販売するRPAツール「WinActor」(ウィンアクター)は、2018年に導入企業数が3000社を超え、2019年上期で4000社、2019年中に5000社を超える見込みになっているなど、企業での活用事例が増えている。

TechCrunchでは昨年もRPAカオスマップを紹介したが、昨年から大幅にサービスが増加しており、掲載数は63件から128件と約2倍になっている。従来の汎用的なRPAツールだけでなく業界職種に特化した特化型RPAツールが登場したことが増加要因で、具体的にはメディア、人材サービス、コミュニティなどでサービスが新たに登場している。なお連携技術については、AI-OCR(人工知能を活用した文字認識)とRPAを連携した事例が増えているとのことだ。

関連記事:2018年度版「RPAカオスマップ」が公開

ボルボが輸送車に特化した自動運転車の事業部を立ち上げ

Volvo Group(ボルボグループ)が、鉱業や港湾業など、あらゆる種類のロジスティクスのハブ間で物を移動する、業務用専用の自動運転輸送にフォーカスした専門的な事業部を設立した。同社はこれまで、すでに個々のプロジェクトで採石や鉱山、スウェーデンのイェーテボリにある取扱量の多い港などで自動運転技術を導入してきた。

同社は自動運転技術のこの種の利用への需要が増えているのを見て、それに特化した事業部門を作ろうと決めたようだ。新たに作ったグループはVolvo Autonomous Solutionsと名付けられ、その公式ミッションを「自動運転による輸送の開発、商用化、および売り上げを加速すること」とした。そのフォーカスする輸送形式は「大量の品物や素材を一定のルートで一定の受け入れ先へ移動するニーズに対応すること」だ。

「このセクターに期待される成長は顧客からの直接的なフィードバックにも由来している」と同社は言う。Volvo Groupの社長でCEOのMartin Lundstedt(マーティン・ルンシュテット)氏は声明中で、「顧客からの問い合わせが非常に増えている」と述べている。

公式には、Volvo Autonomous Solutionsは2020年の1月まで親会社の傘下というかたちになる。しかし、その後の新しいトップはすでに探しており、同社がこの新興市場のポテンシャルを大きいと見ていることは明らかだ。

消費者向け自動車の自動運転とは違って一定ルートで製品や商品を運ぶ自動運転輸送は、現代のテクノロジーの能力の大きさや多様さによくマッチしている。自動運転をこのように業務用に利用すれば、例えば人間が運転する車の多い都市部における運転の混沌と複雑さを解消でき、また一定のルートを維持することによる輸送効率の向上も期待できる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

古代ギリシアの石板の解読をAIが助ける

機械学習とAIは、太陽系外惑星を見つけたり、写真のように本人そっくりの人間の画像を作ったりといった派手な業績が強調されがちだが、でも同じ技術が学術研究の意外なところでも利用されている。DeepMindが作ったAI systemは、壊れた石板の上に彫られている古代ギリシアの断片的なテキストを再現し、学者たちが理解できるようにした。

これらの粘土や石や金属に文字が彫られたのはおよそ2700年前で、今では歴史学や文学、人類学などにとって貴重な一次史料だ。板は当然文字で覆われているが、何千年という時間によって、割れたりひびが入ったりしているだけでなく、破片の一部がなくなっていることもある。

そのような欠落は、容易に補完できることもある。例えば「sp_der caught the fl_」と書いてあったら、誰でもそれが「spider caught the fly」(蜘蛛が蠅を捕らえた)だとわかるだろう。でも、なくなっている文字がもっと多くて、しかも古代の言語だったらどうか。欠落を補完するのは容易でない。

それをやる科学とアートを金石学(Epigraphy、碑文研究)と呼び、その言語に対する直観的な理解力によって文脈を捉える。つまり、残っている文字やテキストを手がかりにして、何が書かれていたかを推測する。でもそれは骨の折れる難しい仕事だ。その仕事は、大学院生たちがやらされることが多い。かわいそうに。

今回彼らを助けてくれたのが、DeepMindの研究者たちが作った Pythia(ピューティアー)というシステムだ。それは、デルファイの神託に従って太陽神アポロの言葉を人びとのために翻訳したとされる、女性神官の名前だ。

チームは最初、古代ギリシア語の碑文の世界最大のコレクションを、機械学習のシステムが理解できるテキストに変換するパイプラインを作るという前例のない困難な作業に取り組んだ。それができればあとは、文字の並びを正確に推測するアルゴリズムを作るだけだ。上であなたが、蜘蛛(Spider)と蠅(Fly)を推測したように。

院生たちがやる場合と同じくPythiaにも、本物のテキストを一部意図的に削ったものが渡される。学生たちは約57%の精度でテキストを正しく推測する。1つの断片に対して何度も繰り返す時間のかかる作業だが57%は悪くない。これに対しPythiaの正解率は30%だった。

ただしPythiaの場合は、近似度が高い上位20の答の中に正解がある率が73%だった。それほどすごいとは言えない成績だが、20の答の中に正解が必ずあることは人間がやっても難しい。

greek process

Pythiaのシステムは、その仕事を完全に自分だけでやるわけではない。また、その必要もない。それは、人間がやったことを手がかりにする。そしてそれらに基づいて、石板の欠落部分を推測するための訓練を行う。つまり人間をリプレースするのではなく、人間の能力を補強する。

Pythiaの答は、最初は正しくないことが多い。でもそれは、難しい欠落と悪戦苦闘している人間にいいヒントや手がかりを与える。人間の認知労働力を軽減することによってそれは、テキスト復元努力のスピードと精度を上げるだろう。

Pythiaを記述している研究論文はここで読める。彼らが作ったソフトウェアの一部は、GitHubのリポジトリにある。

画像クレジット: DEA/ARCHIVIO J. LANGE/Contributor/Getty Images

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

障がい者のための技術発展を目指す企業を支援するMicrosoftアクセシビリティー補助金

ハイテク界にも障がい者のための支援活動が数多く存在するが、アクセシビリティー問題で投資家を熱くさせることは難しい。だからこそ、Microsoft(マイクロソフト)のAI for Accessibility(アクセシビリティーのためのAI)補助金制度は大歓迎だ。障がいを負った人たちのためのAI活用の道を探る企業や団体を対象にしたAzureクレジットと現金による株式を要求しない経済援助だ。マイクロソフトは、視覚障がい者のための教育を支援するスタートアップであるObjectiveEd(オブジェクティブエド)をはじめ、10以上の対象団体を発表した。

この補助金制度は、少し前に500万ドル(約54億円)でスタートした。その条件に合うスタートアップ企業やプロジェクトをわずかでも補助しようと5年の期限を区切って行われている。もちろん、それらの人たちにマイクロソフトのクラウドインフラに親しんでもらおうという狙いもある。

申し込みは常に受け付けられ「障がいを負った人たちにAIや機械学習を役立てたいと模索する人なら誰でも、喜んで支援します」とマイクロソフトのMary Bellard(メアリー・ベラード)氏は話している。ただし「素晴らしいアイデアで、障がい者コミュニティーに根差している」ことが条件だ。

今回、補助金を獲得した中にObjectiveEdがある。今年の初めに私が紹介した企業だ。iPadを使った、目の見えない、または弱視の小学生向けのカリキュラムだが、目が見える子どもたちにも使うことができ、教師の負担が軽減される。

関連記事:視覚機能障がいの子どもたちに優れたデジタル・カリキュラムを提供するObjectiveEd(本文は英語)

そこには、ご想像のとおり点字も含まれている。点字を学ぶ必要のある子どもたちに対して、点字を教えられる教師の数は足りていない。一般的には、直接的な実践教育で教えられている。つまり、子どもが点字を(ハードウェアの点字ディスプレイを使用して)声に出して読み上げるのを教師が聞き、間違いを正すというものだ。高価な点字ディスプレイが自宅で自由に使える環境で、その技能のある家庭教師を雇える場合は別だが、この重要な教育が受けられるのは、週に1時間程度という子供もいる。

ObjectiveEdのアプリなどに使用する書き換え可能な点字ディスプレイ。

「点字ディスプレイに文章を送り、生徒がそれを声に出して読み上げると、マイクロソフトのAzureサービスがそれをテキストに変換し、点字ディスプレイの文章と比較する。そして必要に応じて間違いを正し次に進む。そんなことができたら最高だと私たちは考えたのです。すべてをゲーム形式にします。楽しく学べるようにね」とObjectiveEdの創設者Marty Schultz(マーティー・シュルツ)氏は話していた。

それが、この会社の次なるアプリで可能になる。今や音声のテキスト変換の精度は十分に高く、さまざまな教育やアクセシビリティー目的の使用に耐えられる。あとは、生徒が点字訓練の時間を取れるようiPadと点字ディスプレイを用意するだけだ。1000ドル以上もするハードウェアだが、目の見えない人に金をかけてはいけないなんて決まりはない。

点字の識字率は低下している。音声インターフェイス、オーディオブック、画面読み上げなどが普及し実用性が高まったことを思えば無理もないと私が言うと、シュルツ氏とベラード氏は口を揃えてこう指摘した。メディア消費の上ではオーディオに依存できることは素晴らしいが、書かれたものを真剣に読みたいとき、または多くの教育の現場においては点字は不可欠なものであるか、または発話に代わる非常に便利な代替手段なのだと。

シュルツ氏もベラード氏も、教師に取って代ろうとは決して考えていないという。「教師は教え、私たちは子どもたちの訓練を支援します」とシュルツ氏。「私たちは授業の専門家ではありません。教師の助言を受けて、これらのツールを生徒たちが使いやすいように作るのです」。

マイクロソフトの補助金を受け取った団体は、このほかに10団体あり広範囲の多様なアプローチや技術をカバーしている。例えば、私が気に入ったのはSmartEar(スマートイヤー)がある。ドアベルの音や警報音などを傍受して、スマートフォンを通じて耳の聞こえない人に知らせるというものだ。

また、ロンドン大学シティ校では、個人用のオブジェクト認識のための素晴らしいアイデアを持っている。テーブルの上のマグカップやキーホルダーを認識するという程度のことは、コンピュータービジョンシステムにとっては実に簡単なことだ。しかし目の見えない人の場合、システムがマグカップやキーホルダーを特定してから、例えば「それはドアの脇の茶色いテーブルの上にあります」などと教えてくれたら非常に助かる。

以下に、ObjectiveEd以外でマイクロソフトの補助金を獲得した10の団体のプロダクトを紹介する(それぞれを詳しく調べてはいないが、今後調査するつもりだ)。

  • AbiliTrek(アビリトレック):さまざまな施設のアクセシビリティーを評価し解説する障がい者コミュニティーのためのプラットフォーム。個人の必要性に応じて検索結果を選別できる。開発元は同名のAbiliTrek。
  • SmartEar(スマートイヤー):環境音(ドアベル、火災警報、電話の呼び出し音など)を能動的に傍受し、小型のポータブルボックスかスマートフォンから色付きのフラッシュを点滅させて聾者コミュニティーを援助するサービス。運営元はAzur Tech Concept(アザー・テック・コンセプト)。
  • Financial Accessibility(フィナンシャル・アクセシビリティー):プログラムやサービスと人との最適なマッチングのための情報や活動を提供するインタラクティブなプログラム。運営元はBalance for Autism(バランス・オブ・オーティズム)。
  • The ORBIT(ジ・オービット):個人向けオブジェクト認識をAIシステムに訓練するためのデータセットを開発中。盲人コミュニティーで使用されるツールでの重要性が増している。開発元はCity University of London(ロンドン大学シティ校)。
  • BeatCaps(ビートキャップス):ビートトラッキングを使用して字幕を生成し、音楽のリズムを視覚化する新しい音声転写方式。聴覚機能障がい者に音楽を体験してもらうための視覚化技術。開発元はCommunote(コミュノート)。
  • EVE(イブ): 聴覚障がい者のための、発話を認識しリアルタイムで自動的に字幕を生成するシステム。開発元はFilmgsindl(フィルムグシンドル)。
  • Humanistic Co-Design(ヒューマニスティック・コ−デザイン):個人、組織、施設が協力し合い、デザイナー、メーカー、エンジニアが、障がい者のために技能を発揮できるよう認知を高めるための生活協同組合。運営元は同名のHumanistic Co-Design。
  • MapinHood(マッピンフッド):視覚障がい者が職場やその他の目的地へ歩いて行くときのルートを選択できるナビゲーションアプリを開発中。開発元はトロントのスタートアップであるiMerciv (イマーシブ)。
  • I-Stem(アイ-ステム) / I-Assistant(アイ-アシスタント):文章の読み上げ、音声認識、AIを使い、教室での対面によるテストに代わるインタラクティブで会話的な代替手段を生徒たちに提供するサービス。運営元はinABLE(イネイブル)。
  • ADMINS (アドミンズ):大学の書類をオンラインで記入することが難しい障がい者に業務支援を行うチャットボット。開発元はOpen University(オープン・ユニバーシティー)。

この補助金は、ユーザーが現在勉強中で明かりを消してはいけないような緊急のニーズに応えるために、Azureクレジットまたは現金、またはその両方で支払われる。このプログラムに適合すると思われる活動に携わっている場合は、ここから申し込める

[原文へ]

(翻訳:金井哲夫)

完全自動航行する「メイフラワー号」が2020年にIBMのAI技術で大西洋を横断

完全自動航行船 「メイフラワー号」が来年9月に大西洋を航海する。自動とは程遠かった最初のメイフラワー号の航海から400周年を記念する。過去4世紀の技術進歩を振り返る素朴な方法だが、自動航海技術の重要なデモンストレーションでもある。海洋研究開発組織であるPromare(プロメア)がIBMから技術面の支援を受けて取り組む。

自動航行するメイフラワー号は表面を覆うソーラーパネルのほか、ディーゼルおよび風力タービンによる推進力で、英国のプリマスから米国マサチューセッツ州のプリマスまでの3220マイル(約5200km)の航海に挑む。成功すれば大西洋を自動運航する初めてのフルサイズの船舶になる。Promareは、この試みによってさまざまな自動航行船の研究開発への扉が開かれることを望んでいる。

船にはプリマス大学の研究者が開発した研究用ポッドを搭載する。具体的には3つあり、海上でのサイバーセキュリティ、海洋哺乳類の観察、海上マイクロプラスチック問題の分野で実験を行う。

IBMがこのミッションでリサーチとナビゲーションの技術面をサポートした。Power Systemサーバーが支えるPowerAIビジョンテクノロジーを提供したのはその一例。Promareと開発した深層学習ベースのテクノロジーが、レーダー、ライダー(レーザーを使った距離測定機器)、光学カメラを駆使して、海上の障害物やさまざまな危険を回避する。

システムはローカル処理とリモート処理の両方を想定した設計になっている。船上のデバイスは通信接続せずに動作可能だ。条件が整って両岸どちらかのノードを介して通信できる場合、本部から定期的に船上のデバイスにアクセスできる。

これは非常にクールなプロジェクトだ。海、深い湖、その他の水生環境の研究方法を変えるかもしれない。自動運航するメイフラワーへの乗船を仮想体験できるVRやARツールを開発する計画もある。来年の航海に向けてプロジェクトの進行から目が離せない。

[原文へ]

(翻訳:Mizoguchi)

業務用食材の廃棄を減らすWinnowが人間の視覚を超える

スマートキッチンの技術で商用キッチンの廃棄食品を減らすことを目指す英国のWinnowが、シリーズBの資金調達1200万ドル(約13億円)を公表した。

このラウンドを支えたのは、IKEA(イケア)のフランチャイジーシステの戦略的パートナーであるIngka Groupと、Mustard Seed、Circularity Capital、D: Ax、およびThe Ingenious Groupだ。この前の資金調達はThe European Investment Bank(EIB, ヨーロッパ投資銀行)からの800万ドル(約8億7000万円)の融資で、これを加えるとWinnowの先月の新たな調達額は2000万ドル(約21億7481万円)になる。

IKEAや、ドバイのアルマーニホテルなどグローバルな顧客を抱えるWinnowは、ホスピタリティ産業へのテクノロジーの提供をミッションとし、特に業務用キッチンをよりスマートにすることによって廃棄食品を削減する。その最新のプロダクトであるWinnow Visionは、捨てられる食品をコンピュータービジョンの技術で自動的に追跡し、キッチンにおける在庫計画のぜい肉を減らす。

同社によると、Winnowのシステムの優れたところは、捨てられる食品の検出能力がすでに人間の目の能力を超えていることだ。同社は「従ってこのシステムは顧客のキッチンにおける無駄を人間の介入不要で毎日自動的に記録できる。食品がゴミ入れに捨てられるときに、データが自動的に捕捉される」とコメントしている。

Winnowの創業者でCEOのMarc Zornes(マーク・ゾルネス)氏が、もっと広い意味でよく言うのは、「計測できるものなら管理できる」という考え方だ。同社によると、Winnowを使い始めたキッチンは半年から1年以内に無駄な廃棄食品を40〜70%削減している。食品のコスト節約効果は2〜8%である。

一方、同社の操業コストのメインは、ハードウェアとそれらの客先実装だ。ゾルネス氏の言う今後の資金の使い道は、技術の改良と製品開発への従来の2倍の注力。例えば、今までいなかったQAエンジニアに開発を強化してもらう。また、フロントエンドのデベロッパーには報告機能を改良してもらいたいと考えている。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

GoogleはPixel 4のカメラでハードと画像処理AI/MLを融合、写真の新しい水準を実現

Google(グーグル)が発表した新しいPixel 4に写真機能の強化だけでも大量のテクノロジーが投入されている。こGoogle Researchでカメラ開発の指揮をとってきたMark Levoy(マーク・レヴォイ)教授が登壇してこの点を詳しく解説してくれた。この記事では広角から望遠まで高解像度で撮影するスーパーハイブリッドズーム、HDRをライブでプレビューするテクノロジーを含め、カメラの新機能を紹介する。

被写体、照明、レンズ、ソフト

レヴォイ教授はフォトグラファーの間に以前から伝わる格言から説明を始めた。つまり良い写真と撮るために必要なのは、まず被写体、 次に照明、つぎにレンズ、カメラボディーの順序となる。教授は「我々はこの格言には多少の修正が必要だと気づいた。つまりカメラボディには処理ソフトを含めて考えねばならない」と語った。

Screen Shot 2019 10 15 at 10.59.55 AM

もちろんレンズは依然として重要であり、Pixel 4では現行広角レンズに加えて望遠レンズを加えた。レヴォイ氏は「通常望遠のほうが広角より役立つ」と指摘したが、これはApple(アップル)がiPhone 11 Proに超広角レンズを加えてカメラ3台のアレイを構成したことに対する批判だろう。

Google Pixel 4 Camera

このコンテキストで説明するなら、Googleの「コンピュテーショナルフォトグラフィー」というコンセプトはスマートフォンの筐体に収まる小さい撮像素子(貧弱な画像しか撮影できない場合が多い)に対して強力な処理を加えることによって驚くべき高品質の画像を生み出すテクノロジーといっていいだろう。

レヴォイ氏によればPiexl 4に搭載されているのは「ソフトウェアによって定義されたカメラ」だという。つまり常時複数の画像を撮影し、それらのデータをコンピュータがバックグラウンドで合成することによってユーザーに複雑な操作を要求せずに優れた最終画像を得る仕組みだ。

Screen Shot 2019 10 15 at 11.07.56 AM

Pixel 4でどこが新しくなったのか?

コンピュテーショナルフォトグラフィーにより、Pixel 4ではいくつかの重要な機能が利用できるようになった。ひとつはライブHDRプレビューとデュアル露出コントロールだ。これにより、ユーザーはリアルタイムでHDR(広ダイナミックレンジ)処理を適用した写真をプレビューすることができる。これまではHDR写真を撮影する前のプレビューは撮影後の実画像とかけ離れているのが普通だった。Pixel 4では画像の高輝度領域と低輝度領域をリアルタイムで常に別個に調整することが可能になった。ユーザーは作画意図によって被写体をシルエット化したり逆光でも明るく描写したりできる。

機械学習によるスマートホワイトバランス機能はて適切なホワイトバランスの取得という問題を扱う。 レヴォイ氏によれば、Googleは現行Pixel 3で夜景モードを導入したとき、低照度条件でホワイトバランスを得る方法を開発したという。 Pixel 4ではこの機能が強化され、夜景モードだけでなくあらゆる条件で作動するようになった。逆光などの困難な撮影条件ではホワイトバランスがオレンジやイエロー側に振れる現象が起きやすいが、スマート・ホワイトバランスは白いものは白く描写できる。

Screen Shot 2019 10 15 at 11.02.01 AM

新しいポートレート・モードでは背景に加えるボケなどをいっそう正確にコントロールできるようになった。これは2つの撮像素子から得られるデュアルピクセル画像を処理することで奥行き情報を得て人物と背景の距離差を検出し、人物のみを鮮明に描写する。これにより人物がかなり離れた場所にいても人物に焦点を合わせ、背景をやわらかくボケさせることが可能になったという。人物の描写で髪の毛の一筋一筋や毛皮の衣服などデジタル一眼でも撮影が難しい対象を鮮明に描写できる。

複数カメラの採用により、当然ながら夜景モードも根本的なアップデートを受けた。新しい星空モードを利用すれば夜空を撮影して星や月を見たままに近く描写できる。星空モードが提供する夜の空は非常に魅力的だ。このモードでは数分にわたって撮影を続けることができるが、星の動きの追跡も含めて合成処理は処理はコンピュテーショナルフォトグラフィーが行うのでユーザー側で煩瑣な設定をする必要はない。

google pixel 4 sample images

さらに…

GoogleはPixel 4はスマートフォンの小型センサーに内在するさまざまな限界を打ち破ったカメラだとしている。写真界における世界的な巨匠であるAnnie Leibovitz(アニー・リーボヴィッツ)氏との共同撮影プロジェクトを続行中だ。レイボヴィッツ氏も登壇し、Pixel 3とPixel 4で撮影した写真を何枚か披露した。ただしとりあえずインターネット記事にフィードされる写真と最終成果物の写真集の写真とはかなり違うだろう。


レヴォイ氏はPixel 4の撮影能力はハードウェアのリリース後もカメラソフトウェアのアップデートによって引き続き改良されていくと述べた。つまりPixel 4のカメラはまだ始まったばかりということだ。現行Pixel 3のカメラはスマートフォンとしてトップクラスだが、ステージで披露されたデモ写真を見ただけでもPixel 4の写真はこれを上回っていた。今後実機を手にしてAppleのiPhone 11のカメラと比較してみるのが楽しみだ。

原文へ

(翻訳:滑川海彦@Facebook

OpenAIの人間的なロボットは片手でルービックキューブを解く

ルービックキューブをもっと速く解く変わったやり方という話題には、いつも独特のかったるさがある。目隠しをしたり、ジャグリングをしながらだったり、片手だったり、やり方はさまざまだが、やってる人は真剣でも、どことなく目立ちたがり屋の雰囲気が伴う。

OpenAIも、目立ちたがり屋の仲間入りをしたかったようだ。彼らが作ったロボットハンドDactyl(ダクティル、動物の指)も、ルービックキューブを解けるのだ。

イーロン・マスク氏などが支援するこの非営利団体は、ロボットハンドがルービックキューブを片手で解くことを学習した、と発表した。その偉業は、このロボットがとくにキューブ(立方体)を上手に扱うことのデモンストレーションでもある。この前は、このロボットが現実世界での訓練なしで、仮想シミュレーションだけで未知のオブジェクトと対話するところを見た。そして今度のDactylは、その能力をベースに、新しい技を学習した。

関連記事:OpenAI’s robotic hand doesn’t need humans to teach it human behaviors(OpenAIのロボットハンドは人間がいなくても人間の動きを教えられる、未訳)

ロボットがルービックキューブを分析してその解き方を見つけることと、さまざまな条件下で実際にその動きができることは次元が違う話題だ。しかし、解き方を「学習する」ということは、例えば指が全部縛られているなどの深刻な障がいがあっても、システムが自分で自分を調整してパズルを解く過程を見つけることだ。Dactylにはそれができる。

まだ欠陥はあるし、人間の世界チャンピオンに勝つのはまだ無理だが、下のビデオではロボットハンドがルービックキューブを4分足らずで解いている。やはり相当すごい。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

Facebook主催のアイトラッキングコンペで東京のクーガーが世界3位に入賞

Facebookが主催するアイトラッキングの認識精度を競う「OpenEDS(Open Eye Dataset)Challenge」は、世界各国からコンピュータビジョンの研究者が挑戦するコンペティションだ。大学などの研究機関も参加するこのコンペの結果が9月30日に発表された。コンペの2つの課題のうち、2D画像の眼球位置を推定する「Semantic Segmentation Challenge(セマンティックセグメンテーションチャレンジ)」では、東京・渋谷に拠点を置くクーガーのチームが提出したAIモデルが世界3位を獲得している。

VR/AR普及のカギ、視線追跡の「精度」と「軽さ」を競う

VR/ARが注目を集める中で、スマートグラスの装着時に視線や眼球の動きを追跡する「アイトラッキング」の需要は高まっている。深層学習の進歩によりアイトラッキング領域でも成功例は出てきている。ただしCPUの性能にはまだ限界があり、リアルタイムでの精度の高い計算には制限がある。

また安定した効率的な機械学習ソリューションを用意するためには、異なる条件下にある何千人ものユーザーから、大量で正確な学習データを取得する必要がある。しかしコスト面でも正確性の面でも、実際には収集できるトレーニングデータの量と品質には制約がある。

VRデバイス「Oculus Rift」や「Oculus Go」などの製品も持つFacebookが、OpenEDS Challengeを開催し、機械学習やコンピュータビジョンの研究者の参加を求めるのには、こうした背景がある。OpenEDS Challengeでは、2つの課題が提示された。

1つは、2D画像から眼の瞳孔や虹彩、強膜、そしてその他の部分の位置を正確に推定する「セマンティックセグメンテーション」。もう1つは、入手が困難な現実の視線データに代わり、現実的な眼の画像を合成して効率的なデータ学習が行えるようにする「Synthetic Eye Generation(シンセティックアイジェネレーション)」だ。

このうちセマンティックセグメンテーションの課題で、クーガーに所属するDevanathan Sabarinathan氏とDr. Priya Kansal氏によるAIモデルが3位にランクイン。さらにこのモデルの独自性が評価され、11月に韓国・ソウルで行われるコンピュータビジョンのカンファレンス「ICCV」ではこのモデルについての論文が採択され、発表が決定している。

既存手法を活用してコンペ条件をクリア、入賞も果たす

セマンティックセグメンテーションの技術は、VR/ARデバイスなどで視線追跡を行うときに、2D画像の正確な認識、つまり眼の重要な領域(強膜、瞳孔、虹彩)とそれ以外の領域をピクセル単位で区分するために必要なものだ。認識の精度の高さとリソース消費の少なさが求められるため、今回のFacebookのコンペでは「モデルの精度」「モデルサイズの軽量化」の視点で審査が行われた。

クーガーが発表したEyeNetモデルによる認識結果画像

今回クーガーが発表したモデル「EyeNet(アイネット)」は、7月に米国で開催された別のコンピュータビジョンに関するカンファレンス「CVPR」で同社が発表した、骨格認識のモデル「SkeletonNet(スケルトンネット)」をベースに開発された。OpenEDS Challengeでは、高精度を保ちながら、モデルサイズを2MB以下、モデルのパラメータ数(複雑さ)を40万以下に抑えるという条件をクリアしなければならない。結果、クーガーのモデルは提示されたベースラインをクリアしただけでなく、世界3位を獲得することができた。

ベースラインのモデルの数値:
mIoU: 0.89478
Model Complexity: 416,088.00000
Total Score: 0.76240

クーガーのモデルの数値:
mIoU: 0.95112 (6.3%の向上)
Model Complexity: 258,021.00000 (38%の向上)
Total score: 0.97556 (28%の向上)

このコンペティションで上位入賞を果たしたチームは認識精度を上げるうえで、主にデータの前処理での工夫に注力している。クーガーは、インプットデータのどの部分を重視するかを決定する「アテンション機構」の複数使用や、Microsoft Researchが2015年に考案した、高い画像認識能力を持つニューラルネットワークモデル「Residual Network」を組み合わせることなどによって、モデルの精度を向上しながら軽量化も果たしたという。

より自然なコミュニケーションのために人型AIアシスタントを開発

クーガーは2006年の創業。ホンダへのAI学習シミュレータ提供や、Amazonが主催するロボットコンテストAmazon Robotics Challenge(ARC)上位チームへの技術支援、NEDO次世代AIプロジェクトでのクラウドロボティクス開発統括などで知られる。ゲームAI、画像認識AI、ブロックチェーンの分野に強みがあり、現在は人型AIアシスタント「Connectome(コネクトーム)」の開発・提供に力を入れている。

クーガー代表取締役CEOの石井敦氏は「人型AI、バーチャルヒューマンエージェントには、ゲームAIによる生きているように感じるキャラクター性、視覚情報から状況を理解する画像認識能力、情報の信頼性を担保し、安全にデータを扱うブロックチェーン技術の3つすべてが必要」と話す。「当社は3つの分野それぞれで、世界トップクラスの技術を持っている。そのうちの画像認識領域での成果のひとつが、今回のOpenEDS Challengeでの3位入賞だ」(石井氏)

Connectomeは音声認識、映像認識、そして表情やしぐさから感情を認識する機能やジェスチャーを認識する機能を持つ。

コンピュータのモニターやデジタルサイネージで動く「モニターモード」やタブレット、スマホのようなモバイル機器で動く「ARモード」が開発されており、ショッピングセンターやコワーキングスペースなどの施設の案内や利用者とのコミュニケーション、イベント実況などで活用が進められている。

「Siri」や「Googleアシスタント」をはじめ、スマートスピーカーなど音声によるAIアシスタントはある程度、一般化してきたが、わざわざ人間のように振る舞うエージェントを用意するのはまだ、ハードルも高い部分もある。また、中には「機械やキャラクターでも用が足りるのに、必ずしも人型にすることはないのではないか」という論もある。石井氏に人間のようなインターフェースを持つ、バーチャルヒューマンエージェントを開発する意図を聞いてみた。

ロチェスター大学の研究では、バーチャルヒューマンとASD患者の10代の若者たちが会話するプロジェクトで、患者の60%が実際の人間より話しやすいと回答している。また、南カリフォルニア大学の調査では、音声のみでコミュニケーションを取るときと比較して、バーチャルヒューマンを使った場合、応答率は17%増加し、応答時間は19%増えたという結果もあり、人型が相手の方が利用者が出す情報量が増え、共感が生まれることが分かっている。人型AIの方がコミュニケーションがより自然になり、人間の信頼度も上がる。特にヘルスケア領域などでは、キャラクターよりも人のようなもの、より人に近いものと話したい人は多いと考えている」(石井氏)

石井氏は「目線の分析はもはや当然になっていて、より細かな分析へと焦点は移っている」として、バーチャルヒューマンエージェントへの画像認識技術の応用について、こう語った。「クーガーではコンピュータビジョンの分野で強みを持ちながら、バーチャルヒューマンを開発している。またバーチャルヒューマンエージェントのSDKを他社にも提供することで、ユースケースの拡大を図っている。ゆくゆくは今回発表したアイトラッキングの認識技術をSDKにも取り込むつもりだ」(石井氏)

ディープラーニングでユーザーの食事を記録管理するFoodvisor

Foodvisor(フードバイザー)は、食事の内容を記録して減量、食事療法、健康増進に役立てるモバイルアプリを開発したスタートアップ。食べる前に食事の写真を撮ってデータとして保存する。

「2018年にフランスでアプリをリリースする前に、2年余りを研究開発に費やした」と共同創業者でCMOのAurore Tran(オロール・トラン)氏は言う。Foodvisorはこれまでに140万ユーロ(約1億6000万円)を調達した

同社は画像認識とディープラーニングであなたが食べるものを把握する。食品の種類を見分けるだけでなく重さも推定する。具体的には、カメラのオートフォーカスデータを利用して食べ物と携帯電話の距離を測る。次に、各食品の面積を計算し、種類に応じて重さを推定する。

Foodvisorで何か問題が発生した場合は、食事を記録する前に手動で修正できる。栄養管理は手間がかかるため諦める人が多いが、 同社のテクノロジーがデータ入力をスムーズにしてくれる。データを入力すると、カロリー、タンパク質、炭水化物、脂肪、食物繊維など、食事で摂った栄養の分析結果が表示される。目標を設定し、アクティビティを記録し、毎日の進捗を管理できる。

アプリダウンロード数はすでに180万回に達した。iOSおよびAndroidで利用可能だ。フランス語、英語、ドイツ語、スペイン語版がある。「プロダクトを改良し、データベースを充実させて、米国市場で受け入れられるようにした」とトラン氏は語る。

月額5〜10ドルのプレミアムプランがある。主な特徴は、より豊富な分析やダイエット計画に加え、アプリから登録した栄養士と直接チャットできること。AIが人間の栄養士に完全に取って代わることまではできないようだ。

[原文へ]

(翻訳:Mizoguchi)