AIをがんの病理診断に活用するPaigeが約5億4000万円調達

Sloan-Kettering(スローン・ケタリング記念がんセンター)からスピンアウトしたPaige(ペイジ)は、腫瘍病理学の進歩に役立つ人工知能プラットフォームを開発している。プラットフォームから得られる知見をより良い治療薬の開発に利用する。同社は新たに500万ドル(約5億4000万円)の資金を調達し、プラットフォームの商業化と研究範囲の拡大を続ける。また、北米と欧州の病院での利用に向けFDA(米食品医薬品局)の認可取得を目指している。

Goldman Sachs(ゴールドマンサックス)、具体的にはその商業銀行部門が出資した。これはPaigeが2019年12月に発表したシリーズBの延長だ。Breyer Capital(ブレイヤーキャピタル)がリードしたシリーズBで、Paigeは4500万ドル(約49億円)を調達した。バリュエーションは PitchBook(ピッチブック)によると約2億800万ドル(約230億円)だった。

PaigeのCEOであるLeo Grady(レオ・グレイディ)氏は「当社は新型コロナウィルスに関わる仕事はしていない。今のところはがんの研究に重点を置いている。ただ、パンデミックが医学の世界に存在する欠陥に光を当てた。それは当社がまさに取り組んでいる分野だ」と語った。

「当社は新型コロナ関連の研究に取り組んではいないが、新型コロナが病理学コミュニティに強い影響を与えていることはわかった」とグレイディ氏は言う。「病理学コミュニティがリモートで作業できないことが浮き彫りになった。当社が構築するテクノロジーは、病理学コミュニティを安全にリモートで作業する能力をサポートする。AIテクノロジーを利用して作業スピードをさらに速くすることもできる。病理医がリモートで作業できないことが明らかになりつつあり、デジタル化が急ぐ必要性が生じている」

確かに、進行中のコロナウイルスのパンデミックは、ヘルスクライシスでテクノロジーが果たす役割の可能性に焦点を当てることになった。その答えは明らかになりつつある。研究活動におけるAIの利用、健康のリモートモニタリングや遠隔医療、そしてもっと基本的なこととして、テクノロジー企業の資金調達能力や消費者のリーチを利用して重要な物資や情報を必要とする人々に提供することがその答えだ。

Paigeはこれらのうち概ね1つ目のカテゴリーに分類される。「ゴールドマンサックス投資をがん研究にまで広げていること踏まえると、新しい資金は特に戦略的だと言える」とグレイディ氏は述べた。

Paigeは、がんの病院および研究センターとして名高いスローン・ケタリング記念がんセンター(MSK)と非常に密接な関係にある。これはPaigeが、MSKの2500万件の病理スライドと、AIベースの計算病理に関する知的財産に独占的にアクセスできることを意味する。この2つは財産だ。スライドの数はこの種のリポジトリーの中では最大級であり、機械学習プラットフォームは入力されるデータと同じくらい優れている。また最近、コニカミノルタの子会社であるInvicro LLC(インビクロLLC)との提携を発表した。治療薬の探索・開発に取り組む製薬会社やバイオテクノロジー会社に病理学の統合ソリューションを提供する狙いだ。

「ゴールドマンサックスは当社に大きな可能性があることを理解している。臨床グレードのAIだけでなく、病理医のリモート作業を可能にする機能を持つプラットフォームとビューアーもそうだ」とグレイディ氏は述べた。Paigeはすでに十分な資金を有しているが、「高まる病理医のリモート作業の必要性に応えるべく、500万ドル(約5億4000万円)の新しい資金でさらにプロダクトの開発を進める。ゴールドマンサックスが投資してきたがんネットワークと、世界中のがんネットワークをサポートする当社のテクノロジーが、両社の関係を素晴らしいものにするはずだ」。

グレイディ氏によれば、シリーズBの発表以来、Paigeはいくつかのベータ版サイトを追加し、完了した多数の研究が間もなく公開されるという。「これらのベータ版研究は当社の価値を証明する基盤となる。当社のテクノロジーが腫瘍病理学のワークフローに価値をもたらすことを証明できる。当社のテクノロジーの商品化にも役立つ」と同氏は説明した。

次のラウンドの計画は今のところない、と同氏は付け加えた。

投資銀行のマネージングディレクターであるDavid Castelblanco(デイビッド・カステルブランコ)氏がこのラウンドで取締役会に加わった。「Paigeは、がん分野の病理学とトランスレーショナルリサーチを変革し、バイオ製​​薬会社と緊密に協力して、患者のケアを改善するカスタム診断ソリューションと創薬技術を開発している」と同氏は声明で述べた。「我々は、AIテクノロジーを通じてがん治療を改善するという会社の重要な使命をサポートできることを楽しみにしている」

「Paigeの経営陣は優れたチームを構築し、このエキサイティングな市場でチャンスをつかむために素晴らしい仕事をしている」とBreyer Capitalの創業者兼CEOであるJim Breyer(ジム・ブレイヤー)氏は声明で付け加えた。

画像クレジット: Busakorn Pongparnit / Getty Images

[原文へ]

(翻訳:Mizoguchi

AIスタートアップのHACARUSが大阪ガスから数億円規模の資金調達、Daigasグループのシステムを開発へ

HACARUS(ハカルス)は4月24日、数億円規模のシリーズBラウンドの資金調達を発表した。金額は非公開。第三者割当増資による資金調達で、引受先は国内の大手4大都市ガス事業者の1社である大阪ガス。加えて、DSファーマアニマルヘルスと既存株主の京銀リース・キャピタルがGP(無限責任組合)として運営管理する、京銀輝く未来応援ファンド2号投資事業有限責任組合からも追加の資金調達を実施している。

HACARUSは2019年8月に大阪ガスとの以下の共同開発の検討について合意しており、今回の資金調達はその流れを汲むものとなる。。

  1. Daigas(大阪ガス)グループの社内業務の効率化・省人化を行うAIシステムの共同開発
  2. Daigasグループが顧客に提供するAI・IoTソリューションの共同開発

また、DSファーマアニマルヘルスとは、同社主催の「動物の健康を支える新規事業探索プログラム2018」に参加したことを契機に今回の資本提携が決まったという。

HACARUSは、少量データからの特徴抽出に優れるスパースモデリング技術を機械学習に応用した独自のAI開発する2014年設立のスタートアップ。

アップルとカーネギーメロン大学が聞いて学ぶシステムを公開、よりスマートな家電開発目指す

Apple(アップル)とカーネギーメロン大学のHuman-Computer Interaction Institute(ヒューマン・コンピューター・インタラクション研究所)の研究者で作るチームが、周囲の音を聞いて学ぶ埋め込み型AIのためのシステムを披露した。トレーニング用のデータを事前に準備したり、学習プロセスを監督する大きな負担をユーザーにかけたりする必要がない。全体的なゴールは、スマート家電がもっと簡単に文脈や状況の把握をできるようにして、応用の幅を広げることだ。

彼らがListen Learner(聞いて学ぶ者)と名付けたこのシステムは、マイク付きのスピーカーなどのスマート家電の音響行動認識能力を用いて、その周囲で発生している出来事を、自己教師あり学習と、1回だけユーザーが介在して行われるラベリングから解釈する。このラベリングは、たとえばスピーカーがクラスタリングに値するだけの時間聞いている音について、「今の音はなんですか?」と質問するといった形で行われる。

一般的な事前トレーニングを行ったモデルもループに加えることで、システムは初めて聞く音に対して、その音響クラスターが意味する内容を推測できるようにもなる。そのためユーザーが答えるべき内容を絞り込むことが可能だ。たとえば、システムの「今のは蛇口ですか?」という質問に、近くにいる人が「はい」または「いいえ」と答えるだけで済む。

認識を高めるための質問は、研究者たちが「境界線上のケース」と呼ぶ音をシステムに理解させる役にも立つ。それまでクラスタリングされそうになったものの、まだ個別のイベントとして意味づけされていない音などだ。たとえば、ドアが閉まる音に対して、食器棚の扉が閉まる音はそれにあたる。今後は、システムに二者択一の推測方法を教えて、推測を行ってからユーザーに聞いて確認をとるようにもできるだろう。

彼らは、キッチンを舞台にそのコンセプトを説明する下のデモ動画を制作した。

研究論文の中で彼らは、スマート家電は家庭やオフィスに広く普及し始めているが「文脈を把握する能力」に欠ける傾向があると指摘している。「周囲で起きていることに対する理解が最低限」しかなく、従って「本当に有用なコンピューター体験を実現させる可能性」が限定されるという。

音響行動認識自体は新しいものではないが、研究者たちは、それが既存の展開方式、つまり、ユーザーの手間に頼った膨大なトレーニングで精度を高める方法、または事前のトレーニングによって一般的な分類を与えておき「箱から出してすぐに使える」ようにする(しかしユーザー固有の環境に関するデータがないために制度は落ちることになる)方法を改善できるかどうかを確かめたいと考えている。

そのためListen Learnerは、現在、データ構築のためにユーザーに大きな負担をかけずに実用性(精度)を高めるまでの発展途上にある。この自己学習型システムは、時間をかけて音響行動分類器を自動生成してゆく。研究チームは、スマートスピーカーと同じように動作する概念実証用のプロトタイプを製作し、人間によるインプットを求めさせた。

「アルゴリズムは、既知のサンプルをインタラクティブにクラスタリングすることで、ひとつのアンサンブルモデルを学び、その後、結果として作られたクラスターを割り当てることにより分類器をトレーニングする」と彼らは論文で解説している。「これにより、アンサンブルモデルが活性化したときに、ユーザーの1回限りの介入でそれを部分的にラベリングができるようになる」。

音響イベントは、マイクの入力レベルが過去1分間の平均よりも標準偏差が1.5高いときにトリガーされる適応閾値を使ってセグメント化される。

「我々は、閾値化スキームをさらに潤滑にするためにヒステリシス技法(デバウンス処理)を採用している」と論文は続く。さらにこう記している。「多くの環境では、持続的で特徴的な背景音(HVACなど)があるが、我々は演算効率を高める目的でそれらを(無音時と同様)無視した。入力サンプルは、環境音との類似性がきわめて高い場合には破棄されるが、セグメント化されたウィンドウに含まれる無音は削除されないことに注意していただきたい」

彼らが使用しているCNN(畳み込みニューラルネットワーク)音源モデルは、最初にYouTube-8Mデータセットでトレーニングを行っている。論文によると、それを業務用サウンドエフェクトのライブラリーで強化したという。

「深層ニューラルネットワークの埋め込みを使用するという選択は、入力データの学習済み低次元表現と見ることもできるが、それは流形仮説(高次元データが低次元多様体におおよそ沿っていること)と一致する。この低次元学習表現上でクラスタリングと分類を実行することで、我々のシステムは、新しい音源クラスの発見と認識がより簡単に行えるようになる」と彼らは書いている。

研究チームは、教師なしクラスタリング方式を使っていた。ウォード法として知られる凝縮型階層的クラスタリング(HAC)アルゴリズムを使い、低次元学習表現からクラス境界の位置を推論するためだ。

このシステムは、候補のクラスターが重複している場合があるため、「クラスのもっとも優れた表現を見つけ出すためのデータ分類のあらゆる可能性」を評価する。

「我々のスラスタリング・アルゴリズムは、全クラスター内分散を最小限にすることで、データをクラスターに分離している。また、クラスターの分類可能性に基づきクラスターの評価を試みる。クラスタリングの段階を終えると、教師なしの1クラス・サポートベクターマシン(SVM)アルゴリズムを使い、新規に関知した音源の境界線の判断を学習させる。各候補クラスターごとに、1クラスSVMはクラスターのデータポイントに基づきトレーニングされ、そのF値はデータプール内のすべてのサンプルと共に処理される」という。

「従来のクラスタリング・アルゴリズムは、クラスターの割り当てを提供することで入力データを説明しようとするものだが、これ単独では未知のサンプルの区別は行えない。従って、このシステムの推論能力が円滑に利用できるよう、ひとつ前の段階で生成された1クラスSVMを使ってアンサンブルモデルを構築する。我々は、閾値θを超えるF値を持つ最初の分類器を選択しアンサンブルに加えることで、アンサンブルモデルを構築するインタラクティブな手順を導入した。分類器が追加されると、それをデータプール上で実行し、認識されたサンプルをマークする。そしてクラスター分類ループを、1)プール内のすべてのサンプルがマークされる、または2)ループからはそれ以上の分類器が生成されなくなるまで繰り返す」。

プライバシー保護は?

マイクがオンになり環境データを処理する頻度に関連して、論文では、こうした音声を聞き取るシステムで懸念されるプライバシーの問題にも触れている。機器の中ですべてをローカルに処理できるとは限らないからだと彼らは言う。

「音響を利用した行動認識のアプローチは、分類精度の向上や学習能力の漸進的向上といった恩恵をもたらす一方、音声データ、とりわけ会話の内容をキャプチャーし転送することにはプライバシーの問題が浮上する」と彼らは書いている。「理想的な実装の形は、すべてのデータが、それを捉えた機器から外に出さないようにすることだ(ただしローカルでトレーニングを行うとなれば膨大な演算能力が必要となる)。または、ローカルに保存されているモデルクラスにユーザーが特定できない匿名ラベリングを行った上でクラウドで処理する代替方法もある」。

論文の全文はこちら

[原文へ]

(翻訳:金井哲夫)

機械学習のモデルの管理を効率化するComet.mlがシードに次いで5億円相当を調達

いろんな仕事の新しいやり方、いわゆるニューノーマルを取り入れていくとき、新しいソフトウェアサービスを導入しようとする企業にとっては、あらゆることのもっと効率的な方法を探すことが何よりも重要になる。機械学習も、その例に漏れない。そこで、より効率的な機械学習プラットホームを作ろうとしているスタートアップComet.mlは今日(米国時間4/22)、450万ドルの新たな資金調達を発表した。

同社は以前、230万ドルのシード資金を調達しているが、今回の投資家もそのときと同じく、Trilogy Equity PartnersとTwo Sigma VenturesおよびFounder’s Co-opだ。

同社の共同創業者でCEOのGideon Mendels氏は次のように語る: 「われわれはセルフホストでクラウドベースの、メタ機械学習プラットホームを提供し、データサイエンスのAIチームと組んで、自分たちの実験とモデルを試行し説明し最適化しようとする彼らの作業を管理する」。

競合他社がどんどん増えている分野だが、Mendelsによると、複数のプラットホーム間を容易に移動できる能力が、同社のいちばん重要な差別化要因だ。

彼はこう説明する: 「われわれは基本的に、インフラストラクチャを特定しない。だから顧客は自分のモデルの訓練を、ラップトップでも、プライベートなクラスターでも、あるいは、あまたあるクラウドプロバイダーのどれかでも、どこでやってもよい。どこでやるかは関係ないし、それらを切り替えてもよい」。

同社のプロダクトにはコミュニティバージョンともっと高度なエンタープライズバージョンがあり、後者はBoeingやGoogle、Uberなどが顧客だ。両プロダクト合わせて、同社プラットホームのユーザーはおよそ1万だ。

Mendels氏によると、Cometはそのプラットホームの人気を利用して、顧客が一般公開しているデータをベースにモデルを構築できた。その最初のものは、モデルが訓練疲労をいつ見せ始めるかを予測した。コメットのモデルはそれがいつ起きるかを当てることができ、データサイエンティストたちに、そのような疲労が通常起きるタイミングよりも30%早く、モデルをシャットダウンするよう合図することができた。

同社は2017年にシアトルで行われたTechStars/Alexaでローンチした。コミュニティバージョンのプロダクトがデビューしたのは、2018年だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

AI OCRや特化型音声認識技術開発のシナモンが約13億円を調達

AIソリューションを開発・提供するシナモンは4月23日、シリーズCラウンドで総額約13億円の資金調達を発表した。調達方法は、既存投資家であるD4Vが運用するファンド(D4V1号投資事業有限責任組合)と米ペガサス・テック・ベンチャーズが運用するファンドを主要株主とする第三者割当増資のほか、三井住友銀行と日本政策金融公庫、商工組合中央金庫からの融資デットファイナンス)となる。

今回の資金調達の目的は、海外展開を見据えた人材採用、株主体制の強化、基盤技術・ユーザーインターフェースの強化、日本とベトナム、台湾での組織体制強化、人工知能プロダクトの新領域開発へのR&D投資など。なお新規株主には、ギークピクチュアズと夏野剛氏も加わっている。具体的な人工知能プロダクトの新規領域としては、音声認識や自然言語処理などを予定している。

同社は人工知能研究所をベトナムのハノイとホーチミン、台湾に設立し、現地で多くのAI技術者が開発業務に従事している。主力サービスは、AIを活用したOCR「Flax Scanner」。PDFやWordなどのデジタルデータはもちろん、印字や手書きなどの紙文書などをAIによってテキストデータ化できるサービス。現在は、金融・保険業界や、製造業、物流業をはじめとした、多数の大手企業へエンジン提供している。

また、特化型音声認識技術「Rossa Voice」(ロッサ・ボイス)も大手企業を中心に販売に販売を開始している。これは各社特有の録音環境や専門用語、文脈をチューニングすることで、高精度な音声認識を実現する技術。自然言語処理技術を組み合わせることで、情報抽出や要約、分析などの後工程の処理までを提供しており、社内システムとの連携も可能だ。

シナモンはこれまで「ホワイトカラーの生産性向上」をミッションに、AIプラットフォームを開発・提供してきた。新型コロナウイルスによる外出自粛要請が続く中での企業のさらなる業務効率化、AIプロダクトの提供を通じた企業の競争力を支援・強化する取り組みを推進していきたいとしている。

対話型AIを開発するインド拠点のYellow Messengerが21.5億円を調達

多目的のチャットボットは、Facebookといった初期の提唱者が思い描いていたほど抜本的なユーザーインターフェイスにはなっていないが、ターゲットを絞って使われる分には消費者とブランドを近づけ、企業の重要なワークフローを効率化するようになっている。

インドのベンガルールに拠点を置くYellow Messengerは、対話型AIプラットフォームを運営している。Accenture、Flipkart、Grabなどの企業が、従業員と顧客のコミュニケーションのためにYellow Messengerのプラットフォームを使用している。Yellow Messengerは新たな資金調達を発表し、また米国でのチャットボットプラットフォームのサービスを正式に開始する。

Yellow MessengerはTechCrunchに対し、Lightspeed Venture Partners主導のシリーズBで2000万ドル(約21億5000万円)を調達したと述べた。同社は2019年にLightspeed India Partners主導のシリーズAで資金を調達している。

セミインテリジェントのチャットボットは荒削りな状態でスタートを切ったが、導入する企業がチャットボットの限界に近づき、ここ数年では企業のワークフローで重要な役割を担うようになった。Intercomなどの企業がこの進化を牽引してきた。Intercomは2億4000万ドル(約258億円)以上を調達し、AIを使って最も効率よく顧客との対話を進めるコミュニケーションプラットフォームを構築した。

Lightspeed IndiaのDev Khare(デーブ・カレ)氏は発表の中で「全世界で3分の1の企業が対話型AIとチャットボットを実装している。この流れはもう後戻りしない」と述べている。

Yellow Messengerは主にインドと東南アジアで顧客を獲得してきたが、シリーズBの資金で米国、ヨーロッパ、ラテンアメリカ、アジア太平洋に事業を拡張していく計画だ。同社はサービス開始以降、120以上の言語に対応して、幅広い海外展開に向けて着実に準備してきた。

Yellow MessengerのCEOであるRaghu Ravinutala(ラグー・ラビヌタラ)氏はTechCrunchに対して、同社の重要なアドバンテージのひとつはプラットフォームの水平構造であり、これにより顧客はプラットフォームをさまざまなニーズに合わせることができると述べた。このプラットフォームは顧客に対するサポートやエンゲージメントの自動化に役立ち、さらに社内で人事や営業を管理するためにも利用できる。

Yellow Messengerのプラットフォームは現在、Microsoft Teams、Slack、Facebook Messenger、WhatsAppなどに対応している。

[原文へ]

(翻訳:Kaori Koyama)

隔離ルールの緩和で新型コロナの発症が急増、MITの新たな機械学習モデルが示唆

MIT(マサチューセッツ工科大学)は、新型コロナウイルス(COVID-19)感染拡大の新しいモデルを開発した。公式に入手可能なデータに基づき、流行に関する確立された疫学的方程式と、ニューラルネットワークに基づく推論を組み合わせたものだ。

画像クレジット:Chris J Ratcliff/Getty Images

新しいレポートで示されているモデルは、1月下旬から3月上旬の期間のデータでトレーニングすると、世界中のさまざまな地域における4月1日までの実際の蔓延を、正確に予測できることが判明している。そして、現在予定されているように、隔離措置を直ちに、あるいは近々に緩和したり廃止したりすると感染の「指数関数的な爆発」を招くことを示している。

MITの研究者は、新型コロナウイルスのデータだけに基づいてモデルを開発しようとしたが、SARSやMERSに関する情報を使用して大流行の進行状況を図示した人もいる。入手可能な新型コロナウイルスの情報と、実効的に隔離されていて、他人を感染させる恐れのない感染者の数のニューラルネットワークベースの概算を組み合わせることで、既存のモデルを超える精度のモデリングが可能となり、社会距離戦略と隔離方策の効果を正確に予測するとことができる。そして、それらの措置が縮小されたり、撤回された場合の影響を知ることになる。

MITのモデルによれば、来週あたりには、米国とイタリアでの新型コロナウイルスの感染者数は横ばいになる。これは、これまでの予測とも一致している。もちろん感染者数と、それによる医療システムへの負荷という観点からすればいいニュースだ。しかしこれを、現在実施中の感染拡大防止措置を緩和し始めてよい時期だとは絶対に解釈すべきでない。

実際にこの研究では、「隔離措置の緩和が早すぎると、結果はかなり壊滅的なものになると予測される」と結論づけている。そのモデルを開発したMITの機械工学教授、George Barbastathis(ジョージ・バーバスタディス)氏の見解だ。それは、独自の隔離措置の緩和が早すぎたために、感染拡大の第2波に見舞われたシンガポールの例を見てもわかるだろう。

新型コロナウイルス 関連アップデート

原文へ

(翻訳:Fumihiko Shibata)

音声AIがスマホカメラに映る映像を解析して質問にズバリ答えられるようにするWorldGaze

音声アシスタントがアホすぎてイラつくのは、誰もが経験すること。音声で機器が操作できるAIは便利この上なしともてはやされているが、実際に使ってみれば、たちまちロボット特有の気の利かなさに泣かされることになる。

命令を実行する前に、もっと情報をくれと聞き返してくる(ときには何度も聞いてくる)スマートスピーカーは、なおさらアホに感じられる。たとえば、自動車修理工場のことを質問したとき、それが今車を停めている目の前にある工場のことだと察してくれなかったり。

カーネギーメロン大学ヒューマン・コンピューター・インタラクション・インスティテュートの研究者たちは、Apple(アップル)の機械学習エンジニアGierad Laput(ジェエラード・ラプット)氏と共同で、音声アシスタント用アドオンのデモソフトを開発した。スマートフォンに内蔵されているAIに手を貸して、というか頭を貸して賢くするというものだ。

このシステムのプロトタイプでは、スマートフォンの前面と背面のカメラを同時に使い、物理空間(具体的には身の回りの環境)のどの位置にユーザーの頭があるかを認識する。それをコンピュータービジョン技術で解析して周囲のものを識別する。

するとユーザーは、自分の頭をポインター代わりにして、何を見て話しているのかをAIにわからせることができる。例えば「あの修理工場」で通じる。言葉で説明することなく、AIの理解の中にできた文脈の切れ間を、研究者たちの言葉を借りれば、より自然に埋めることができるという。

なので、音声アシスタントの利便性を引き出したいとき、こっちがロボットみたいな話し方をする必要はない。もっと、まあ言うなれば、人間的に話せるのだ。こんな聞き方が可能になる。例えば「Siri、そのスタバはいつ閉まる?」とか、買い物では「そのソファ、別の色はないの?」とか、値段の比較も「この椅子と、あっちのやつ」と簡単に質問できる。または、目で見ている照明器具を欲しいものリストに追加させるといったことが可能になるかもしれない。

このシステムでは、家や職場で視界に入っているいろいろな機器の遠隔操作もできる。めちゃくちゃ細かく機器を指定する必要はない。ただスマートTVやエアコンの温度調節器やスピーカーを見て、音量や温度の調整を指示すればいい。

研究チームは、WorldGaze(ワールドゲイズ)と名付けたこのプロトタイプの動作の様子をデモ動画(下)にまとめた。「私たちは、iPhoneの前面カメラで頭を、方向ベクトルとともに、三次元的に追跡しています。前面と背面のカメラの位置関係はわかっているので、頭のベクトルを背面カメラで見えている世界にレイキャスティングすることができます」と彼らは動画の中で解説している。

「これによりユーザーは、その方向に頭を向けて見るだけで、話の対象となるオブジェクトや場所を直感的に指示できます。音声アシスタントがこの文脈情報を採り入れることで、より正確で自然な問い合わせが可能になります」

このプロトタイプを紹介した研究論文では、これは「現在はデバイスを見ながら街を歩いている人たちに象徴されるモバイルAR体験のソーシャル化」にも応用できるとしている。

どのようにこれを拡張するのかと尋ねると、カーネギーメロン大学の研究者であるChris Harrison(クリス・ハリソン)氏は、TechCrunchにこう説明してくれた。「人々は、いつも手元のスマホを覗き込みながら歩いています。それはあまりソーシャルではありません。他の人たちと関わることがなく、周囲の美しい世界を眺めることすらないからです。WorldGazeのようなものがあれば、人々は周囲の世界を見ながら、スマホに目を落とすことなく、レストランの評判を尋ねたり聞いたり、買い物リストにものを追加したリができるようになります。スマホには、それを可能にする能力が備わっています。何か特別なものを買い足す必要はありません」。

彼らの論文には、インタラクティブな目的でユーザーの視線を追跡する研究は息の長いものだと書かれている。しかし、ここでの彼らの主な目的は、「市販されているスマートフォンに備わったハードウェアを使うという制約を課した中での実用的なリアルタイムのプロトタイプ」の開発だった(背面カメラの視界が潜在的な制約になると彼らは話しているが、性能の劣るあらゆるハードウェアを部分的に迂回する提案もされている)。

「WorldGazeは単独のアプリとして発表することもできるが、私たちはWorldGazeをバックグラウンドのサービスとして内蔵し、音声アシスタントを呼び出したときに(例えば「ヘイ、Siri」の呼び掛けで)同時に起動するようにしたいと考えている」と彼らは書いている。「前面と背面のカメラを同時に開きながらコンピュータービジョンの処理を行えば多くの電力が消費されるが、デューティ比(ある期間に占めるその期間で現象が継続される期間)の割合は低く、現代のスマートフォンのバッテリー寿命に大きく影響するほどではない。両方のカメラから画像を1フレーム取り込むだけで済むこともあり、すぐにオフにできる(WorldGazeの起動時間は7秒)。実験装置では、電力消費量はひとつの質問につき最大0.1ミリワット毎時と評価された」。

それでもまだ、人が顔の前にスマホを掲げて、そこに話しかける姿はなんとなく異様に見える。しかし、ソフトウェアは、ARグラスにも簡単に対応するとハリソン氏は強調していた。

「どちらも可能です。スマートフォンを使ったのは、誰でも持っているからです(WorldGazeはソフトウェアのアップデートで実装できる)。ARグラスを持ってる人は(まだ)ほとんどいませんからね。しかし、どこで音声アシスタントをパワーアップしたいかとう前提は、両方に共通しています」とハリソン氏はTechCrunchに話してくれた。

「ARグラスは、センサーを搭載して視線のトラッキングができるようになってきています(例えばMagic Leapは、焦点の調整にそれを採用している)。その場合は、外向きのカメラだけあればよいことになります」と彼は言う。

このようなシステムが、顔認証技術を合体する未来は容易に想像できる。スマートグラスをかけた人間が、ちょっと視線を向けて「あれは誰だ?」と尋ねるような。顔のデータがAIのメモリーバンクに合法的に蓄積されていたと仮定しての話だが。

「連絡先に追加」や「最後に会ったのはいつか」を調べる機能などは、ネットワークの利便性やソーシャル化を高める目的で解放されるかも知れない。だが今の時点では、こうしたシステムを現実世界に解き放つことは、プライバシーの観点からして、工学的技術をつなぎ合わせるよりも、むしろ難しいように思える(たとえば、Appleは規範違反だとしてClearview AIをブロックした事例もある)。

「その方向へ進むには、一定のセキュリティーを保ち、許可を取る必要があります。現時点で私たちが考えていることではありませんが、興味はあります(怖いアイデアですけど)」と、その可能性について尋ねられたハリソン氏は同意した。

研究チームはこの結果をAMCのCHI2020(計算機システムにおけるヒューマンファクターに関する会合)で発表する予定だったが、新型コロナウイルスの影響で会合は中止となった。

[原文へ]

(翻訳:金井哲夫)

Y CombinatorのW20デモデーに参加したスタートアップ(ハードウェア、ロボット、AI、開発者向けツール)

新型コロナウイルス(COVID-19)の感染拡大に対する懸念が高まる中、Y Combinator(Yコンビネーター)はこれまで慣れ親しんできた2日間にわたる米国サンフランシスコでの会合からイベントの開催方式を切り替え、デモデーのウェブサイトを通じて、招待された投資家とメディアにクラス全体を同時公開する方法で開催することを決定した。

さらに驚きなのが、投資家の動きが加速してきた事実を受け、YCがデモデー開催日を1週間前倒しにしたことだ。このため、デモデーのウェブサイトに録画したプレゼンを掲載するというプランは変更せざるをえなくなり、各事業は代わりにスライドに事業概要、今後の見通し、チームの経歴などの説明をまとめてプレゼンを行った。急速に進化する投資環境と相まって、この新たなスタイルがこのクラスにどのように影響するかは今のところはわからない。

プレゼンやウェブサイトのほか、場合によっては以前の記事から収集した情報をもとに、我々が集めたそれぞれのクラスの各事業のメモをまとめてみた。

読みやすさを優先し、全事業をすべて羅列するのではなくカテゴリー別にまとめている。これらの企業は、ハードウェア、ロボット工学、AI、機械学習、開発者用のツールを手掛けている企業である。そのほかのカテゴリー(バイオテック、コンシューマー、フィンテックなど)に関してはこちらから読むことができる。

AIおよび機械学習

Datasaur
自動修正、自動提案、キーボードのホットキーなどを使用して、人間がマシンデータのデータセットをより正確かつ効率的にラベル付けできるようにするためのツール。個人のデータラベラーは無料、20名以下のラベラーからなるチームには月100ドル(約1万1000円)、それより規模の大きいチームには個別の使用料が適用される。

1build
建設会社向けの、データによる作業費用自動見積もり。ユーザーが作業計画をアップロードすると、1buildは正確な入札額を「数分で」準備できるとしている。同社は、60万ドル(約6600万円)を超える収益を予測しており、Amazon、スターバックス、セブンイレブンなどの大企業の見積もりは完了していると述べた。

Zumo Labs
ゲームエンジンを用いて、コンピューターのビジョンシステム向けに、事前にラベル付けされたトレーニングデータを作成する。同社は、現実世界の写真やビデオからデータを収集するのではなく、データを合成することにより、より迅速で安価に、またプライバシーの問題なく、大量のデータセットを作成できると述べている。

Teleo
既存の建設機械を改造して、オペレーターが遠隔操作できるサービスを提供。Teleoは3ヶ月前の創設以来「完全に機能する遠隔操作ローダー」を作ってきたと述べ、建設会社に、一台につき毎月定額で料金を課す予定でいる。この企業の共同創設者はHardware Engineeringの元責任者であり、またLyftのProduct Managerのディレクターでもあった。どちらの会社もGoogleのStreet Viewチームに関与していた。

Turing Labs Inc.
石鹸やデオドラントなどの消費者向け製品について、様々な配合率を試す自動化されたシミュレーションテスト。研究開発チームにとって、家庭用製品や化粧品に関する作業は、数ヶ月に及ぶことがある。Turingは、このプロセスを支援するAIエンジン(薬の開発に使用されるのと同様のAIエンジン)を開発し、数ヶ月を数日に短縮する。Turingはすでに世界でも有数のCPG企業と取引を行っている。Turingについて以前書かれた記事はこちら

Segmed
SegmedはAIによる医学研究のためのデータセットを構築している。研究者がそれぞれ個別に病院や画像施設と提携する必要を省き、Segmedがこれらの組織と提携して(現在50以上)データの標準化、ラベル付け、匿名化を行う。

Ardis AI
Ardis AIは、人間と同じように文章を読み理解するテクノロジーである、汎用人工知能の構築を目指している。Ardis AIは、ニューラルネットワーク、記号推論、新たな自然言語処理技術とを組み合わせることで、データの抽出やラベル付けを行うチームを雇用することを望まない企業にサービスを提供可能。

Agnoris
Agnoris はレストランの店頭でのPOSデータを分析し、価格設定、デリバリーメニュー、スタッフ配置の変更について提案を行う。Agnorisは、レストランの場所ごとに年間3600ドル(約39万円)で、利益を20%上げることができると述べている。同社は、創設者がレストランを開業した際、そのレストランが繁盛したものの損失がでていたため、マージンを改善するための機械学習ツールを構築し、現在、そのソフトウェアを飲食店に販売している、という経緯がある。

Froglabs
太陽光や風力を使ったエネルギー生産、配送の遅れ、人員不足、販売需要、食糧が入手可能かを予測するために、天気予報AIを企業に提供している。何ペタバイトもの気象データを処理して、企業における物流の中断を防ぎ、経費の節約につなげる。同社は、インターネットビーム気象バルーンを使ったProject Loonを立ち上げた古参Google社員によって設立され、現在はeコマース、小売、ライドシェア、レストラン、イベント企画会社と取引している。

PillarPlus
PillarPlusは建設プロジェクトの青写真設計段階を自動化するプラットフォームである。同プラットフォームは、建築家または請負業者から設計を取得し、機械、火、電気、配管の詳細を綿密に計画し、部品コストやプロジェクトコストを推定する。これらのステップには本来なら数ヶ月の作業を必要とする。

Glisten
Glistenはコンピュータービジョンと機械学習テクノロジーを用いて従来のものより優れたより一貫性のあるデータセットをeコマース企業向けに開発している。最初の製品は、希薄な製品データを取り込み充実させるAIベースのツールである。Glistenについて以前書かれた記事はこちら

nextmv
Nextmvにより、顧客は独自の物流アルゴリズムを自動で生成することができ、輸送用車両を最適化し、内部でルートを管理できる。

Visual One
動きを検出するセキュリティカメラは、必ずしも有害とは言えない動きを誤検知することがある。Visual Oneは、検出した特定の動きだけを「読み取る」、ホームセキュリティと一体になったAIプラットフォームを構築した。ユーザーはアラートをカスタマイズし、気になる動きに関する通知のみを受けるようすることができる。同社のソフトウェアで、家具にダメージを与えるペット、荷物を持ち去ろうとしている泥棒、幼児の危険な行動などをチェックできる。Visual Oneについて以前書かれた記事はこちら

PostEra
ここでのアイデアは「サービスとしての医療化学サービス」である。PostEraのプラットフォームを用いると、従来の研究開発室で行うよりも高速かつ低コストで分子を設計および合成できるため、創薬プロセスで新しい組み合わせをテストするために必要な研究時間を短縮できる。

ハードウェアおよびロボット工学

Cyberdontics
ロボット工学は、da VinciのメーカーであるIntuitiveなどの企業のおかげで、すでに手術に革命をもたらしている。Cyberdonticsは同様のことを口腔手術で行うことを意図し、まずは費用や時間がかさむ治療の1つであるクラウンをターゲットにしている。同社は、ロボットを使用すると、通常2時間の治療を15分で行うことができ、費用はたった140ドル(約1万5000円)で済むとしている。

Avion
Avionはアフリカの奥地の人々に焦点を当て、ドローンを用いた配送システムを構築している。中央ハブに接続された中長距離を飛ぶ医療用ドローンを使用する計画だ。当該ドローンはハイブリッドの自律型で、垂直離陸機能を備えており、5 kgの荷物を150kmまで運ぶことができる。

SOMATIC
トイレ清掃業は「つまらなく」「汚い」仕事とされ、自動化が待たれる主要な業種である。Somaticは、VRを介してトイレを掃除するように訓練された大型ロボットを製作している。ロボットはトイレ表面にスプレーを掛けて拭き、またドアを開けたりエレベーターで昇降する能力がある。SOMATICについて以前書かれた記事はこちら

RoboTire
車のサービスショップの待合室に座ったことのある人なら誰でも、そのプロセスにどれほど時間がかかるかを知っている。RoboTireは、タイヤ4本にかかる待ち時間を60分から10分に短縮することを約束している。同社は米国の複数箇所でこのテクノロジーのパイロット版を開始している。RoboTireについて以前書かれた記事はこちら

Morphle
古くなったアナログ顕微鏡に代わるシステムとして設計されたMorphleのシステムは、画像処理を向上させるためロボットオートメーションを用いている。同スタートアップ企業のシステムは高価なシステム以上に高解像度の画像を処理し、失敗率もはるかに低い。Morphleはインドの研究所に当該システムの販売を始めている。

Daedalus
DaedalusはOpenAIの元エンジニアによって創設され、CNCを手始めとして、人間によるプログラミング無しで工業用ロボットを運用できる自律ソフトウェアを製作している。同社は金属加工市場における生産性を最大5倍改善できると予測している。

Exosonic
Exosonicは大音量の衝撃音波を出さない、地上を飛行可能な超音速民間航空機を製造している。同社の目標は3時間でサンフランシスコとニューヨーク市を飛ぶ飛行機を作ることである。同社のCEOはロッキード・マーティン社でNASAの低爆音のX-59航空機製造に携わった経験を持つ。Exosonicは現在主要な航空会社と国防総省の2つのグループからの趣意書に加えて、米空軍との間に30万ドル(約3300万円)の契約を結んでいる。

Nimbus
Nimbusは、連続的に起業を行ってきたシリアル起業家によってミシガン州アナーバー市に設立された。同社は都市トランスポーテーション向けの次世代車両プラットフォームを製作している。創設者であるLihang Nong氏は、かつて燃料注入システムを開発するPicoSprayを立ち上げた人物である。現在「より快適な乗り心地を確保しながら、スペースとエネルギーの点で今現在の自動車よりも数倍の効率性を持つ自動車を実現できるか」という疑問に答えようとしている。

UrbanKisaan
UrbanKisaan はインドに拠点を置く垂直式農業事業を行う企業であり、家庭に予約購入による生鮮食品を提供している。同社の積み重ねられた水耕テーブル式農場は、従来の農場のわずか1%の土地しか必要としないため、都市近郊で運営でき、しかも農薬を必要としない。健康的な食品を求める中産階級が増えつつある市場において、UrbanKisaanは農場から直接家庭に届けるシステムによって、品質と利益をコントロール可能である。

Talyn Air
SpaceXの元エンジニア2名が、乗客および貨物用の長距離飛行で垂直離着陸機能を持つ電動式航空機(eVTOL)を開発した。同スタートアップ企業は、離陸と着陸の際に特製の翼付きドローンで中空に留まることの可能な電動式固定翼航空機を開発した。創設者によると、このアプローチにより当該航空機は競合他社航空機の3倍である350マイル(560km)を飛行することができる。

開発者向けツール

BuildBuddy
2人の元Google社員が、GoogleのBazelソフトウェア上にオープンソースのUIと機能セットを構築することで、「Googleスタイル」の開発環境を全ての人に届けたいと考えて創業。同社は、このソリューションによって構築時間が最大10倍スピードアップすると述べている。個人の開発者は無料で使用できるほか、チームの規模や必要な機能に応じて1人あたり4ドル(約440円)から49ドル(5400円)までの使用料が適用される。

Dataline
広告ブロックツールを使用しているユーザーからの分析データを、ウェブサイトに収集させることを意図している。同社は、広告ブロッカーを使用しているほとんどのユーザーが注意を払っているのはディスプレイ広告やクロスサイトトラッキングであり、ファーストパーティによる分析は「付随的な被害」として打撃を受けると述べている。Datalineは、サブドメインで実行される「スマートプロキシ」として機能することにより、ほとんどの広告ブロックシステムを回避する(現時点では、おそらく)。

Cortex
最新のオンラインソフトウェアアプリケーションの多くは、無数の独立した目的別のツール、つまり「マイクロサービス」により駆動されている。Cortexはアプリのマイクロサービスを監視し、1つが故障した場合に適切な人物(Datadog / Slack / PagerDutyなどに接続する)に自動的に通知する。

apitracker
ウェブサイトが正常に読み込まれているように見えても、それを機能させるために使用されているAPIに問題があり、はっきりとはわからない形で問題が発生している場合がある。Apitrackerは…APIを追跡する。Apitrackerは使用されているAPIを監視し、そのうちの1つに不具合が発生した時点で警告を発し、それらの全体的な性能についてのインサイトを提供する。

Freshpaint
Freshpaintの「自動追跡」システムは、サイト全体のすべてのページビューとクリック数などを収集し、開発チームが各イベントの手動トラッカーを作成することなく、Google AnalyticsやFacebook Pixelなどのツールに遡及的に割り込ませることができる。ベースプランは月毎のユーザーが3000人未満のサイトでは無料、最大50000人のサイトは300ドル(約33000円)、それ以上のサイトは個別の価格が適用される。

Datree
企業はDatreeを用いてコードベースのルールとセキュリティポシリーを設定し、それらのルールを確実に守った上で、コードをマージすることができる。開発者一人に付き28ドル(約3000円)(個人/オープンソースプロジェクトは無料)の使用料が課されており、現在までに最大で23000ドル(約250万円)の収益を上げた。Datreeについて以前書かれた記事はこちら

fly.io
ユーザーに物理的により近いサーバーにアプリを展開し、レンテンシーを低減し、ユーザーエクスペリエンスを改善する。アプリの人気が特定の都市で高まった場合、Flyがそれを検出し、それに応じてリソースをスケーリングする。

Sweeps
Sweepsは一行のコードを用いて、ウェブサイトが使用しているサードパーティーのツールをより効率よく読み込むことにより、ウェブサイトを40%高速化できると述べている。同社チームは、Sweepsのテクノロジーによりスピードが改善されるだけでなく、SEOも改善されるとしている。

Orbiter
OrbiterはSlackと組み合わされたリアルタイムの自動監視およびアラートシステムで、より優れた顧客サービスと収益管理を保証する。

Release
製品のリリースは一筋縄ではいかない。Release はステージング管理ツールキットを提供している。このツールキットはプルリクエストがあるたびにステージング環境を構築し、より速く/より協調的な開発サイクルを可能にする。

Signadot
Signadotは近年のスタートアップ企業が自らのアプリケーションやサービスを駆動するのに使用しているマイクロサービスを監視し管理するソフトウェアであり、エンドユーザーに明らかになる前に問題にフラグをたてることが期待されている。

Raycast
Raycastは開発者および開発者が使用する多くのツール向けユニバーサルコマンドバーである。ユーザーはJira、GitHub、Slackなどのアプリを統合し、フォームやタスクを完了するために「超人的」なアプローチをとることが可能だ。チームは、エンジニアがエンジニアリングと無関係の作業を迅速にこなすのを支援する方法として当該ツールを提案している。

Cotter
Cotterは電話番号ベースのログインプラットフォームを構築している。同社の創設者によると、このプラットフォームは、SMSベースのOTPの利便性を備えたワークフローでユーザーのデバイスを認証するもので、セキュリティの問題も無い。同スタートアップ企業は、電子メールの利用が少なく、ログイン方法として電子メールの利便性が低い開発途上国の顧客をターゲットとして考えている。

ditto
Dittoの創設者は、製品やワークフローを説明するのに使用するコピーをチームがより入念に計画できるよう、言葉向けのFigmaを作りたいと考えている。スタンフォード大学のルームメイトであるJolena Ma氏とJessica Ouyang氏により制作されたコラボレーションツールは現在の80社を超すユーザーに使用されている。

Scout
GitHubワークフロー内における機械学習実験向けの継続的統合および展開ツールキット。

ToDesktop
ToDesktopはデスクトップアプリケーションの公開ニーズを自動化するサービスを設計してきた。当該サービスはWindows、Mac、Linuxで使用でき、ネイティブインストーラー、自動更新、コードサイニング、クラッシュレポートを提供する。開発者向けのインフラストラクチャや構成は必要としない。

DeepSource
DeepSourceは開発者がPythonやGoにおけるバグリスク、アンチパターン、パフォーマンス問題、セキュリティの欠陥をチェックするためのコードレビューツールである。

Flowbot
FlowbotはPythonでのコーディングのための自然言語、オートコンプリート検索ツールである。これは、Python開発者が、自分が考えている正確な機能を思い出せないときに、平易な英語で入力できるようにするツールである。Flowbotはドキュメントを掘り下げ、コンテキストを検討して、開発者が探していると思われるコードを見つける。

PostHog
PostHogは開発者にユーザーが実際にどのように彼らの製品を使用しているかを理解できるようにするソフトウェアサービスである。これは、オープンソースプログラマー向けの製品分析ツールキットである。

騙されない機械学習を米軍とインテルが共同開発へ

機械学習のモデルに対する騙し攻撃を防ぐ、サイバー防衛技術の改良を目指している米軍の研究開発機関DARPAは、チップメーカーのIntel(インテル)をその研究のリーダーとして選んだ。

人工知能技術の一種である機械学習(Machine Learning)は、新しいデータや経験を「学習」するたびに賢くなっていく。現在のところ最も一般的な用途は物の認識で、写真を見てそれが何か、誰かなどを当てる。目の不自由な人の視覚能力を助けたり、あるいは自動運転車が路上の物や状態を識別するのに利用している。

しかし、まれにある騙し攻撃は、機械学習のアルゴリズムに干渉する。例えば、自動運転車に普通の安全な物のようだけど実は違うという物を見せて、大きな事故を起こさせることもありえる。

数週間前にMcAfee(マカフィー)の研究者がTesla(テスラ車)を騙し、速度制限標識にわずか5cmのテープを貼っただけで、時速80kmという違反速度まで加速させることができた。その研究は、自動車などのデバイスの機械学習アルゴリズムを騙すMcAfee社の初期的な研究例の1つだった。

そこでDARPAは、その対策に乗り出した。同研究機関は今年の初めに、GARD(Guaranteeing AI Robustness against Deception、騙しに対して強いAIを保証する)と名付けたプログラムを発表した。機械学習に対する現在の防犯技術は、既定のルールを利用するものが多いが、DARPAが望むのは、ルールがあらかじめないような、さまざまな種類の犯行に対応できる幅広い防衛システムだ。

インテルは米国時間4月9日、同社はジョージア工科大学と共にその4年計画の事業の中心的契約企業になると発表した。

IntelのGARDチームを率いる主席エンジニアを務めるJason Martin(ジェイソン・マーティン)氏によると、同社とジョージア工科大が共同して「物を認識する能力を強化して、AIと機械学習の、敵対的な攻撃への対応を学習できる能力を高める」という。

インテルによると、プログラムの最初の段階はオブジェクト検出技術の強化にフォーカスし、空間(場所)とか時間、意味(セマンティクス)などが整合した物を正しく見つけるようにする。対象は静止画と動画の両方だ。

またDARPAによると、GARDは生物学などさまざまな異なる設定で使えるようにする。

DARPAのInformation Innovation Officeでプログラムマネージャーを務めているHava Siegelmann(ハバ・シーゲルマン)博士は「我々が作り出そうとしている幅広いシナリオに基づく防衛は、たとえば免疫系にもある。そこでは、攻撃を見つけ、それに勝ち、将来の遭遇においてより有効な反撃を作り出すためにその攻撃を記憶する」と語る。

「我々は機械学習を、確実に安全で、騙されることのありえないシステムにする必要がある」と同博士と語る。

関連記事: セキュリティにおけるAIへの要求(未訳)

[原文へ]
(翻訳:iwatani、a.k.a. hiwa

AIの社会実装の拡大を目指すギリアがグロービス・キャピタル・パートナーズから資金調達

統合AIプラットフォームの開発・提供を手掛けるギリアは4月7日、グロービス・キャピタル・パートナーズを引受先とする第三者割当増資を実施したことを明らかにした。グロービスの出資額は非公開。ギリアは、 同社CEOの清水 亮氏が創業したUEI(旧・ユビキタスエンターテインメント)とソニーコンピュータサイエンス研究所、ベンチャーキャピタルWiLが2017年に共同設立した企業。

同社はこれまで、2018年8月には、保険事業を手掛ける東京海上日動とコンサルティング事業を手掛けるシグマクシス、みずほキャピタル、2019年8月に教育事業を手掛けるトライグループとみずほ銀行、2019年9月に電気機器事業を手掛ける図研と資本提携や業務提携を結んでいたが、今回は創業時のWiLに続くベンチャーキャピタルの出資を受けることになる。今回調達した資金は、エンジニアなどの採用・教育、新サービスの研究開発、同社の認知度向上のためのプロモーション活動などに使われる。

グロービス・キャピタル・パートナーズ シニア・アソシエイトを務める南 良平氏は、「グロービスとしてもAIの社会実装というテーマは強く関心があり、それを可能にする有力な1社としてギリアへの出資を決めた」とのこと。同氏はプレスリリースでも以下のようにコメントしている。

AIの社会実装は社会的に不可逆なトレンドであり、潜在的に市場は巨大と認識しています。一方で、よく言われるように人材不足の中、一定のカスタマイズが発生する多種多様なニーズに応えられるプレーヤーは希少であり、ギリアは間違いなくその有力な1社と考えています。株式会社ソニーコンピュータサイエンス研究所と株式会社UEIのジョイントベンチャーとして始まったユニークな“大人のスタートアップ”であり、既に有力な顧客・パイプラインを多く抱え、単なるPoC/受託開発に留まらないモデルを構築しつつあります。ギリアの目指す世界観の実現に大きく期待するとともに、今後ギリアの企業価値向上に向け伴走させていただけることを楽しみにしています。

ギリア代表の清水氏のコメントは以下のとおり。

仕事を通じてAIが社会に貢献できる領域の広がりを日々実感する一方、世界の先行きが不透明なこのタイミングでグロービス・キャピタル・パートナーズ様から資本参画いただいたことを非常に心強く思っております。同社の持つ豊富なコネクションとビジネス経験からの助言を賜りながら、ギリアはさらなるAIの社会実装を加速します。

ギリアは2019年12月にスイッチサイエンスと共同で、ギリアが開発したマウス操作によるAI開発を可能にしたGUIベースの深層学習ソフトウェア「Deep Analyzer」(ディープアナライザー)を利用して企業などの問題解決に活用する手法を学べる入門講座「Deep Analyzerワークショップ」を開催。AIをより簡単に使えるような取り組みを進めている。

関連記事:ソニーCSLが出資のギリアが一般顧客向けAIサービスの提供を2018年内に開始予定、ブラウザだけで誰でも人工知能

機械学習モデルをさまざまなハードウェアに合わせて最適化するOctoMLが16億円相当を調達

OctoMLは機械学習のコンパイラースタックプロジェクトApache TVMのチームが創ったスタートアップだ。米国時間4月3日に同社は、Amplifyがリードし、90万ドル(約4億2000万円)のシードラウンドをリードしたMadrona Venturesが参加したシリーズAのラウンドで1500万ドル(約16億円)を調達した。OctoMLとTVMの中核的なアイデアは、機械学習を使って機械学習モデルを最適化し、さまざまなタイプのハードウェアでより効率的に動くようにすることだ。

OctoMLのCEOでワシントン大学の教授Luis Ceze(ルイス・セズ)氏は「機械学習モデルの開発はかなり進歩しているが、モデルを手にした時点から例えば、それを実際にエッジやクラウドで有効に使うためにはどう活用するのかという大きな苦労が始まる」と語る。

そのためにセズ氏と彼のワシントン大学のアレンコンピューターサイエンススクール(Paul G. Allen School of Computer Science & Engineering)の仲間たちがローンチしたのが、TVMプロジェクトだ。今やそれはApacheのインキュベイティングプロジェクトであり、AWS、ARM、Facebook、Google、Intel、Microsoft、Nvidia, Xilinxなどの企業からの利用、サポートが多いことから、チームは本格的な商用化が必要と考えた。そこで生まれたのがOctoMLだ。今日では、Amazon Alexaのウェイクワードの検出にもTVMが使われている。

セズ氏はTVMを、機械学習のモデルのための新しいオペレーティングシステムだ、と説明する。「機械学習のモデルはコードではないため、そこにコンピューターが実行する命令はない。そこにあるのは、統計的なモデリングを記述する数字だ。そんなモデルを特定のハードウェアプラットフォーム上で効率的に動作させるには非常に多くの問題があります。実行性能の良い方法を決めるのは非常に困難なで、人間の直観を必要とする重要な作業です」。

そのためOctoMLと、そのSaaSプロダクト「Octomizer」が登場した。ユーザーは自分のモデルをこのSaaSへアップロードすると自動的にモデルはユーザーが指定したハードウェアとフォーマットに基づいて最適化され、ベンチマークされ、パッケージされる。さらに高度な使い方として、このサービスのAPIをCI/CDの工程中に加えるやり方もある。そうやって最適化されたモデルは、それが動くハードウェアを完全に有効利用するよう最適化されているため相当速いが、多くの企業にとってさらにありがたいのは、効率化されたモデルがクラウドの利用コストを下げてくれること。そして性能の低い安価なハードウェアを使っても、これまでと同じ結果が得られることだ。ユースケースによっては、TVMはすでに80倍のパフォーマンス向上を達成している。

現在、OctoMLのチームは約20名だ。今回の新しい資金で増員を予定している。採用されるのは主にエンジニアだが、エバンジェリストも雇いたいとセズ氏は言う。また彼によると、SaaSプロダクト「Octomizer」は出だしとしては良いが、本当の目標は機能がもっと完全に揃ったMLOpsのプラットフォームだとのこと。「OctoMLのミッションは、MLOpsを自動化する世界で最良のプラットフォームを構築することだ」とセズ氏は語っている。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

新型コロナ対策として空港の混雑などを監視するZensorsのコンピュータビジョン

新型コロナウイルスの感染が広がる中、商用のコンピュータビジョン技術が人々の行動を観測する有益なツールになりつつある。機械学習でレストランの空き状況や行列などを追跡するスタートアップのZensorsは、感染拡大防止のために測定のシステム化を必要としている空港などで、このプラットフォームを無料で利用できるようにする。

Zensorsが創業したのは2年前の2018年だが、TechCrunchは2016年に防犯カメラの映像などから有用なデータを抽出するコンピュータビジョンのアーリーアダプターの1つとして同社を紹介した。レストランを映すカメラでテーブルの空きを数え、時間の経過に伴うデータの変化を追跡するのは可能で当然のことのように思えるかもしれないが、数年前にはなかなか思いつかないことで、実現も簡単ではなかった。

それ以来Zensorsは、空港、オフィス、小売店などそれぞれの環境に合わせたツールを作ってきた。座席の埋まり具合やゴミ、行列の見込みなどを調べることができる。偶然ではあるが、人と人との距離を注意深く監視する必要がある現在の状況において、このようなデータは空港などの管理者にとってまさに必要なものだ。

Zensorsはカーネギーメロン大学から生まれた企業だ。Zensorsの共同創業者であるAnuraag Jain(アヌラーグ・ジェイン)氏は同大学に対し、Zensorsの技術を公衆衛生に生かしたいと考える空港などから多くの問い合わせを受けたと語っている

例えば、何人が行列に並んでいるかを数えるソフトウェアを応用すれば、簡単に人々の密集具合を推計し、人が集まり過ぎていたり狭い場所に集中したりしているときにアラートを送信できる。

「これで利益を得るのではなく、無償で支援しようと考えた」とジェイン氏は言う。そこで最短でも今後2カ月間、Zensorsは同社のプラットフォームを「我々のクライアントである空港など、現在の危機に最前線で対応している一部の組織」に対して無償で提供する。

特定のエリアにいる人が多すぎないか、ある場所が最後にいつ清掃されたか、急いで清掃する必要があるか、ある集団の中で何人がマスクをつけているかなど、新型コロナウイルスに関連して知りたい情報を提供する機能がすでに強化されている。

空港ではおそらくこうした情報をすでに追跡しているが、あまり体系化されてはいないだろう。このようなシステムは、清潔な環境を維持しリスクを減らすのに役立つはずだ。Zensorsとしては無償で試用した組織の一部が料金を支払うクライアントになることを期待していると思われる。関心を持った組織は、Zensorsの通常の問い合わせフォームから相談できる。

トップ画像クレジット:Zensors

新型コロナウイルス 関連アップデート

[原文へ]

(翻訳:Kaori Koyama)

Googleとカリフォルニア大学SF校が薬の処方の危険な間違いを見つける機械学習ツールを共同開発

Google Healthの機械学習エキスパートがこのほど公開したUCSF(カリフォルニア大学サンフランシスコ校)の計算健康科学部との共同研究は、患者の電子健康記録(EHR)を入力として研究者が作った、普通の医師たちによる薬の処方の一般的なパターンを表した機械学習モデルを記述している。これが役に立つのは、入院患者の約2%が、防ぐことのできた薬物処方の間違いに悩まされているからだ。その間違いが、死に結びつくこともある。

研究者の説明では、このシステムはクレジットカード会社が顧客に詐欺の可能性を警告するのに使っている、機械学習を利用した自動的不正検出ツールのような仕事をする。それらは、過去のクレジットカードトランザクションに基づいて消費者のノーマルな動きのベースラインを作り、それに合わない動きを見つけたら銀行のセキュリティ部署に警報したり、アクセスを凍結したりする。

GoogleとUCSFが訓練しているモデルも、「この患者の現在の状況に対しては異常」と見える処方を見つける。ただしそれは、消費者の行動の異常よりは発見が難しい。なぜなら1人ひとりの患者の状況やニーズは、機密性がある上にきわめて複雑で解明が非常に困難だからだ。

そのために彼らは、匿名化した患者の電子健康記録から、生体信号や検査結果、投薬履歴、診療履歴とそれらの予後などの情報を知る。そんな履歴データを現在の状態の情報と組み合わせてさまざまなモデルを作り、個々の患者の今後の処方の正確な予測を作り出す。

「彼らの最も性能の良いモデルでは、正答率が4分の3だ」とGoogleは説明する。本物の医師が書く処方も、このモデルで採点するとそんなものだそうだ。また、モデルの正解が医師がその患者に処方するであろう薬の上位10に含まれる率は93%と高い。しかし、1位の選択が医師が選ぶ1位ではないこともある。

研究者たちが念を押すのは、モデルは今のところ、ごく普通の処方の予測は正確だが、それから外れたものの良否をすべて正確に指摘することはできない。でも、この種の警告システムを作っていく過程の第一歩としては上出来だろう。

画像クレジット: Akio Kon/Bloomberg/Getty Images

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

AWSの機械学習勉強用キーボード「DeepComposer」が1000円程度で買える

米国時間4月2日、AWSは同社のDeepComposerキーボードを単独で販売すると発表した。ただしDeepComposerは、ハッカー用のメカニカルキーボードではなく、AIを使ってユーザーの入力から曲を作るAWSのサービスであるDeepComposerで使う小さなMIDIキーボードだ。

2019年のAWS re:Inventで発表されたこのキーボードは、やや混乱を招いた。まず、Amazonの発表が一般向け製品のようだった。DeepComposerのサービスそのものは、ハードウェアのキーボードがなくても利用できる学習ツールで、キーボードのDeepComposerはその点で、同じくAWSのDeepLensDeepRacerのようなハードウェアに位置づけが似ている。それはデベロッパーに敵対的生成ネットワークについて教えることが目的で、同じくDeepLensとDeepRacerも機械学習の特定の技術にフォーカスしている。

ユーザーがハードウェアまたは画面上のキーボードを使って短いメロディーを弾くとDeepComposerサービスが、ユーザーが指定した曲調に基づいて自動的に伴奏を作り出す。昨年re:Inventで聴いたかぎりでは、出来栄えは好悪まちまちだったが、現在はもっと良くなっているかもしれない。しかし、これはトップ40に入るような曲を作るためのツールではなくて、あくまでも学習ツールだ。学習はこのキーボードがなくてもできると思うが、使ってみたい人は今やAmazonで買える

関連記事: なぜAWSはMIDIキーボードを売って機械学習を教えようとするのか

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

DeepMindのAgent57 AIエージェントがATARIの57本のゲームで人間に勝利

人工知能エージェントの開発現場では、その能力をゲームで測ることがよくあるが、それには相応の理由がある。ゲームは幅広い習熟曲線を提示してくれるのだ。ゲームは、基本的な遊び方は比較的すぐに習得できるが、マスターするのは難しい。しかも、通常は得点システムが備わっているため、習熟度を評価しやすい。DeepMind(ディープマインド)のエージェントは囲碁に挑戦し、リアルタイムの戦略ビデオゲーム「StarCraft」(スタークラフト)にも挑戦した。だが、このAlphabet(アルファベット)傘下の企業の最新の偉業はAgent57だ。Atari(アタリ)の57本のゲームすべてにおいて、さまざまな難易度、特性、プレイスタイルで標準的な人間を負かすことができる

57本のAtariゲームで人間に勝るとは言え、使用するゲームによって深層学習エージェントの能力測定の基準が偏りそうな気がするが、これは2012年から採用されている標準的な測定法だ。使用されるAtariのクラシックゲームには、Pitfall(ピットフォール)、Solaris(ソラリス)、Montezuma’s Revenge(モンテズマズ・リベンジ)などが含まれる。これらをまとめて使うことで、難易度のレベルが大きく広がり、勝つために数多くの戦略を考える必要が生じる。

1つのゲームをプレイするごとに勝利確率を最大化していく効率的な戦略などを導き出すことが目的ではないため、これは深層学習エージェントの構築には非常に適した課題となる。つまり、こうしたエージェントの開発と、このような課題を与えたそもそもの目的は、種々雑多な、そして常に変化するシナリオや条件から学習できるAIを生み出すことにある。長期的に目指すのは、これまで遭遇したこともない目の前の問題に知性で対処できる、より人間に近い存在である汎用AIにつながるエージェントの構築だ。

DeepMindのAgent57は、Atari57セットの57本のゲームのすべてで人間に勝る能力を示した点で注目に値する。これまでのエージェントは、平均して人間よりも優れているに過ぎなかった。それは、行動と報酬の単純なループで上達できる同タイプのゲームを大変に得意とするものの、Montezuma’s Revengeのような長期の探検と記憶を要する高度なゲームではまったく振るわないためだ。

DeepMindチームは、問題の各側面ごとに個別のコンピューターが取り組むという分散型エージェントを構築し、それに対処した。一部のコンピューターは、新しい報酬(それまで出会ったことがないもの)に注目するように調整し、目新しさの価値がリセットされる時期を、長期と短期の2種類設定した。その他のコンピューターは、どの反復パターンがいちばん大きな報酬を与えてくれるかを基準によりシンプルな報酬を探し出す。これらすべての結果を総合し、与えられたゲームごとに異なるアプローチにおいてコストと利益のバランスを調子するメタコントローラーを備えたエージェントが管理を行う。

そうしてAgent57は目標を達成したわけだが、いくつか別の新しい方法による改善も可能だとチームは言う。1つ目は、演算量がきわめて膨大であるという問題がある。チームは、今後、無駄を省く方法を探る。2つ目は、簡単なゲームでは、もっとシンプルなエージェントに劣ることがあるという問題だ。それでも、従来の知的エージェントに対して上位5つのゲームで勝利している。チームは、他のそれほど高度でもないエージェントに負けてしまう単純なゲームでの能力を、さらに高める策はあると話している。

[原文へ]

(翻訳:金井哲夫)

AIとビッグデータが新型コロナとの戦いで奇跡を起こすことはない

かなづちを持っている人には、あらゆる問題が釘のように見える。予想通り、テクノロジーセクターは目に入るすべての釘を一生懸命かなづちで叩いている。だが、現代のデータエコシステムの分析力は、新型コロナウイルス治療への対応の点では非常に限られている。

企業が持つ莫大な量のコンピューティングリソースを、何らかの形でウイルスと戦うための世界的な取り組みに向けることは、もちろん期待すべきことであり、称賛すべきでもある。

うまく使えば非常に価値ある取り組みができる。例えば、既知のコロナウイルスに関する何千もの記事Semantic Sc​​holarのコンテキスト認識テキスト分析を適用すれば、世界中の研究者が検索できる。研究所や保健当局が世界中で利用できるデジタルコラボレーションツールは、最後にこの規模の公衆衛生上の危機があった際に利用可能だったものをはるかにしのぐ。

だが、進歩に関して誤った印象を与えかねない分野もある。AIとテクノロジーが大きく進歩した分野の1つに創薬がある。数多くの企業が設立され、数億ドル(数百億円)の資金を集めたのは、AIを使用すれば特定の条件下で効果を発揮する新物質を発見するプロセスを高速化できるという期待があったからだ。

当然、新型コロナも研究の対象となる。すでに複数の企業や研究機関が新型コロナに10とか100の有効な物質を発見したと喧伝している。そうした発表は見出しを飾りやすい。「AIが新型コロナに効く可能性がある10個の物質を発見」といった類いだ。

AIを応用することが悪いわけではないが、実用的な結果はほとんど得られていない。例えば交通手段の選択肢を絞るという政策提案に対して、交通量のビッグデータを分析し、提案を支持したり低評価を付すというのは1つのあり方だ。 だが分析によって多数の選択肢が提示されても、いずれも行き詰まってしまったり、現在の取り組みに有害でさえあるなら、話はまったく異なってくる。

これは、AIを応用するのがハイテク企業であり、解決策を提案した後は必然的に彼らの手を離れてしまうからだ。治療の手がかりというものは、選択肢から除外する場合でさえ、過酷なテストを必要とする。有効性を確認するならなおさらだ。すでに他の用途に承認されている薬でさえ、責任を持って大規模に展開しようとするなら、新しい適用方法について再び審査する必要がある。

さらに、この種の創薬プロセスを経て新物質を発見したとしても、何十億という製造量はおろか、何千という規模でさえも、製造にこぎつける保証はない。それはまったく別問題だ。(断っておく必要があるが、取り組んでいるAI企業もある

リード(新薬候補となる化合物)を生成するメカニズムとして非常に重要なアプローチだが、問題はリードがないということではない。リードを発見し、フォローアップする体制は世界中にある。繰り返すが、新薬候補の探索活動を誰も行うべきではないと言っているのではない。仕事の内容をよく考えるべきだと言っているのだ。不確実な結果を伴う一連の課題にもっとふさわしい人々がいる。

同様に、例えば胸部X線をアルゴリズムによって自動的に分析する「AI」による手法は、将来的には価値がある可能性もあるため追求する必要があるが、期待を現実に合わせることが重要だ。今から1〜2年後に、AI分析を行う遠隔医療研究施設が設立されるかもしれない。だがこの春の時点で、新型コロナの診断を提供する「AIドクター」はまだ存在しない。

将来、アルゴリズムがもたらす予測と効率化が歓迎される分野であっても、現在の緊急事態では使えない。求められるのは賢さや斬新さではない。緊急事態では物事が慎重に進められ、三重にチェックされる必要がある。動きの速いスタートアップにとって最も魅力的で人気のあるアプローチは、数百万もの命がかかり、数千もの物事が相互作用するような世界的な危機にはほぼ適さない。

自動車メーカーがマスクや人工呼吸器の製造に工場を活用するのはありがたいが、新薬発見は期待していない。同様に、創薬に取り組んでいる人々がそれ以上のものであると期待するべきではない。AIは原理的に超人的な結果を出すという点から、魔法のようにとらえられる向きがある。以前にも述べたが「より良い」プロセスは、間違った答えをより早く出すだけということもある。

バイオテクノロジー産業におけるデジタル分野の最先端の研究は、基本的にはなくてはならない。だがその性質から、迫り来るヘルスクライシスの緩和には向いていない。見出しだけを読む一般市民も、テクノロジーの進歩がもたらす成果を当て込むテクノトピアンも、そのような期待を持つべきではない。

画像クレジット:Peter Zelei Images / Getty Images

新型コロナウイルス 関連アップデート

[原文へ]

(翻訳:Mizoguchi

公共スペースを自律的に監視するFluSenseシステムが病気の動向を追跡

総人口に対する有病率を正確に推定する際の障害の1つは、データのほとんどが病院からのもので、99.9%を占める病院以外の世界からのものではないことだ。FluSense(フルーセンス)は、公共スペースにおける人間の数や咳の回数を数えて保健当局に情報を提供するシステムだ。プライバシーを尊重し、自律的に動作する特徴を持つ。

もちろん、風邪やインフルエンザの季節は毎年やってくる。だが今年は深刻だ。例年のインフルエンザの季節と変わらないのは、患者数推定が病院やクリニックからの統計数値の分析に頼っている点だ。「インフルエンザ様疾患」や特定の症状を有する患者の統計については一元的に集計、分析される。一方で、多くの人が自宅にとどまったり、病気にもかかわらず通勤したりしている。そうした人々は捕捉されているのか。

こうした状況では「何がわかっていないのか」がわからないため、病気の動向に関する推定値の信頼性が低くなる。推定値はワクチンの生産や病院のスタッフ数の判断などに利用される。それだけでなく、推定値がバ​​イアスを含んでしまう可能性もある。病院に行く可能性が低く、病気でも仕事をせざるを得ない可能性が高いのはどんな人たちか。それは低所得で医療の恩恵を受けられない人々だ。

マサチューセッツ大学アマースト校の研究者らは、FluSenseと呼ぶ自律的システムでデータの問題を軽減しようと試みている。このシステムは公共スペースを監視し、人間を数え、咳に耳をすます。公共スペースにこのシステムをいくつか戦略的に配置すれば、広く蔓延するインフルエンザのような病気に関して多くの貴重なデータと洞察が得られる可能性がある。

Tauhidur Ra​​hman(トーヒジュール・ラーマン)氏とForsad Al Hossain(フォーサッド・アル・ホサイン)氏は、ACMジャーナルに掲載された最近の論文でこのシステムについて説明している。FluSenseの基本構成はサーモカメラ、マイク、人間と咳の音を検出するよう訓練された機械学習モデルを搭載したコンパクトなコンピューティングシステムだ。

まず明確にしておきたい点は、これは1人ひとりの顔を記録、認識するシステムではないということだ。焦点を合わせる目的で顔を検出するカメラのように、このシステムは顔と体が存在することだけを確認し、視野に入った人数情報を作成する。一方、検出された咳の数は人数、くしゃみ、発話の長さなどの数値と比較され、一種の「病気指数」すなわち1人1分あたりの咳の数の計算に利用される。

配置例(上)、FluSenseのプロトタイプのハードウェア(中)、サーモカメラからのサンプルアウトプットで、人間がアウトライン化された上でカウントされる(下)

これは確かに比較的簡単に計算できる値だが、病人が集まるクリニックの待合室のような場所でさえ、現状このような数値は手に入らない。病院のスタッフは、毎日咳の数を集計、報告するようなことはしない。このシステムはどんな種類の咳か識別するだけでなく、人がどれだけ密集しているかなどの視覚的なマーカーや、場所別の病気指数などの位置情報を提供することができる。

「FluSenseの健康監視ツールは、新型コロナウイルス感染症(COVID-19)やSARSなどのウイルス性呼吸器疾患や、季節性インフルエンザの感染拡大予測に用途を拡張できると考えている」とラーマン氏はTechCrunchに語った。「さまざまな場所での症状の動態を理解することで、新しい感染症の重症度を把握し、社会的距離の確保(social distancing)やワクチン接種などのターゲットを絞った公衆衛生上の介入実行につなげられる」

こうしたシステムにおいて、考慮すべき明らかな重要事項としてプライバシーがある。ラーマン氏は「独自のハードウェアを開発すると決めた理由の1つはプライバシーの問題だ」と説明した。「一部の人は既に理解しているかもしれないが、我々のシステムは既存のカメラシステムに統合することができる。これは決して小さくない利点だ」。

「研究者らは現場の医療従事者と大学の倫理審査委員会から意見を聴取し、センサープラットフォームが許容可能であること、患者保護の視点とも十分整合していることを確認した」とラーマン氏は語った。「すべての関係者がためらいがあると語ったのは、患者がいる空間で高解像度視覚画像を収集することだった」。

同様に音声分類器も、人間が発した音声そのものを超えるデータを保持しないように特別に開発された。そもそも機密データを収集しなければ漏洩することもない。

当面の計画は、マサチューセッツ大学アマースト校のキャンパスの「複数の大きな公共スペース」にFluSenseを設置してデータを多様化することだ。「我々は複数の都市にまたがる試験実施のための資金も求めている」とラーマン氏は述べた。

こうした病気指数はいずれ、インフルエンザの予測に使用される他の直接的または間接的な指標と統合される可能性がある。新型コロナウイルスの管理には少し間に合わないかもしれないが、保健当局が次のインフルエンザシーズンへ向けた計画改善に非常に役立つ可能性はある。

画像クレジット:Irina_Strelnikova / iStock / Getty

[原文へ]
(翻訳:Mizoguchi

エッジAI開発のエイシングが第一生命、未来創生ファンドから4億円を資金調達

エッジデバイスに組み込んで利用するAI技術を提供するエイシングは3月23日、第一生命保険および未来創生2号ファンドを引受先とした4億円の資金調達実施を発表した。今回の第三者割当増資は、2019年11月に発表したシリーズBラウンド調達の追加に当たり、ラウンド全体では7億円の調達となる。また同社創業からの累計では約9億円の調達金額となった。

エイシングが開発・提供するのは、エッジデバイス組み込み型のAIアルゴリズム「Deep Binary Tree(DBT)」をはじめとする、エッジAIのプロダクト群「AI in Real-time(AiiR)」。産業用ロボットやスマートフォン、コンピュータを搭載したクルマなどのエッジデバイスに組み込んで利用する「エッジAI」技術だ。

AiiRは軽量・インターネット接続不要で、低スペックなコンピューティング環境でも学習と予測が完結できる点が特徴。エッジでの学習、調整のいらない逐次学習を可能としており、クラウドを介する必要がないため高速で、リアルタイムな学習やデータ処理を実現している。

エイシングでは現在、オムロンやデンソー、JR東日本といった大手企業との間で、PoCおよび共同開発を実施している。エイシング代表取締役CEOの出澤純一氏によれば「PoC実施は30件前後、共同開発も5〜6件と順調に進んでいる」とのことだ。

また技術ライセンス提供も実現し、1社とは既に契約締結が完了したという。ライセンスについては、ほか数社とも契約締結を目指しており、「サブスクリプションモデルや受託モデルではなく、当初から考えていた技術ライセンス提供というモデルでの市場展開が進められそう」と出澤氏は話している。

調達資金にの使途については「技術力の高い人材や、自律的にビジネスデベロップメントができる人材の採用を進める。顧客対応や新技術の研究開発も加速・強化する」(出澤氏)とのこと。さらに「海外展開も視野に入れており、ヨーロッパ市場への進出も目指す」と出澤氏は語っていた。

コンピュータービジョンを利用して製品写真を重要な属性へと分解するGlisten

今日この時代になっても、新しい服を探すための最善の方法が、いくつかのチェックボックスをクリックして、果てしなく続く写真をスクロールしていくやり方だというのには驚かされる。どうして「グリーンの模様のスクープネックドレス」と検索して、結果をみることができないのだろうか? Glistenは、まさにこの課題を解決しようとしているスタートアップだ。その技術はコンピュータービジョンを使用してどんな写真からでも、写っている製品の最も重要な属性を理解して抜き出すことができる。

えっ、そんな機能もうあるのではと思ったかもしれない。ある意味それは正しいが、それほど役に立っているとは言えない。共同創業者のSarah Wooders(サラ・ウッダース)氏は、MITに通い自分のファッション検索プロジェクトに取り組んでいる最中に、この問題に遭遇した。

「オンラインショッピングを先延ばしにしていた私は、そのときVネックのクロップシャツを探していたのですが、まず見つかったのは2着だけでした。しかし、ずっとスクロールしていくと、さらに20着ほど見つかりました」と彼女は言う。「そのとき私は商品が極めて一貫性のない方法でタグ付けされていることに気づきました。消費者が見るデータが非常に煩雑な場合、おそらくその裏側はもっと悪い状況になっています」。

明らかになっているように、コンピュータビジョンシステムは、犬種の識別から表情の認識まで、あらゆる種類の画像の特徴を非常に効果的に識別するように訓練されてきている。ファッションやその他の比較的複雑な製品に関しても、似たようなことを行うことができる。画像を見て、信頼レベルを付加された属性のリストを生成することが可能なのだ。

そのため、特定の画像に対して、次のようなタグリストが生成できる。

想像できるとおり、これは実際とても便利だ。しかし、それはまだ多くの望ましい結果を置き去りにしたままなのだ。システムは「maroon」(栗色)や「sleeve」(袖)が、この画像に存在していることは認識しているが、それが実際に何を意味するのかは理解していない。システムにシャツの色をたずねてみても、人間が属性のリストを手作業で整理して、タグのうち2つは色の名前、これらはスタイルの名前、そしてこちらはスタイルのバリエーションのことといった具合に教えてやらない限り、システムはうまく答えることはできないだろう。

1つの画像だけならそうした作業を手で行うのは難しくないものの、衣料品の小売業者は膨大な製品を扱い、それぞれに複数の写真が関連し、毎週新しいものが入荷してくる状況なのだ。そうしたタグをコピー&ペーストで延々と整理し続けるインターンに、あなたはなりたいだろうか? そんなことはまっぴらだろうし、実際誰もやろうとはしないだろう。この点こそが、Glistenが解決しようとしている問題だ。コンピュータービジョンエンジンのコンテキスト認識を大幅に向上させて、その出力をはるかに便利にするのだ。

同じ画像をGlistenのシステムで処理すると、以下のような結果になるだろう。

ずいぶん改善されていないだろうか。

「私たちのAPIのレスポンスは実際に、ネックラインはこれ、色はこれ、パターンはこれという形式で返されるのです」とウッダース氏は説明する。

この種の構造化データは、データベースに容易に挿入することができ、高い信頼性とともに問い合わせを行うことができる。ユーザー(ウッダース氏が後ほど説明したように、必ずしも消費者である必要はない)は、「長袖」(long sleeves)と指定すれば、システムが実際に衣服の「袖」(sleeves)を見て、それが「長い」(long)ものを選ぶことを知っているので、組み合わせてマッチングを行うことができるのだ。

今回のシステムは、成長を続ける約1100万種類の製品イメージと、それに対応した説明文ライブラリでトレーニングされた。システムは自然言語処理を使用してそれらの説明文を解析し、何が何を参照しているかを把握する。こうすることで、学習モデルが「formal」を色のことだと思ったり、「cute」が利用されるシーンのことだと思ったりすることを防ぐための、重要なコンテキスト上の手がかりが与えられる。だが、データを単に投入してモデルにそれを判断させれば良いといえるほど、物事は単純ではないのではと考えるあなたは正しい。

以下に示したのは、説明のために理想化されたバージョンの概要だ。

「ファッション用語には多くのあいまいさがあって、それは間違いなく問題です」とウッダーズ氏は認めるものの、それは克服できない種類のものではない。「顧客に出力を提供するときには、各属性にスコアを付けています。そのため、それがクルーネックなのか、それともスクープネックなのかがあいまいな場合には、正しくアルゴリズムが機能している限り、双方にスコアとして大きな重みを付加します。確信が持てない場合には、信頼性スコアが低くなります。私たちのモデルは、現場の人たちがどのように製品にラベル付けしたか、その結果の集合で訓練されていますので、みんなの意見の平均値を得られることになります」。

当初のモデルは、ファッションと衣類全般を対象としていたが、適切なトレーニングデータを使用すれば、他の多くのカテゴリーに適用することもできる。同じアルゴリズムで、自動車や美容製品などの特徴を見つけることができるのだ。例えばシャンプーボトルを探す場合な、袖(sleeves)の代わりに適用シーン、容量、髪質、そしてパラベン(防腐剤であるパラオキシ安息香酸エステル)含有の有無などを指定できる。

普通の買い物客たちは放っておいてもGlistenの技術のメリットを理解してくれるだろうが、同社は自分たちの顧客が、販売の現場の手前にいることに気がづいた。

「時間が経つにつれて私たちが気づいたのは、私たちにとって理想的な顧客とは、乱雑で信頼性の低い製品データを持っていることに、苦痛を感じているような人たちだということでした」とウッダース氏は説明する。「それは主に、小売業者たちと協力しているハイテク企業なのです。実際、私たちの最初の顧客は価格の最適化を行う会社で、また別の顧客はデジタルマーケティング会社でした。これらは、アプリケーションとして当初私たちが考えていたものよりも、かなり外れた場所にある応用なのです」。

ちょっと考えてみれば、その理由が理解できるだろう。製品についてよく知れば知るほど、消費者の行動や傾向などと関連づける必要があるデータが増えていく。単に夏のドレスの売上が戻ってきていることを知っているよりも、七分袖の青と緑の花柄のデザインの売上が戻ってきていることを知っている方が良い。

Glistenの共同創業者サラ・ウッダース氏(左)とAlice Deng(アリス・デング)氏

競争相手は主に、企業内のタギングチーム(私たちが誰もしたくないような手作業のレビューを行う)や、Glistenが生成するような構造化データの生成を行わない汎用コンピュータービジョンアルゴリズムである。

来週行われるY Combinator のデモデー前にも関わらず、同社はすでに月々5桁(数万ドル、数百万円)の定常収益を得ているが、現時点では彼らの販売プロセスは、彼らが役に立つと思った人々への個別のコンタクトに限定されている。「ここ数週間で、非常に多くの売り上げがありました」とウッダーズ氏は語る。

ほどなくGlistenは多くのオンライン製品検索エンジンに組み込まれることになるだろうが、理想的には利用者がそれに直接気がつくことはないだろう。ただ単に探しものがはるかに見つかりやすくなったように思えるようになるだけだ。

関連記事:いまさら聞けないコンピュータービジョン入門

原文へ
(翻訳:sako)