バーチャル美容アプリYouCam MakeupのPerfect Corpが52億円調達

化粧品への出費は、普段なら経済危機も乗り越えるものだが、新型コロナウイルスのパンデミックで事情は変わった(The Guardian記事)。ステイホーム命令とマスクのお陰で、化粧をしたいという人々の欲求が低下してしまったからだ。これが小売業者のオンライン戦略を加速させ、店頭サンプルを使わずに客の関心を惹く新しい方法が求められるようになった。そこで、Perfect Corp(パーフェクト)などが開発する化粧品の仮想お試し技術が、デジタル化における重要は役割を担うことになる。同社は米国時間1月6日、Goldman Sachs(ゴールドマン・サックス)主導によるシリーズC投資5000万ドル(約52億円)を調達したことを発表した。

台湾の新平市を拠点とし、CEOのAlice Chang(アリス・チャン)氏が率いるPerfect Corpは、消費者の間では、その美容アプリYouCam Makeup(ユーキャム・メイクアップ)で最もよく知られている企業だろう。アプリでは、300を超える世界の化粧品ブランドの仮想サンプルの「お試し」が可能だ。そこには、Estée Lauder(エスティローダー)やL’Oréal Paris(ロレアルパリ)といった美容コングロマリットが所有するブランドも含まれる。2014年にローンチされたYouCam Makeupは、現在、月間アクティブユーザー数が4000万人から5000万人を数え、自撮り画像の拡張現実(AR)化から、美容インフルエンサーによるライブ配信やチュートリアル、ソーシャル機能、さらに肌の状態を評価する「スキンスコア」機能などを搭載するまでに成長した。

Perfect Corpの技術は店頭販売、eコマース、ソーシャルメディアツールにも活かされている。たとえば2020年12月にローンチされた、Google(グーグル)検索のための拡張現実を利用した新しいお試しツールの開発にも、この技術が役立てられている(以前はユーチューバーの化粧品お試し機能にも使われていた)。また同社は、Snapchat(スナップチャット)に化粧品お試し機能を統合する目的でSnap(スナップ)との共同開発も行っていた。

今回の資金調達により、Perfect Corpの調達総額は1億3000万ドル(約134億円)となった。それ以前に発表された資金調達に、2017年10月のシリーズA投資2500万ドル(約2億5800万円)がある。新たなシリーズC投資による資金は、多様な販売チャンネルのための技術開発の推進と、海外拠点の拡大に使われる(現在は11の都市で事業展開中)。

記者発表で、Goldman Sachsマーチャントバンキング担当責任者のXinyi Feng(フェン・ジンイ)氏は「人口知能、機械学習、拡張現実を通してテクノロジーを美容業界に統合することで、デジタル販売チャンネルの増大、パーソナライズの拡大、消費者のエンゲージメントの深化など、多大な可能性が開放されます」と述べている。

またPerfect Corpは、多様性のある国際的起業家を支援しようとGoldman Sachsが行っている5億ドル(約515億円)規模の投資活動であるLaunch with GS(ローンチ・ウィズ・GS)に参加する予定だ。

同社は、顔のランドマーク検出技術を利用している。化粧品のお試しがリアルに見えるよう、ユーザーの顔の上に「3Dメッシュ」を生成するというものだ。プライバシーの面では、最高戦略責任者Louis Chen(ルイス・チェン)氏がTechCrunchに話したところによると、写真や生体情報を含む個人情報は一切保存されず、すべての演算処理はユーザーのスマートフォン内で行われるという。

Perfect Corpの顧客の大多数、およそ90パーセントが、化粧品とスキンケアのブランドだ。残りは、ヘアケア、毛染め、アクセサリーのブランドとなる。Perfect Corpの技術が目指すのは、店頭で化粧品を試したときの体験をリアルに再現することだとチェン氏はいう。たとえばユーザーが口紅をバーチャルで塗ると、自分の唇に色がついて見えるだけでなく、マット、グロス、シマー、メタリックといったテクスチャーもわかる(同社が現在提供している口紅のテクスチャーは11種類あり、業界最多だとチェン氏は話す)。

パンデミックで化粧品の売上げは下がったが、反対にスキンケアは伸びた。NPDグループの2020年9月の報告には、米国人女性は2019年と比べて、より多くの種類の製品を購入し、より頻繁に使用ていることが示されている。各ブランドがその傾向を活かせるよう、Perfect Corpは先日、AI Skin Diagnostic solution(AI肌診断ソリューション)というツールをローンチした。同社によれば、これは皮膚科医の検証を受けて水分、シワ、目の下のクマなど、8つの指標で顔の皮膚の状態を評価するというものだ。このツールは、スキンケア製品ブランドのウェブサイトで使用でき、ユーザーに合った製品を教えてもらえる。

新型コロナウイルス(COVID-19)のパンデミック以前、YouCam Makeupと同社の拡張現実お試しツールは、主に自撮り写真やフィルターを使い慣れているZ世代の若者を惹きつけていた。だがパンデミックによって、化粧品とスキンケアのブランドは、この技術の導入をすべての顧客に向けて加速せざるを得なくなった。美容業界における新型コロナウイルスの影響に関するMcKinsey(マッキンゼー)の報告書には、こう記されている。「安全と衛生への不安により、製品のテストと相談員の直接対応が基本的に不可能となった現在、テスト、発見、カスタマイズのための人工知能の利用を加速させる必要がある」。

「ブランドの地理的条件にもよりますが、過去において、事業のおそらくわずか10%、20%に満たない程度が消費者への直販でした。残りの80%は小売流通業者や提携流通業者を通じてのものです。そのネットワークはすでに2020年のうちに構築されています」とチェン氏。しかし、美容品メーカーは、現在、特にeコマースへの投資を強めており、Perfect Corpはその技術をSaaSとして提供することで、そこを活用している。

パンデミックの間、Perfect Corpが同社の製品を応用したもうひとつのかたちに、リモート相談ツールがある。通常はサロンやUltra(ウルトラ)などの店舗で働いている化粧とスキンケアの相談員が、ビデオ通話を利用してユーザーに化粧のやり方を実演して見せるというものだ。

「私たちが現在開発しているものは、どれをとっても単一の技術で構築されるものではありません」とチェン氏。「いまでは必ず動画配信機能が組み合わされています」。これには1対1のチャットに限らない。中国で大人気となり海外にも広がりつつあるライブショッピングや、YouTube(ユーチューブ)やSnapchatに組み込まれているAR技術なども含まれる。

関連記事
YouTubeのAR機能でビデオを見ながら仮想メイクを試せる
新型コロナパンデミックで米国におけるeコマースへのシフトが5年分加速

カテゴリー:ネットサービス
タグ:Perfect Corp資金調達美容メイクアップ仮想現実台湾

画像クレジット:Perfect Corp.

原文へ

(翻訳:金井哲夫)

OpenAIのDALL-Eは言葉による指示で「それらしい」画像を作り出す

OpenAI(オープンエーアイ)の奇妙ながら興味が惹かれる最新作はDALL-E(ダリー)だ(OpenAIリリース)。ざっくりいえば「GPT-3の画像版」といったところ。「蝶ネクタイをしたネコ」やら「チュチュを着て犬を散歩させる大根」など、わかりやすい言葉で表現できるものなら何でも、イラスト、写真、レンダリングといったお望みの手法で描き出してくれる。とはいえ、写真素材サービスやイラストの死亡記事を書くのはまだ早い。

例によって、OpenAIの新発明の解説は平易で、技術的になり過ぎるところがない。ただし、少々文脈を整理しながら読む努力は必要だ。

彼らがGPT-3で作り出したものは、お題をもらってそれに応じた内容の話を組み立てるAIだ。たとえば「森の中で魔女に出会った子どもの物語」といえば、それなりの物語を作り出す。もう一度ボタンを押せば、別のかたちで書き直す。それを何度でも繰り返せる。

その試行の中から、良いものが生まれることがある。辻褄が合わない話もあれば、人間が書いたものと見分けがつかないような話もあったりする。だが、まったく意味の通らないものや文法的に間違ったものはないため、いろいろな用途に応用できる可能性がある。現在、数多くのスタートアップや研究者たちが、その利用法を模索中だ。

DALL-E(ダリとウォーリーをかけ合わせた名前)は、それを一歩進めたものだ。文章から画像への変換は、長年にわたりさまざまなAIエージェントで試されてきた。程度の差こそあれ、着実に成功率を高めている。このエージェントの場合は、GPT-3から提供された言語理解と文脈、それに与えられた指示に従ったもっともらしい画像を生成する基本構造を利用している。

OpenAIはこう解説している。

GPT-3は、大規模ニューラルネットワークにさまざまな文章生成タスクの実行を指示する役割を、言語が担えることを証明した。画像GPTは、同じ種類のニューラルネットワークを、高忠実度の画像生成に利用できることを示した。私たちはこの2つの発見を発展させ、言語を用いた視覚的概念の操作がすでに手の届くところにあることを証明しようと考えた。

つまり、この種の画像生成器は、自然で簡単な指示で何をすべきかを伝えるだけで操作できるようになる、と彼らは話しているのだ。もちろん、脳のニューロンに刺激を与えるように、システムの内部を深く探り、色を示すトークンを特定して、その経路を解析して起動し、色を変更するという方法もある。だが、社内のイラストレーターに緑ではなく青系の絵を製作してほしいときには、絶対にそんなことはしない。ただ「緑のクルマ」ではなく「青いクルマで」というだけで済む。

DALL-Eにはそれができる。簡単な指示をよく理解して、大きく間違えることは滅多にない。もっとも、何百何千回と試みた中から最高のものを取り出したとしても、ちょっと……どころかずい分ズレてるといわなければならないが。後になるほどズレてくる。

OpenAIの記事では、同じ内容でも少しだけ違う指示に対してシステムがどう反応するかを、大量のインタラクティブな実例で示している。結果は納得できるものであり、ほぼ上々の仕上がりとなる。だが実は、こうしたシステムには大変に脆い一面がある。DALL-Eもある意味そうだと研究者たちは認めている。たとえば「五角形をした緑の革の財布」と指示をして期待どおりのものが作られることもあれば、「五角形をした青いスエードの財布」になることもあり、研究者は悪夢にうなされる。なぜか?これらのシステムは基本的にブラックボックスであるため、説明は難しい。

画像クレジット:OpenAI

しかし、DALL-Eはそうした変化に驚くほど強い。何を指示しても、かなり近いものを作る安定感がある。ドーナッツ型のワカモレ、シマウマ柄の球、小さな赤い積み木の上に乗った大きな青い積み木、ハッピーなカピバラの正面図、悲しいカピバラの等角図などなど。みなさんもサイトで自由に試すことができる。

またDALL-Eは、予期しないしかし便利な能力も示している。たとえば、まったく同じ(実在しない)ネコのスケッチを何枚も描けという指示を理解するために、直感的な論理を使い、オリジナルを上、スケッチを下に表示した。特別なプログラミングはしていない。「このような能力が生まれるとは予想していませんでした。ニューラルネットワークに変更を加えたり、そうするようトレーニング手順を変えたこともありません」とのこと。素晴らしい。

おもしろいことに、OpenAIのもうひとつの新システムCLIPは、DALL-Eと合わせて使うことで、与えられた画像の理解とランクづけを行っていた。かなり技術的で理解が難しい話なのだが。CLIPの詳細はこちらをどうぞ(OpenAIサイト)。

この能力が示唆するものは、多岐にわたる。OpenAIでは次のように述べているが、あまりに多くて奥が深いので、ここでは触れないでおく。

将来、DALL-Eのようなモデルが、特定の作業手順や職業における経済的影響といった社会問題にどう対処できるか、モデルの出力に偏向がないか、そして長期的にはこの技術が暗示する倫理的課題について分析したいと考えている。

現在は、GPT-3と同様、この技術は驚異でありながら、難し過ぎて、これに関連する明確な将来予測は立てづらい。

もっともこれが生み出す作品の中に、本当の意味で「仕上がった」と感じさせるものはほとんどない。つまり、私が今後書く予定の記事のトップを飾る画像として無修正でそのまま使える作品を作れと、これに命令する気にはなれないということだ。ちょっと見ただけでもAI的キテレツさがぼろぼろ出てくる。ここはJanelle Shane(ジャネル・シェイン)の十八番だが。やがてその粗削りな部分はスッキリ磨かれるようになるだろうが、それでも安心はできない。GPT-3の文章を、編集を一切加えずに人が書いた作品と入れ替えることが不可能であるのと同じだ。

たくさん作らせて、いいものを拾い出すという方法がいいようだ。下の図がそれを示している。

作成総数Xの中から良いものを8つ選んでいる。右に行くほど作成数が増える(画像クレジット:OpenAI)

だがそれは、OpenAIのこの業績を貶めるものではない。飛び抜けておもしろく力強い成果だ。同社の他のプロジェクトと同じく、近いうちに、もっとずば抜けた面白いものに発展することは間違いない。

関連記事:OpenAIがテキストベースのAI機能利用が簡単になる汎用APIを開発

カテゴリー:人工知能・AI
タグ:OpenAI

画像クレジット:OpenAI

原文へ

(翻訳:金井哲夫)

動画解析AIでコミュニケーションの質を高めるI’mbesideyouが1.15億円調達

動画解析AIでコミュニケーションの質を高めるI'mbesideyouが1.15億円調達

動画解析AIでオンラインコミュニケーションの質を高めるI’mbesideyouは1月4日、シードラウンドにおいて1.15億円の資金資金を発表した。引受先はBeyond Next Ventures、借入先は日本政策金融公庫。

調達した資金により、教育業界向け既存SaaSソリューションの強化に加え、グローバル市場への事業展開に向けた新プロダクトの研究開発、ディフェンシブアセットとしての国際特許ポートフォリオの充実、売上拡大のための社内体制の強化を図っていく。

同社は、オンラインコミュニケーションに特化したマルチモーダル AIを提供する世界で唯一の「CORONA NATIVE COMPANY」として2020年6月に創業。コロナ禍で急増したオンラインコミュニケーションの質を高め、ひとりひとりの個性に寄り添ったコミュニケーションにするためのプロダクト開発・マーケティング・営業などの活動を自己資金にて続けきた。

より多くの方にサービスを届けていくため、シードラウンドでの資金調達を行い、さらなる事業拡大に踏み込んでいく意思決定をしたという。

関連記事
「Incubate Camp 13th」の総合1位は、次世代の経営管理クラウドサービスを開発するログラス

カテゴリー:人工知能・AI
タグ:I’mbesideyou資金調達(用語)日本(国・地域)

公益事業の未来には自動化と機械学習が不可欠と米大手電力会社National Gridは考える

コーポレートベンチャーキャピタル企業のポートフォリオが、親会社の戦略的優先事項のシグナルと考えられるならば、National Grid(ナショナル・グリッド)は、公益事業の未来として自動化に大きな期待を寄せているようだ。

約2000万人の顧客基盤を持つ米国最大の民間公益事業会社の1つが、自動化と機械学習に重点を置いていることは、非常に重要な意味を持つ。そしてそれは、この産業がどこに向かっていくのかを示している。

ナショナル・グリッドのベンチャー企業であるNational Grid Partners(ナショナル・グリッド・パートナーズ)は、その立ち上げ以来、機械学習を事業の中核に据えた16のスタートアップ企業に投資してきた。最近では、機械学習アルゴリズムを使用して衛星画像を分析し、ナショナル・グリッドの送電線に植生が侵入するのを察知することで停電を回避するAI Dashを支援している。

もう1つの最近の投資先であるAperio(アペリオ)は、重要なインフラを監視するセンサーから得たデータを使用して、劣化やサイバー攻撃によるデータ品質の低下を予測する企業だ。

実際、同社が行った1億7500万ドル(約181億円)の投資のうち、約1億3500万ドル(約140億円)が機械学習をサービスに活用している企業への投資となっている。

「AIはエネルギー業界が積極的な脱炭素化と分散化の目標を達成するために、不可欠なものになるでしょう」と、ナショナル・グリッドの最高技術・イノベーション責任者であり、ナショナル・グリッド・パートナーズの創設者兼社長でもあるLisa Lambert(リサ・ランバート)氏は述べている。

2020年は新型コロナウイルス流行のために、ゆっくりとしたスタートを切ったナショナル・グリッドだが、投資のペースは回復し、今年の投資目標を達成する軌道に乗っている、とランバート氏はいう。

ランバート氏によると、この業界では、いまだにほとんどがスプレッドシートと集合的な知識に基づいて運営されており、従業員の高齢化が進み、退職した際には不測の事態に備えた計画もないため、近代化は非常に重要な課題であるという。そのような状況が、ナショナル・グリッドや他の公益事業会社に業務の自動化を迫る要因となっている。

「現在、公益事業部門のほとんどの企業が、効率性とコストの理由から自動化に取り組んでいます。今日では、ほとんどの企業がすべてをマニュアル化していますが、いまだに業界としては、基本的にネットワークをスプレッドシートと従業員のスキルや経験に基づいて運営しています。そのため、そのような人たちが退職してしまうと深刻な問題が発生します。Next Grid Alliance(ネクスト・グリッド・アライアンス)で話を聞いたすべての公益事業者は、自動化とデジタル化を最優先に考えています」。

これまでに自動化されてきた作業の多くは、ビジネスプロセスの基本的な自動化が中心だった。しかし、様々な活動を自動化してバリューチェーンを強化する新しい技術が現れていると、ランバート氏はいう。

「機械学習は次のレベル、つまりアセットの予測的な維持として、顧客のために提供されるものです。たとえばUniphore(ユニフォア)では、顧客とのあらゆる相互関係から学習し、それをアルゴリズムに組み込み、次に顧客に会ったときには、より良い結果が得られるようにします。これが次世代です」と、ランバート氏は語る。「すべてがデジタル化されれば、アセットからも人間からも、それらとの関係において学習することができるようになります」。

新しい機械学習技術に対するもう1つの需要源は、電力会社が急速に脱炭素化を進める必要性にあると、ランバート氏はみている。化石燃料からの脱却には、送電網の運用と管理においてまったく新しい方法が必要になる。人間がループの中にいる可能性が低くなるような方法だ。

「今後5年間で、ネットゼロの世界を実現するためには、電力会社は自動化と分析を正しく行う必要があります。つまりこれらのアセットを別の方法で運用する必要があるということです」と、ランバート氏は語った。「風車やソーラーパネルは、従来の配電網(の一部)ではありません。従来のエンジニアの多くは、おそらく革新の必要性について考えていないでしょう。なぜなら、彼らは数十年前にアセットが構築された時代に関連するエンジニアリング技術を発展させているからです。その一方で、(風車やソーラーパネルのような)再生可能なアセットは、すべてOT / ITの時代に構築されているのです」。

カテゴリー:人工知能・AI
タグ:National Grid公益事業機械学習

画像クレジット:dowell / Getty Images

原文へ

(翻訳:TechCrunch Japan)

自分だけのAIライフパートナーと対話できる「PATONA」アプリのCapexが総額1億円を調達

自分だけのAIライフパートナーと対話できる「PATONA」アプリのCapexが総額1億円を調達

Capexは12月24日、第三者割当増資および融資による合計1億円の資金調達を2020年7月までに発表した。引受先は東京大学エッジキャピタル(UTEC)。借入先は日本政策金融公庫。調達した資金をもとに人材採用、プロダクト開発、および自然言語処理を活用した対話エンジンの研究開発を行っていく。

また、ライフパートナーアプリ「PATONA」の提供開始を明らかにした。iOS版のみ公開しており、Android版もリリース予定。

自分だけのAIライフパートナーと対話できる「PATONA」アプリのCapexが総額1億円を調達

PATONAは、自分だけのライフパートナーAI「パトナ」を提供するスマホアプリ。パトナは話せば話すほどユーザーについて学び、どんどんユーザーに合った存在になっていくという。どんな時でもそばにいて、いつでもどこでもユーザーを支えるとしている。

PATONAの主な機能は、AI対話機能、着せ替え機能、コース機能の3点。AI対話機能では、話せば話すほどユーザーについて学び、最適な対話を行う。着せ替え機能は、ユーザーの好みにパトナの見た目を変更できるというもの。コース機能では、メンタルヘルスや日常生活に役立つオリジナルコンテンツを提供する。

自分だけのAIライフパートナーと対話できる「PATONA」アプリのCapexが総額1億円を調達

コロナ禍によりコミュニケーションが減少やメンタルヘルスの課題が浮き彫りになる中、Capexは、ユーザーの方々がより安心した日常生活を送れるよう、ユーザーの気持ちに寄り添い、支えることができる存在の実現を目指しPATONAの開発・提供を行っている。引き続き、対話体験の向上および、機能・コンテンツを拡充し、ユーザーの方々の生活に役立てるよう開発していくとしている。

UTECは、「Science/Technologyを軸に、資本・人材・英知を還流させ、世界・人類の課題を解決するためのフロンティアを開拓する」というミッションを掲げるベンチャーキャピタル。東京大学が承認する「技術移転関連事業者」として、スタートアップ企業を通じ大学の「知」を社会に還元すべく、優れた知的財産・人材を活用するスタートアップ企業に対して投資を行う。

2019年設立のCapexは、「人とシステムの共生を実現、普及し、人類の機能を拡張する。」というビジョンのもとパートナーAIアプリ「PATONA」の企画開発を行うスタートアップ。独自のAI対話エンジンおよびキャラクター構築基盤を有しており、引き続き人とシステムの共生を実現、普及するためのプロダクト開発を推進している。

関連記事
AIが思考と感情を分析しメンタルケア手法「ジャーナリング」を支援するmuuteアプリ
コロナ禍で急成長の瞑想アプリ「Calm」が日本上陸、日本語オリジナルコンテンツも提供開始
チャット相談サービス「メンヘラせんぱい」がキャバ嬢と臨床心理士に相談できる新プランを提供
メンタルヘルスAIサービス開発のemolと第一生命がアプリ内会話内から保険商品を推薦する実証実験を開始
2020年版メンタルヘルステックカオスマップをemolが公開

カテゴリー:人工知能・AI
タグ:Capex資金調達(用語)新型コロナウイルス(用語)PATONAメンタルヘルス(用語)日本(国・地域)

Googleが「センシティブな話題」の研究に対する締め付けを強化しているという

Google(グーグル)は目下、AIにバイアスがあると警告した研究員を解雇して非難されているが、米国時間12月23日のReutersの報道によると、研究者がAIについて書くときには「ポジティブな口調」を求められ、また「センシティブな話題」に触れる研究については、追加のレビューを受けるように求められているという。

Reutersが同社の研究者と内部文書を引用して報じたところによると、Googleは2019年に、特定のテーマに関する論文を対象とした追加調査を実施したほか、研究の後期段階で幹部による干渉を増やしたのだという。

Timnit Gebru(ティムニット・ゲブル)博士のケースは、まさにそれに該当したのだろう。GoogleのAI研究員である彼女の辞任は、彼女のチームが行っていた仕事をめぐる彼女と上司との摩擦が原因の混乱した状況で強制されたもののようだ。これについて現在、ゲブル氏とGoogleにコメントを求めている。

Reutersが閲覧した内部ウェブページによると「センシティブな話題」の例として「石油産業、中国、イラン、イスラエル、COVID-19、ホームセキュリティ、保険、位置情報データ、宗教、自動運転車、通信、およびウェブコンテンツを推奨またはパーソナライズするシステム」といったトピックが含まれているという。

これらの問題の多くが実際にセンシティブなものであることは明らかだが、倫理委員会、査読、その他の通常の研究統制の存在を考えると、研究者に注意を払うよう助言することは不要に思える。Reutersの取材に応じた研究者の1人は、Googleからのこの種のトップダウン干渉は、近いうちに「検閲という深刻な問題」になると警告している。

そもそも、より本質的な問題は、Googleにおける重要な研究が、公表されるかされないかも不確定な比較的曖昧な状況で、企業の支援の下に行われていることだ。大規模な非公開の研究機関や組織化された科学研究の歴史は長いが、しかしFacebook(Facebook)やGoogle、Apple(アップル)、Microsoft(マイクロソフト)などの企業はAIのような分野に対して巨大な影響を及ぼしており、彼らは利益を生む技術への批判を避けつつ、もっぱらその有益性を屋根の上から叫んでいるのだ。

関連記事
GoogleのAI倫理研究チームの共同リーダーが部下宛てメールが原因で解雇されたと語る
グーグルCEOがAI倫理研究チームのゲブル博士辞任の真相調査を要求

カテゴリー:人工知能・AI
タグ:Google

画像クレジット:TechCrunch

原文へ

(翻訳:iwatani、a.k.a. hiwa

DeepMindのAI「MuZero」はルールを教わらなくても独学でゲームをマスターする

DeepMind(ディープマインド)は、AIがゲームの達人になれることに加え、ルールを教わらなくても強くなれることを証明するという目標を立てていたが、最新のAIエージェントMuZero(ミューゼロ)は、見た目はシンプルながら戦略が複雑な囲碁、チェス、将棋といったゲームで達成しただけでなく、見た目に複雑なAtari(アタリ)のゲームでもそれを実証した。

DeepMindの初期のAIの成功例は、少なくとも、有望な次の一手を示す膨大な決定木の中を、非常に効率的にナビゲートできるという一面が功を奏していた。囲碁やチェスでの決定木は、駒の動かし方や、この手を打つと次に何がどうなるかといった、非常に厳格な法則によって規定されている。

囲碁の世界チャンピオンを下したAIのAlphaGo(アルファゴ)は、ゲームのルールを理解し、しっかり頭に(というかメモリーに)刻みつつ、人同士の対局や人と自身との対局を研究して、最良の手や戦略を編みだしていた。その後継者であるAiphaGo Zero(アルファゴ・ゼロ)は、人間のデータは使わず、自己対局だけでそれをやってのけた。AiphaZero(アルファゼロ)は、2018年にそれと同じことを囲碁、チェス、将棋でも行い、単一でこれらすべてのゲームに熟達したAIモデルとなった。

しかしこれらのケースは、あらかじめAIにゲームの明確で不動のルールを教え込み、ルールに基づくフレームワークを構築して、そこから戦略を組み立てている。こう考えてほしい。ポーンはクイーンに成れることを教わっていれば、最初からそれを想定した計画を立てることができる。しかし、自分でそれを発見しなければならないとなれば、戦略はまったく違ったものになる。

この表から、それぞれのモデルがどのように基礎知識を獲得したかがわかる(画像クレジット:DeepMind)

この最新研究に関する同社のブログ記事にも書かれているが、AIに事前にルールを教えてしまうと、「複雑すぎて単純な法則に落とし込めない現実世界の雑多な問題に対応できなくなる」という。

だが、同社の最新型であるMuZeroは、前述のゲームがプレイできる上に、Atariのいろいろゲームもプレイできる。もちろん、ルールの説明書は一切与えられずにだ。この最新モデルは、Atariのゲームを、ごく基本的なルールすら教わることなく、どれも自分自身の体験(人のデータは使用しない)からプレイ方法を学ぶ。

ルールから最良のシナリオを描き出す代わりに(なぜなら不可能だからだ)、MuZeroはゲーム環境のあらゆる側面を取り上げ、観察して、それが重要か否かを判別する。何百万ものゲームを通して、それはルールの他にも、ポジションの総合的な価値、先へ進む際の基本方針、自身の行動の評価方法などを後から学ぶ。

特に自身の行動の評価能力は、自身の失敗から学ぶようになっている。前に戻り、別のアプローチでやり直してみることで、ポジションや方針の評価能力を磨いていく。

DeepMindが開発したAtariの57本のゲームに優れたモデルAgent57(エージェント57)を覚えておいでだろうか。MuZeroはそのAIの最大の利点を受け継ぎ、AlphaZeroの最も優れた部分と合体させた。MuZeroは、ゲーム環境全体をモデル化せず、意志決定に影響をおよぼす部分にだけ集中するという点で、そしてAlphaGoから受け継いだ、純粋に自身の試行と現場で得た知識だけに依存したルールのモデル化に立脚しているという点で、以前のものとは違っている。

ゲームの世界を理解することで、MuZeroは、Atariのゲームの多くがそうであるように、部分的にランダムで見た目に複雑な世界であったとしても、効率的に行動計画が立てられるようになる。そしてそれがAIを、あらゆる詳細事項を事前に教えられなくとも周囲の世界を理解し、安全に知的に現実世界と関わりが持てる存在へと導く(とはいえ、「人を傷つけてはいけない」などいくつかのルールは厳格に教えておく必要はあるが)。研究者の1人がBBCに語ったところによると、チームは現在、MuZeroがビデオ圧縮を改善できるかを見極める実験に着手しているという。明らかに、「Ms. Pac-Man(ミズ・パックマン)」とはまったく違う課題だ。

MuZeroの詳細は、12月23日にNature誌で発表されている

関連記事:DeepMindのAgent57 AIエージェントがATARIの57本のゲームで人間に勝利

カテゴリー:人工知能・AI
タグ:DeepMindゲームAtari

画像クレジット:DeepMind

原文へ

(翻訳:金井哲夫)

AI駆動エネルギースタートアップの英オクトパスが、東京ガスから208億円の投資を受けて評価額2000億円超え

チャレンジャーバンクという言葉を耳にしたことはあるだろうか?今度はチェレンジャーエネルギーサプライヤーの登場だ。英国のOctopus Energy(オクトパス・エナジー)は、合弁会社の立ち上げに向けて、9.7%の株式と引き換えに東京ガスから1億5000万ポンド(約208億円)の出資を受けた。この結果同社の評価額は15億ポンド(約2082億円)となった。合弁会社の株式の30%はOctopusが保有し、過半数を東京ガスが保有する。これまでの5年間の運営を経て、Octopusは、British Gas(ブリティッシュ・ガス)のオーナー企業であるCentrica(セントリカ)の評価額に近づいている。

Octopusは、革新的なAIとデータベースのプラットフォームを使ってグリッド周りの負荷をバランスさせる100%再生可能電力運用をトレードマークに、日本でのブランドをスタートする。同社のソフトウェアであるKraken(クラーケン)は、Origin Energy(オリジン・エナジー)、nPower(エヌパワー)、E.On(イーオン)、Good Energy(グッド・エナジー)、Hanwha Corporation(ハンファ・コーポレーション)などにもライセンスされており、世界中で1700万のエネルギーアカウントにサービスを提供している。

「この合弁会社は、当社の再生可能エネルギーと技術に関するエキサイティングなアプローチを、世界最大の競争の激しいエネルギー市場に持ち込みます。また今回の投資は、世界的なエネルギー革命を起こすという当社の使命をさらに加速するものです」とOctopus CEOのGreg Jackson(グレッグ・ジャクソン)氏は声明の中で語っている。

オーストラリアのOrigin Energyもまた、2020年4月に株式の20%を購入した際の大きな投資に続き、Octopusの3700万ポンド(約51億4000万円)分の株式を購入する。

Octopusは2027年までに全世界で1億人の顧客を目指す意志を表明しており、最近では米国、オーストラリア、ドイツ、ニュージーランドでもサービスを開始している。

同社によれば、英国では、Octopusはエネルギー供給市場で5%のシェアを持ち、小売ポートフォリオには180万世帯が含まれているという。

東京ガスの内田高史社長は「本提携を通じて、お客さま1人ひとりに合わせて価値を創出・提供し、お客さまの豊かな暮らしに貢献してまいります」と述べている。

日本の再生可能エネルギーの普及は英国の半分ほどであり(2019年時点での電力に占める日本の再生可能エネルギーは18.9%なのに対し、英国では37.9%)、成長の可能性は大きい。日本の菅義偉首相は、2050年までに温室効果ガス排出量を実質ゼロにするという目標を掲げている。

また、英国においてOctopusは、電気自動車のローミングネットワークElectric Juice(エレクトリック・ジュース)を立ち上げ、Tesla(テスラ)と提携してTesla Power(テスラ・パワー)を立ち上げている。

【参考】東京ガスプレスリリースをここで確認できる。

関連記事:住宅用再生エネ推進のSwell Energyが分散型電力プロジェクト建設に向け470億円調達

カテゴリー:EnviroTech
タグ:Octopus Energy東京ガス再生可能エネルギー電力網資金調達

画像クレジット:Octopus

原文へ

(翻訳:sako)

eコマース企業の顧客への最も効果的なオファーの提示をサポートするBandit ML

Bandit MLは、お店の商品や販促企画と、それらがニーズにぴったり合う顧客とのマッチングを完璧にしようとしている。

同社はアクセラレーターY Combinatorの2020夏季を受講した。そして9月には、YCとHaystack Fund、Webb Investment Network、Liquid 2 Ventures、Jigsaw Ventures、Basecamp Fund、Pathbreaker Venturesそして複数のエンジェルたちから132万ドル(約1億3700万円)のシード資金を調達した。CEOのEdoardo Conti(エドアルド・コンティ)氏によると、エンジェルの中にはUberの元および現社員が10名いる。

というのもコンティ氏は、それまでUberのソフトウェアエンジニアで研究員だった。共同創業者は、Lionel Vital(ライオネル・ヴィタル)氏とJoseph Gilley(ジョセフ・ギリー)氏だ。

彼がメールで説明してくれたところによると、5ドル(約520円)のディスカウントを大喜びする顧客もいれば、送料無料に惹かれて買う人もいる。すでにたくさん買ったので、今回は何にも興味を示さないお客さんもいる。Bandit MLはマーチャント(商業者)のオーダー履歴とウェブサイトの活動データを見て、各ショッパーに最も適したオファーを見つけようとする。

画像クレジット:Bandit ML

コンティ氏も認めるとおり、ディスカウントの内容を最適化するソフトウェアはすでに存在しているが、彼によるといずれもBrandit MLがやることをやっていない「UberやAmazon(アマゾン)、Walmartといった大手のように機械学習を利用する一般市販のツール」だという。

Bandit MLの技術は、完全自動化である点でもユニークだという。サインアップしてから最初の最適オファーが得られるまで10分かからないお店もある。また、そのときかぎりの買い物に焦点を当てるのではなく、過去120日間といった長期的な買い物履歴も見る。コンティ氏によると、同社が最適なオファーを決定するために使っている技術は、彼がFacebook(フェイスブック)で関わったReAgentプロジェクトに似ているという。

Bandit MLは現在、Shopifyのお店を持つマーチャントを主に狙っているが、Caliiなど、そのほかのストアも今後サポートする予定だ。コンティ氏によると、同社は7月以来、数百万ドル(数億円)相当のプロモーションの送付に利用され、ある衣料品店は売上が20%増加した。

「どんなオンラインビジネスでも利用できる常時稼働のインセンティブエンジンから始まったスタートアップだが、今後はいきなり誰でも使える機械学習ツールを作って、小さなオンラインビジネスが世界企業のWalmartやAmazonと十分競合できるようにしたい」とコンティ氏は語る。

カテゴリー:人工知能・AI
タグ:Bandit MLeコマース

画像クレジット:Christina Reichl Photography/Getty Images

原文へ

(翻訳:iwatani、a.k.a. hiwa

AIチームのトレーニングデータワークフロー「自動化」を支援するV7 Labsが3.1億円調達

AIの進歩に伴い、AIチームのトレーニングデータワークフローを「自動化」し、将来性を保証することを支援するコンピュータビジョンプラットフォームのメーカーであるV7 Labsは、300万ドル(約3.1億円)の資金調達を発表した。シードラウンドをリードするのはAmadeus Capital Partnersで、Partech、Nathan Benaich(ネイサン・ベナイチ)氏のAir Street Capital、Miele Ventureなどが参加している。

Singularity University(シンギュラリティ大学)の卒業生であるAlberto Rizzoli(アルベルト・リッツォーリ)氏とRSIの元R&Dリーダー、Simon Edwardsson(サイモン・エドワードソン)氏(「見る」視覚補完アプリAipoly(アイポリ)を開発した同じチーム)によって2018年に設立されたV7 Labsのプラットフォームは、高品質なトレーニングデータの作成を10~100倍に加速することを約束している。これは、自動化された画像・動画データパイプラインの構築、複雑なデータセットの整理とバージョン管理、「最先端 」の視覚AIモデルのトレーニングとデプロイメントを行う機能をユーザーに提供することで実現するという。

「企業がビジネス価値を提供するコンピュータビジョンソリューションを構築するためには、モデルを継続的に収集し、ラベル付けし、再訓練する必要があります。」とV7 Labsのリッツォーリ氏は説明する。「2015年にアイポリを構築した際には、サード・パーティ製のSaaS製品がなかったため、AIの急速な進歩に対応しつつ、独自のツールを構築・維持する必要がありました。」

現在まで話を進めると、リッツォーリ氏によれば、コンピュータビジョンのトップ企業の多くが、この問題を解決するためにV7のようなSaaSプラットフォームに目を向けているという。「AIスタートアップを構築する際には、考えなければならないことがたくさんありますが、『100種類のビデオデータセットを効率的に保存し、クエリーを行うにはどうすればよいか』ということは、サービスを提供しようとしている真っ最中にしか考えられないことです。」

「V7は、データの整理、ラベル付け、実世界の問題に対応したコンピュータビジョンモデルの立ち上げに関する業界のベストプラクティスを体系化しています。」とも。

Image Credits: V7 Labs

このブラウザ・クラウドベースのプラットフォームは、大規模な画像/動画データセットを「ラグなく」迅速にアップロードしてレンダリングし、事前のトレーニングデータを必要とせずに(程度の差はあれ)ラベル付けを自動化できると同社は主張している。V7はまた、画像/動画ごとに非常に多くのラベルを記録できるように設計されており、画像ごとに数千のアノテーションを、データセットごとに数百万の画像をサポートするとのこと。極めて重要な点として、「DevOpsの心配をすることなく、数クリックで」プラットフォーム内でコンピュータビジョンモデルのトレーニング、デプロイ、実行が可能であることをリッツォーリ氏は語った。

「クライアントは近い将来、これらのモデルとそれに対応するトレーニングセットを監査して、デバッグ、データ品質のテスト、失敗例の発見、不要なバイアスの排除を行うことができるようになるでしょう」と彼は付け加え、これらはすべて、AI業界がまだ解決していない大きな問題点であると指摘した。

それに向け、V7 Labsの既存の100社ほどの顧客には、Tractable(トラクタブル)、GEヘルスケア、米国メルクなどが含まれている。V7 Labsは医療用画像処理業界で最も急速に成長しているが、その理由の一つには、DICOMアノテーションとHIPAA(医療保険の携行と責任に関する法律)コンプライアンスをサポートしていることが挙げられる。

しかし、プラットフォーム上で処理されるデータ量で測ると、日常的な 「専門家による点検」が最も多く行われる作業であるとリッツォーリ氏は言う。「これらには、AIを使って自動車、石油リグ、送電線、パイプライン、道路などの損傷や異常を探す何十社もの企業が含まれています。」と彼は語った。

関連記事:合成データがスケーラビリティとセキュリティを解決する新しいビッグデータであることに着目するTonic

カテゴリー:人工知能・AI
タグ:データサイエンス 資金調達

[原文へ]

(翻訳:Dragonfly)

AI作成支援プラットフォーム「harBest」運営のAPTOが約6000万円を調達

AI作成支援プラットフォーム「harBest」運営のAPTOが約6000万円を調達

AI作成支援プラットフォーム「harBest」(ハーベスト)運営のAPTO(アプト)は12月22日、約6000万円の資金調達を発表した。引受先は、三井住友海上キャピタル(MSIVC2020V投資事業有限責任組合)、ANOBAKA(旧社名:KVP)、村口和孝氏(日本テクノロジーベンチャーパートナーズ 代表)など。

同社では、企業のデータ、AI活用を推進していくため、データの管理およびデータ作成のプラットフォームとしてharBestを提供。調達した資金は、harBestへの開発投資、認知拡大へ向けたマーケティング投資を行っていく。

harBestは、スマホアプリでAI学習データを簡単に作成(アノテーションデータ)できる上、独自のデータ品質チェックシステムを採用することで高品質なデータ提供が可能としている。初期費用不要で手頃な月額料金で利用できる。

カテゴリー:人工知能・AI
タグ:APTO資金調達(用語)ディープラーニング / 深層学習(用語)harBest日本(国・地域)

Googleとプレミアリーグ所属マンチェスター主催のサッカーAIコンペで、日本人チームが5位入賞

Googleとプレミアリーグ所属マンチェスター主催のサッカーAIコンペで日本人チームが5位入賞

quantum(クオンタム)は12月22日、同社データサイエンティストとしてquantum AIを支える大渡勝己氏を含むチーム「TamakEri」が、Kaggleコンペティション「Google Research Football with Manchester City F.C.」において、グローバルで1138チーム中5位に入賞したこと、日本人チームとして最高位を獲得したと発表した(2020年12月17日時点の公開プロフィール情報に基づく)。

Kaggleは、2017年にGoogleが買収。世界中の統計家、データ分析家、研究者などのデータサイエンティストが登録しており、分析手法を投稿し、お互いに競うプラットフォームの運営を行っている。コンペでは、主催者が投稿した課題に対し、参加者が最適なモデルを構築し競い合う。

Google Research Football with Manchester City F.C.も、同プラットフォームを利用し開催されたAIコンペのひとつで、2020年9月28日〜12日にかけて開催された。フットボール(サッカー)をプレイするAIエージェントの作成と研究加速を目的としており、プレミアリーグ所属の強豪サッカーチーム「マンチェスター・シティF.C.」とGoogle Researchがホストとなっている。

同コンペには、グローバルで活躍する大手企業や研究所などに所属する機械学習エンジニアからなる1138チームが参加。参加者が提出したAIエージェント同士による多数の試合(Google Research Football Environmentという実際のビデオゲームと同じような環境で動作)が行われ、その勝敗結果をもとに順位付け/レーティング計算が行われた。

大渡氏は、DeNAのデータサイエンティスト田中一樹氏と組んだチームで同コンペティションを戦い、並列強化学習を駆使して作成したAIエージェントで1138チーム中5位(入賞)、日本人のチームとして最高位を獲得する成績を収めた。

大渡氏は、「AIは状況に応じた反射的な判断は得意なものの、記憶、特に『長期的な記憶』に関してはまだ研究開発の途上。人間のプレイヤーの場合、過去の経験の蓄積からゲーム中に様々な判断を行うが、AIはまだそれが得意ではない。今後は、複数人での協調動作や長期的な記憶の利用による戦略変更などサッカーの強化学習を通してその長期的な記憶に関わる領域を紐解くことで、AI技術の進歩に寄与できると考えている」とコメント。quantum AIでは、長期的な記憶を獲得できる手法を研究しているという。

またquantum AIリーダーを務めるquantum代表取締役副社長 及部智仁氏は、「選手の動き、チームの動きを模倣する深層模倣学習の研究を進めることで、他のチームスポーツはもちろん、スポーツ以外の様々な新規分野へも応用できると考えている。今回のコンペでの経験を糧とし、強化学習技術を用いたAI研究開発や新規事業への応用に引き続きチャレンジしていく」とした。quantum AIは、新規事業でデータサイエンスを導入する企業向けに、アカデミアによるAI研究から機械学習の開発・運用までを一気通貫で提供していくという。

Googleとプレミアリーグ所属マンチェスター主催のサッカーAIコンペで日本人チームが5位入賞

quantumは、未来のビジネスを生み出すことにこだわるスタートアップスタジオ。同社quantum AIは、機械学習システムの開発と実装支援をするプロジェクトチーム。AIを導入する企業向けに、アカデミアによるAI研究から機械学習の開発・運用までを一気通貫で提供している。

電気通信大学との産学連携で高速演算処理対応のコンピューティングを備えるquantum AIのラボを運営し、ビジネス上の課題と機械学習をマッチングさせるフルスクラッチAI開発を可能としている。ビジネス上の課題を解決する機械学習システムを開発するために、アカデミアの知見を軸に機械学習アルゴリズムをプラットフォームロックなくゼロから開発する。

また、複合的な視点で機械学習システムを設計・実装できるメンバーが在籍。アカデミアのAI研究者、機械学習のデータサイエンティスト、データエンジニア、AI系スタートアップの起業経験者、AI系の新規事業開発経験者の視点で、機械学習システムを設計する。

関連記事
AI医療機器スタートアップのアイリスが資金調達を実施、累計調達額が約29億円に
データサイエンスとAIの作品でコンペを行うKaggleが国土安全保障省の空港のセキュリティ改善策懸賞に協力
Google、データサイエンス、機械学習のKaggle買収を確認
機械学習を利用して肺がんの兆候を早期発見する技術でKaggleが賞金100万ドルのコンペを主催

カテゴリー:人工知能・AI
タグ:Kagglequantum AIGoogle / グーグル(企業)DeNA日本(国・地域)

アマゾンがEchoデバイスを使った「ライブ翻訳」機能をローンチ

Amazon(アマゾン)は米国時間12月14日、Alexaの新機能Live Translation(ライブ・トランスレーション、ライブ翻訳)を発表した。2つの異なる言語で交わされる会話を翻訳するというものだ。アマゾンの音声認識技術とニューラル機械翻訳技術によって機能し英語、フランス語、スペイン語、ポルトガル(ブラジル)語、ドイツ語、イタリア語間で翻訳ができる。

ライブ翻訳を使いたいときは、Echoデバイスのオーナーが「Alexa, translate French(アレクサ、フランス語を翻訳して)」という具合に命令すると、英語とフランス語の翻訳が開始される。ビープ音がしたら、いずれかの言語で話ができるようになる。文章の間に自然な間を入れても大丈夫だとアマゾンは話している。Alexaは話された言語を自動的に認識し、互いの話を翻訳して伝える。Echo Showでは、会話を音声で聞くばかりでなく、テキストで読むこともできる。

終わらせたいときは「Alexa, stop(アレクサ、ストップ)」と命じる。

同社は、多言語翻訳機能の開発に取り組んでいることを、2018年のYahoo Finance(Yahoo Finance記事)で発表していた。

この新機能の追加により、Alexaは、すでにGoogleアシスタントで翻訳サービスが利用できるGoogleアシスタント対応機器との競争力をさらに高めることになった。Google Home機器は、2019年の初めにリアルタイムで複数言語を翻訳できる「通訳モード」を導入している。現在では、通訳モードはスマートスピーカー、スマートディスプレイ、スマートクロック、さらにはGoogleアシスタントを搭載したスマホやタブレットなど数多くのGoogleアシスタント対応機器で使用できる。しかしPixel Budsでは、導入当初、この機能はうまく働かなかった(WIRED UK記事)。

Alexaの翻訳機能がどれだけ使えるようになるかは、本日のローンチ以降のさらなる試練にかかっている。

ライブ翻訳は、Echoデバイスの言語に集中した一連のアップデートの最後の1つとなる。

これは、2019年に米国向けに導入された、たとえば英語とスペイン語、フランス語と英語、ヒンディー語と英語といった組み合わせの会話をAlexaで可能にする多言語モードに続く新機能だ。Alexaはまた、対応する50の言語の単語や語句の翻訳もできる。

さらに、ユーザー同士のコミュニケーションを円滑にするために、この機能を言語学習に利用することもできるとアマゾンでは話している。また、ホテル業界向けにデザインされたプラットフォームであるAlexa for Hospitality(アレクサ・フォー・ホスピタリティー)を通じて、ホテルの客と従業員との会話の支援も行えるという。

関連記事
Google Homeが26ヶ国語をリアルタイムで通訳してくれるようになった
米国のAlexaがスペイン語を話す、多言語モードでも

カテゴリー:人工知能・Ai
タグ:AmazonAmazon Alexa機械翻訳音声アシスタント

画像クレジット:Amazon

原文へ

(翻訳:金井哲夫)

AIの普及に必要な次の一手はジーニアスチップの開発

Marshall Choy(マーシャル・チョイ)氏はSambaNova(サンバノヴァ)の製品開発リーダー。数十年にわたり、Oracle(オラクル)やSun(サン)など、業界をけん引する企業と共にエンタープライズ向けのハードウェアおよびソフトウェアエクスペリエンスを実現してきた。

もし携帯電話を使うための電力を確保できる地域が世界の10%しかなかったら、果たしてモバイル機器が今のように世界を変えていただろうか。

「未来はすでにここにある。ただ、世界中に均等に分布していないだけだ」という言葉をよく聞く。この言葉は、とりわけ人工知能(AI)と機械学習(ML)の世界に当てはまる。世界には多くの高性能なAI/MLアプリケーションがすでに存在しているが、その多くは、既存の大手企業または国家レベルでしか用意できないスケールの膨大な演算能力を必要とする。このようなCPU負荷の高いテクノロジーは別の障害にも直面している。ムーアの法則が頭打ちになり、従来型チップアーキテクチャの処理能力が物理特性の限界に達しようとしているのだ。

シリコンアーキテクチャの処理効率のブレークスルーが起こらなければ、AIによる未来は不均等に分布されることになり、膨大な数の人たちが、AIによって利便性が向上する生活を経験できずに終わってしまうだろう。

テクノロジーに次の革新的な段階が訪れるかどうかは、シリコンアーキテクチャを現在のソフトウェアと同様に柔軟で効率的なものにし、かつ最終的にはプログラミング可能にするような大変革が完遂されるかどうかにかかっている。MLを簡単に利用できるような大きな進歩を実現できなければ、数社の企業が重要なテクノロジーをすべて専有する状態になり、利用者は、イノベーションがもたらす 計り知れない恩恵を受けられないことになるだろう。 何を変える必要があるのか。変化はどのくらいの速度で進んでいるのだろうか。そしてそれはテクノロジーの未来にとって何を意味するのだろうか。

AIの民主化は不可避、スタートアップと中小企業にとっては朗報

テック業界に限らず、業界大手企業の社員にとって、筆者がこの記事で提示する現在のAI/MLコンピューティング能力が抱える問題の多くは、自分には関係のないことだと思えるだろう。

これからは、規模や財政状況とは関係なく、あらゆる組織がAIとMLを使ったパワフルなソフトウェアに同じようにアクセスできる時代がやってくるはずだ。もしあなたが、財政的にも能力的にもリソースが不足している企業で働いているなら、そんな新しい時代の到来を予言するものとして、以下をお読みいただきたい。携帯電話がインターネットアクセスの民主化を実現したように、業界では今、AIをより多くの人に行き渡らせようとする動きが起こっている。

もちろん、このような民主化は、実際により多くの人がAIを利用できるようにする重大な技術的進歩がなければ起こらない。Intel(インテル)やGoogle(グーグル)などの企業が素晴らしい仕事をしていることは認めるが、民主化を起こそうという意欲だけでは足りない。そのような民主化を可能にする未来の技術的な変化をいくつか見てみよう。

普通のチップからスマートチップを経て「ジーニアス」チップへ

長い間、CPUの重要度を測る目安は素の性能だった。CPUの設計も素の性能を高めることを目指して改善されてきた。しかし、ソフトウェアがあらゆる場所で使われるようになると、プロセッサもスマートになることが求められるようになった。処理効率の高いコモディティとしてのプロセッサだ。そんな中で登場したのが、GPUのような専用プロセッサだ。「スマート」チップと呼んでもよいだろう。

このようなグラフィック専用プロセッサは、ディープラーニングの関数処理においてCPUよりも優れていることが運良く明らかになり、最新のAIとMLではGPUが重要な役割を果たすようになった。こうした経緯を見れば、次に進むべき方向は明らかだ。グラフィックアプリケーション専用のハードウェアを作ることができるなら、ディープラーニング用、AI用、ML用の専用ハードウェアを作らない手はない。

今後数年は、さまざまな要因が重なって、チップの製造とテック業界全般にとって極めて重要な時期になると思われる。第一と第二の要因は、ムーアの法則(集積回路のトランジスタの数は2年ごとに2倍になるという予測)が頭打ちになっていることと、デナード則(ワットあたりのパフォーマンスはほぼ同じ割合で2倍になるという法則)が終焉を迎えていることだ。この2つの法則を合わせると、新世代のテクノロジーが登場するたびに、チップの集積密度と処理能力は2倍になり、消費電力は変わらないということになる。しかし、現在、線幅はナノメートルのレベル、すなわち物理的な限界に達している。

第三に、さまざまな物理的な課題が重なって、次世代のAI/MLのアプリケーションで求められる演算能力は、我々の想像を超えたものになる。たとえば、ニューラルネットワークをトレーニングして人の画像認識能力の数分の1のレベルを実現するだけでも、驚くほど困難で、膨大な演算能力が必要となる。最もCPU負荷の高い機械学習アプリケーションとしては、自然言語処理(NLP)、数十億あるいは数兆の可能性を処理するレコメンデーションシステム、医療や天文学の分野で使用される超高解像度のコンピュータビジョンなどがある。

つまり我々は、言葉を話したり、深宇宙の物体を特定したりする方法を学習するには、脳の働きを模倣したアルゴリズムを作成してトレーニングする必要があることは予測できていたとしても、本当に役に立つ「インテリジェント」なモデルにするためにどの程度のトレーニング(つまりは処理能力)が必要になるのかという点については想像できなかった、ということだ。

もちろん、多くの組織がこうした複雑なMLアプリケーションを実行している。しかし、そうした企業の多くは通常、ビジネス分野または科学分野のリーダーであり、膨大なコンピューティング能力とそれを理解して導入する豊富な人材を活用できる。このような大手企業を除くすべての企業は、トップレベルのMLおよびAIアプリケーション開発の世界から締め出されてしまっている。

次世代のスマートチップ(「ジーニアス」チップと呼んでもよい)が効率性と専門性を実現することを求められるのも、こうした理由からだ。チップアーキテクチャは、その上で動作するソフトウェアに合わせて最適化され、ソフトウェアの実行効率を向上させるものに変わっていくだろう。とてつもない演算能力を必要とするAIがサーバーファーム全体を専有するといったことがなくなり、業界の多くの企業が平等に利用できるようになれば、広範なディスラプション(創造的破壊)とイノベーションのための理想的な条件が整うだろう。チップアーキテクチャとソフトウェア中心型ハードウェア設計の分野でこのような進歩が間もなく達成されれば、高価でリソース集約的なAIの民主化が進むだろう。

将来を見据えたイノベーションにあらためて注目する

AIはその性質上、ハードウェアの開発者とユーザーに特殊な課題を突きつける。変化の程度も極めて大きい。我々は、人間が書くコードからソフトウェア2.0へと飛躍する大変革の時代を生きている。つまり、エンジニアが機械学習プログラムをトレーニングして、最終的にはプログラム自身が自分で動くようになる時代がやってくる。さらに、変化のスピードも前例がないほど速い。MLモデルは数ヶ月、いや数週間で古くなる場合がある。また、トレーニングを行う方法自体も日進月歩で進化している。

しかし、新しいAIハードウェア製品を開発するには未だに、設計、プロトタイピング、キャリブレーション、トラブルシューティング、生産、配布というステップを踏む必要がある。概念の段階から実際に製品化されるまで2年かかることもある。もちろん、ソフトウェアのほうがハードウェアよりも開発期間が短いのは普通のことだが、今や、この開発スピードの差は妥協し難いものになっている。我々は、ますます予測不能になる未来に向けて、自分たちが作るハードウェアについてもっと賢くなる必要がある。

実際、テクノロジーの進歩を世代として捉える考え方は崩壊しつつある。MLとAIに関していえば、「現在分かっていることの大半は完成品が出来上がるまでには古くなっている」という予測に基づいてハードウェアを構築する必要がある。柔軟性とカスタマイズは、AI時代に成功するハードウェアの主要な特性となるだろう。そしてそれは、市場全体がさらなる成功を収める道でもある。

こうしたテクノロジーを活用しようと考えている企業は、最新モデルや専用のアルゴリズムにリソースを大量に消費する代わりに、MLやAIのモデルに対する需要の進化と変化に柔軟に対応できる処理スタックを選択できるようになるだろう。

これにより、AIに精通したあらゆる規模とレベルの企業が、長期的に創造性と競争力を維持できるようになり、ソフトウェアがハードウェアによって制限されている状況で発生するスタグネーションを回避できるようになる。その結果、より興味深く予想もしなかったAIアプリケーションが、より多くの組織に行き渡るようになるだろう。

本物のAI/MLテクノロジーの広範な普及

公言するのは筆者が初めてだろうが、テック業界は目新しいものに飛びつく傾向がある。ビッグデータであらゆるものが解決できると言い、IoTが世界の救世主となると豪語したときもあった。そしてAIは今、テック業界がこれまでに間違いなく何度も経験してきたのと同じハイプサイクルを経験している。現在、AIをまったく活用していないと言うテック企業を見つけるのは難しいが、そうした企業はどちらかというと高度な分析に似た極めて基本的なことを実行している可能性が高い。

筆者は、これまでに我々が大きな期待を寄せていたAI革命はまだ起こっていないと確信している。しかし、AIの真の力を活用するハードウェアが今後2~3年でより多くの企業に行き渡るようになれば、今度こそAI革命が実現するだろう。強力なトップクラスのMLおよびAIテクノロジーが広範に普及した場合に起こる変化とディスラプションを自信を持って予測する方法はほとんどないが、まさにそこが重要な点だ。

携帯電話はごく普通の人たちに驚くほどのパワーをもたらし、大半の人は技術的、金銭的な障害に直面することなく携帯電話を使えるようになった。柔軟性が高く、カスタマイズ可能で、将来性のあるソフトウェア定義のハードウェアについても同じことが起こるだろう。可能性は無限だ。そして、それはテクノロジーの大転換点となるだろう。AIの民主化とコモディティ化の波及効果はテック企業だけにとどまらない。最新の高性能AIに誰でも手が届くようになれば、これまで以上に多くの分野で前途が開けるだろう。

AIがもたらすと考えられているあらゆるディスラプションや、AIが起爆剤となって飛躍を遂げることが期待されている分野など、AIに対する熱狂的な期待の多くが今後数年で今度こそ本当に現実化していくだろう。こうしている間にもAIを進化させるテクノロジーは登場しており、すぐにもさまざまな業界の多くの人に利用されるようになる。そして、そうした人たちが、新たに手にした開発環境を土台に、驚くような進歩を実現してくれることだろう。この未来の一員になれると考えると本当にワクワクする。この未来に実現されるあらゆる進化が楽しみだ。

関連記事:WaveOne、ビデオのAIネイティブ化とストリーミングの変革を目指す

カテゴリー:人工知能・AI

タグ:コラム

[原文へ]

(翻訳:Dragonfly)

WaveOne、ビデオのAIネイティブ化とストリーミングの変革を目指す

ビデオはとても長い間、同じように機能し続けてきた。機械学習の爆発的な普及によって業界が刻々と変化しても、ビデオはその独自の性質により、ほとんど影響を受けていない。WaveOneは、数十年前からあるビデオコーデックのパラダイムをAIベースにすることでこの状況を変えようと試みており、コーデックの革命を目指す技術者やAI主導のスタートアップが陥りがちな落とし穴を避けつつこれに取り組んでいる。

同スタートアップは、最近まで紙面やプレゼンテーションで結果を発表する以外大きな動きを見せていなかったが、先日調達した650万ドル(約6億8000万円)のシードラウンドにより、実際の製品をテストし、展開していく準備が整ったようだ。これはニッチな領域ではない。ビデオ圧縮はやや目立たない存在でもあるが、現代のインターネットで最も重要なプロセスの1つになっていることは間違いない。

デジタルビデオが誕生してから辿ってきたことを簡単に説明しよう。開発者がビデオの圧縮と解凍のための標準的なアルゴリズムであるコーデックを作成する。このコーデックは、一般的なコンピューティング・プラットフォーム上で容易に配布および実行できる。MPEG-2やH.264などがこの方式である。動画の圧縮というハードな作業はコンテンツプロバイダーやサーバーで可能となるが、解凍という比較的軽い作業はエンドユーザーのマシンで行われる。

このアプローチは非常に効果的で、コーデックの改善(より効率的な圧縮を可能にする)によってYouTubeのようなサイトの可能性を広げてきた。動画が10倍の大きさだったら、YouTubeのローンチはもっと遅れていただろう。もうひとつの意義ある変化は、コーデックのハードウェアアクセラレーションの活用である。コンピューターやGPUにコーデックが組み込まれたチップが搭載されると、スマートフォンの汎用CPUよりもはるかに高速に解凍タスクを実行できるようになる。1つだけ問題がある。新しいコーデックには新しいハードウェアが必要となる。

ただし、新しい携帯電話には機械学習モデルを実行するために設計されたチップが搭載されており、コーデックのように高速化できる。しかし、ハードウェアはこのモデルに適していない。では、このMLに最適化されたチップをビデオに使用してはどうだろうか。それこそがWaveOneがやろうとしていることだ。

WaveOneの共同創設者兼CEOのLubomir Bourdev(ルボミール・ボールデフ)氏とCTOのOren Rippel(オレン・リッペル)氏の素晴らしい経歴にもかかわらず、当初著者はかなり懐疑的な視点で話を聞いた。コーデックを扱う会社が現れたり消えたりしているのを見てきたが、テクノロジー業界はいくつかのフォーマットや標準を融合させ、それを恐ろしくゆっくりと改訂してきた。例えば、H.265は2013年に導入されたが、その前身であるH.264はその数年後にやっとのことで普及し始めている。その傾向は、バージョン7からバージョン7.1というより、3G、4G、5Gシステムの移行に類似する。つまり、無料でオープンソースの優れたものであっても、より小さなオプションは業界にまたがる標準の歯車の下に潜んでしまう傾向がある。

コーデックのこうした状況に加えて、スタートアップが事実上すべてを「AI駆動型」と説明することを好むという事実から、良くても見当違い、悪ければ詐欺的なものだろうと想像していた。しかし、嬉しい驚きがもたらされた。WaveOneのやろうとしていることは後から考えると明らかに正しく感じられ、先駆者アドバンテージを有するように思われる。

リッペル氏とボールデフ氏が最初に明らかにしたのは、AIが実際にここで果たすべき役割を持っているということだ。H.265のようなコーデックは多くの点で非常に進歩しているが、決してスマートではない。一般的には、エンコーディングのカラーやディテールのどの部分により多くのビットを入れるべきかを提示することはできるが、例えば、微調整を施したい顔がショットのどこに位置しているか、時間を節約するために特別な方法で実行できるサインやツリーがあるのかといったことを判断することはできない。

しかし、顔とシーンの検出は、コンピュータビジョンの中で現実的に解決されている問題である。 ビデオコーデックが顔の存在を認識して、それに応じた量のリソースを割り当てるようになっていないのはなぜだろうか。これは良い質問である。答えは、コーデックの柔軟性が十分ではないということだ。そうしたインプットには対応しない。おそらくH.266が出るころには実現され、数年後にはハイエンドデバイスでサポートされるようになるだろう。

では、今どうするか。多くの携帯電話やコンピュータが備えている、あるいはすぐに備えることになるであろうAIアクセラレーター上で動作する動画圧縮・伸長アルゴリズムを構築し、シーンやオブジェクトの検出を最初から統合するのが正解だ。Krisp.aiは音声が何であるかを理解し、きわめて複雑なスペクトル分析をせずにそれを分離する。同じように、AIは視覚的なデータを使って驚くほど高速に判断し、実際の動画圧縮の部分にそれを渡すことができる。

画像クレジット:WaveOne

 

データの可変かつインテリジェントな割り当てにより、画質を犠牲にすることなく圧縮プロセスを非常に効率的に行うことができる。WaveOneは、ファイルのサイズを半分にまで縮小しながら、より複雑なシーンで改善が得られると主張している。何億回も動画を配信したり100万人に一度に配信したりする場合、このサイズの増加は言うに及ばず、数パーセントの端数でも加算される。帯域幅は以前ほどコストがかからないが、それでも無料ではない。

また、画像を認識する(あるいは指示を受ける)ことで、コーデックがその内容の種類を判別できるようになる。もちろん、ビデオコールでは顔の認識が優先されるかもしれないが、ゲームストリーマーは細かい部分にこだわりを持つだろうし、アニメーションは大きな単色領域でのアーティファクトを最小限に抑えるためにさらに別のアプローチを必要とする。これがすべて、AIを利用した圧縮方式によってその場で実行できる。

消費者向けテクノロジーを超えたものも予測できる。コンポーネント間または中央のサーバーにビデオを送信する自律運転車は、車両、歩行者、動物など自律システムが重要と指定したものに焦点を当て、意味のない空や遠くの木々などに時間とビットを無駄にしないようにすることで、時間を節約し、ビデオの品質を向上させることができる。

コンテンツ認識のエンコードおよびデコードは、おそらくWaveOneが主張する最も汎用性が高く、理解しやすい利点であるが、この方法は帯域幅の問題による中断に対してはるかに耐性があるとボールデフ氏はさらに説明している。従来のビデオコーデックのもう1つの欠点は、いくつかのビットが欠けていると全体の操作が中断されてしまうことだ。だからフレームがフリーズするなどの問題が起きるわけだ。しかし、MLベースのデコーディングは、どんなビットがあってもそれに基づいて簡単に「最善の推測」を生成できるので、帯域幅が突然制限されてもフリーズすることはなく、その期間の詳細さが少し減少される程度である。

同じフレームを圧縮する異なるコーデックの例

これらの利点は素晴らしいと思われるが、かねてからの問題は「現状を改善できるか」ではなく(明らかに改善できる)、「改善をスケールアップできるか」である。

「クールで新しいコーデックを作ろうとする試みは、あちこちで失敗しています」とボールデフ氏は認めている。「その理由の1つはハードウェアアクセラレーションです。たとえ世界最高のコーデックを思いついたとしても、それを動かすハードウェアアクセラレーターがありません。より優れたアルゴリズムを必要とするだけではなく、エッジ上やクラウド上でさまざまなデバイスに対してスケーラブルに実行できる必要があります」 。

最新世代のデバイスで特別なAIコアが非常に重要となっている理由がここにある。これは、新しい目的に合わせてミリ秒単位で調整できるハードウェアアクセラレーションである。そしてWaveOneは、これらのコア上で動作するビデオに焦点を当てた機械学習に何年も取り組んでおり、H.26Xアクセラレーターが何年にもわたって行ってきた作業を、より高速に、より柔軟に行えるようにしている。

もちろん「標準」の問題はまだ残されている。1つの企業が独自に開発したビデオ圧縮方式に誰かがサインオンする可能性はあるだろうか。誰かはすべきである。結局のところ、標準は石板に刻まれているようなものではない。そしてボールデフ氏とリッペル氏が説明したように、我々が考えるような方法ではないが、彼らは実際に標準を使用している。

かつては、動画の「標準」とは、アプリやデバイスが標準に対応した動画で効率的かつ正確に動作するように、厳密に定義されたソフトウェア手法に従うことを意味していた。しかし、それだけが標準ではない。WaveOneが行っているのは、すべてを包括するメソッドではなく、機械学習とデプロイメント側の標準に準拠した実装である。

同社は、TensorFlow、ONNX、AppleのCoreMLなどの主要なML配信・開発パブリッシャーと互換性のあるプラットフォームを構築している。一方、実際に動画のエンコードやデコードのために開発されたモデルは、エッジデバイスやクラウドデバイス上で他の高速化ソフトウェアと同じように動作する。AWSやAzureにデプロイしたり、ARMやIntelのコンピュートモジュールを使ってローカルで実行したりという具合にだ。

WaveOneは、主要なB2Bイベントのすべてのボックスをチェックするための何かを発見したように感じる。目に見えないところで顧客のために物事を改善し、変更なしで既存または将来のハードウェアで実行し、潜在的にではあるがすぐにコストを節約しながら、価値を追加するために投資する。

おそらくそれが、同社が650万ドルというこれほどまでに大きなシードラウンドを獲得できた理由だろう。Khosla Venturesがリードしたこのシードラウンドは、Vela PartnersとIncubate Fundからそれぞれ100万ドル(約1億円)、Omega Venture Partnersから65万ドル(約6800万円)、Blue Ivyから35万ドル(約3700万円)を調達している。

現在WaveOneはプレアルファ段階のようなもので、この技術を十分に実証してはいるが、本格的な製品を作るには至っていない。シードラウンドは技術のリスクを軽減するためのものであり、まだ多くの研究開発が残されているが、コアサービスが機能していることはすでに証明したとリッペル氏は説明する。インフラストラクチャーとAPI層の構築をこの後進めて、同社にとってまったく新しいフェーズへの到達を目指す。さらに資金を集める前に、テストを済ませて顧客を数社確保したいと同氏は語っている。

ビデオ業界の将来は、過去20年で見据えてきた展望とは異を呈するかもしれないが、非常に期待できそうだ。WaveOneが研究段階から製品創出へと移行していくにつれ、さらに多くの情報が得られることは間違いない。

関連記事:シンプルなドラッグ&ドロップで動画の背景を消去できるKaleidoの「Unscreen」

カテゴリー:人工知能・AI

タグ:動画編集 資金調達

[原文へ]

(翻訳:Dragonfly)

RPA導入・推進の課題解決サービスをまとめた「RPAサクセスカオスマップ2020年度版」が公開

RPA導入・推進の課題解決サービスをまとめた「RPAサクセスカオスマップ2020年度版」が公開

RPA(Robotic Process Automation)領域で包括的にサービスを展開するPeaceful Morningは12月14日、RPA導入・推進を取り巻くユーザーの課題を解決するサービスをまとめた「RPAサクセスカオスマップ2020年度版」を公開した。

Peaceful Morningによると、昨今、コロナ禍におけるテレワーク・リモートワークなど、ワークスタイルのシフトに伴い企業のIT化に拍車がかかる中、RPAによるデスクワークの自動化への注目度もますます高まっているという。

一方で、RPAに関わる企業やサービスが増えていく中、サービスの枠組みが複雑化しユーザーが課題に沿った適切なサービスを選択しにくい状況も生まれつつあると指摘。

Peaceful Morningは、そのような状況に対応するため、増加するRPA関連サービスを調査し、それらサービスを企業のRPA導入におけるプロセス別に可視化すべく、「RPAサクセスカオスマップ2020年度版」としてまとめた。

さらにサービスを詳細に解説した「カオスマップGUIDE BOOK」とともに参照することで、RPA関連サービスを体系的に把握可能としている。

「RPAサクセスカオスマップ2020年度版」では、RPA担当者が抱える課題を軸として工程別にまとめており、状況に合わせて課題解決に役立つサービスが一目で分かるように掲載している。

RPA導入・推進の課題解決サービスをまとめた「RPAサクセスカオスマップ2020年度版」が公開

  • 情報収集:「自社でRPA化するのはどのような業務がいいか」「同業他社はどのようにRPAを活用しているか」。スムーズにRPAの導入を行うためには、事前の情報収集は欠かせない。2020年現在ではRPAの情報を収集するために、様々なセミナーやメディア、コミュニティが誕生している
  • ツール選定:「RPAツールの種類が多すぎて把握できていない」「RPAツールはどのような軸で選べばいいか分からない」。RPAツールには得意とする業務や、ツール独自の特徴があり、社内の業務自動化を進めるには最適なツール選定が必要。国内外を問わずツールが増加する中で、最適なツールを紹介するサービスも存在する
  • 導入・開発:「ようやくRPAツールを導入!効率的に進めるために気を付けなくてはいけない事はどんなこと?」。スムーズにRPAを浸透させるには初期のプランニングが重要。社内のコミュニケーションラインの調整や、開発体制の構築など、自社の目的に沿ってスケジュールを立てることになる
  • 運用・発展:「RPAをさらに賢く使いたい!さらなる自動化・効率化にはどんな方法があるんだろう」。AI-OCRなど、非定型業務の自動化を行うテクノロジーを組み合わせる事によりDX化を推進可能。社内にナレッジを蓄積し、継続的にRPA開発を社内に展開することで、人的業務と自動化業務を分けた社内体制を構築できる

企業のRPA導入・DX化が増加傾向にある中で、実際にRPAの活用に関しては成功している企業とそうでない企業に分けられるという。

失敗の理由の多くは、事前の情報収集や社内調整がいまくいかないなど「準備が足りていないケース」と、社内に知見がなく開発が進まない、社内にノウハウを蓄積ためられず他部署に展開できないなど「プランニングが不足しているケース」にあるそうだ。

RPA開発はひとつの業務を自動化して終わりではなく、ひとつの成功をもとに社内に自動化領域を拡げていくことが大切としている。

そのためには「社内で対応しなければならないこと」「社外のサービスを活用しなければならないこと」の住み分けが重要であり、RPAの活用を成功させるためにもRPAに関連する様々なサービスを適切に選ぶことが求められるという。

Peaceful Morningは、「我慢しないで働ける社会を創る」というミッションのもと、業務自動化テクノロジーを通じて、我慢せず⾃由にクリエイティブな仕事ができる社会の実現を⽬指している。2018年の創業からRPAに関する専門メディア「RPA HACK」、RPA定着サポートサービス「Robo Runner」、RPAエンジニアのプラットフォーム「RPA HACKフリーランス」など、自動化・DX時代に必要な事業を行っている。

関連記事
Peaceful Morningが2019年版RPAカオスマップを公開
2018年度版「RPAカオスマップ」が公開
業界別カオスマップ

カテゴリー:人工知能・AI
タグ:RPA / ロボティック・プロセス・オートメーション(用語)カオスマップ(用語)Peaceful Morning日本(国・地域)

動画音声を本人の自然な声で別言語に吹き替えるAIシステムのPapercupが約11億円を調達

すでにゲームやテレビ業界で使われているが、話した人の声で別の言語に変換するスピーチ技術を開発した英国のAIスタートアップPapercup(ペーパーカップ)は、800万スターリングポンド(約11億円)の資金を調達した。

このラウンドはLocalGlobeとSands Capital Venturesが主導し、Sky、GMG Ventures、Entrepreneur First(EF)、BDMIが参加している。Papercupは今回の資金を機械学習研究と、AI通訳動画の品質改善やカスタマイズのための「Human in the loop」(人間参加型)品質管理機能の拡大に追加投入すると話している。

Papercupは、これ以前からエンジェル投資家の支援も受けている。その中には、後にAmazon(アマゾン)に買収されAlexaを誕生させたEvi Technologies(イービー・テクノロジーズ)の創設者William Tunstall-Pedoe(ウィリアム・タンストールペドー)氏や、Uber(ウーバー)で主任サイエンティストとAI担当副社長を務め、現在はGoogle Brain(グーグル・ブレイン)リーダーシップチームの一員であるZoubin Ghahramani(ズービン・ガラマニ)氏も含まれている。

2017年、EFの企業創設者向けアクセラレータープログラム参加中にJesse Shemen(ジェシー・シーメン)氏とJiameng Gao(ジアメン・ガオ)氏が立ち上げたPapercupは、話し手の声や話し方をそのままに別の言語に変換する能力、と同社が説明するAIと機械学習に基づくシステムを開発している。よくあるテキストの読み上げシステムとは異なり、通訳された音声は人間の声と「判別が不可能」だと彼らは主張している。しかも、そこがユニークな点だと思われるが、話し手の声の特徴もできるだけ引き継がれる。

もともとこの技術は、すでにこれを利用しているSky News(スカイ・ニュース)、Discovery(ディスカバリー)、YouTube(ユーチューブ)の人気チャンネル「Yoga with Adriene」、その他の動画を自主制作するクリエイターたちに向けて開発された。その売り文句は、もっとずっと幅広い応用が可能であり、したがって本物の人間による吹き替えに取って代わる安価な手段だと訴えている。

「世界の動画と音声のコンテンツは1つの言語に縛られています」とPapercupの共同創設者でCEOのシーメン氏はいう。「YouTubeの数十億時間分の動画、何百万本というポッドキャスト、Skillshare(スキルシェア)やCoursera(コーセラ)の何万件ものオンライン学習講座、Netflix(ネットフリックス)の何万本もの番組などもそうです。そうしたコンテンツの所有者は、ほぼ全員が世界展開を強く望んでいますが、字幕に勝る簡単で費用対効果の高い方法がまだありません」。

もちろん「予算がたっぷりあるスタジオ」なら、プロ用の録音施設で声優を雇い最高級の吹き替えが可能だが、ほとんどのコンテンツ所有者には高すぎて手が出せない。裕福なスタジオであっても、対応する言語が多ければ、制約が加わわるのが普通だ。

「そのため、ロングテールやそれに準ずるコンテンツ、それはまさに全コンテンツの99%に相当しますが、その所有者は海外のオーディエンスにリーチしたいとき、字幕以上の方法を諦めたり、そもそも不可能だったりします」とシーメン氏。もちろん、そこがPapercupの狙い目だ。「私たちの目標は、翻訳された言葉を、できるだけ元の話し手の声に近づけることです」。

それを実現させるために、Papercupは4つの課題に取り組む必要があったという。1つめは「自然に聞こえる」声だ。つまり、合成音声をできる限り明瞭で人間の声に近づけることだ。2つめの課題は、元の話し手が表現した感情や速度(つまり喜怒哀楽)を失わないこと。3つめは、人の声の特徴を捉えること(たとえばドイツ語でもモーガン・フリーマンが話しているように聞こえるといったように)。そして最後は、翻訳されたセリフを動画の音声に正確に揃えることだ。

シーメン氏はこう説明する。「私たちはまず、できる限り人間に近い、自然に聞こえる音声を作ることから始めました。その目的に沿って技術の洗練させてゆく過程で、私たちは音質の面で飛躍的な技術革新を果たしました。いま作られているスペイン語音声合成システムの中で、私たちのものは最高水準にあります」。

「現在私たちは、さまざまな言語に変換するときに、元の話し手の感情や表現をできるだけ残したままで行う技術に重点を置いています。その中で、これこそが吹き替えの質を左右するものだ気がつきました」。

間違いなくこれが最も大きな難関となるが、次の課題は「話者適応」だ。つまり、話し手の声の特徴を捉えることだ。「それが適応の最終段階です」とPapercupのCEOは話す。「しかし、それは私たちの研究で最初に実現したブレイクスルーでもあります。私たちにはこれを達成できるモデルはありますが、感情や表現に多くの時間をかけています」。

とはいえPapercupは、いずれはそうなるかもしれないものの、完全に機械化されているわけではない。同社では、翻訳された音声トラックの修正や調整に「人間参加型」のプロセスを採り入れている。そこでは、音声認識や機械翻訳のエラーの修正、タイミング調整、さらには生成された音声の感情(喜びや悲しみ)の強調や速度の変更が人の手で行われている。

人間参加型の処理がどれほど必要になるかは、コンテンツのタイプや、コンテンツ所有者のこだわりによって異なる。つまり、どれだけリアルで完璧な吹き替え動画を求めるかだ。逆にいえば、これはゼロサムゲームではないため、大きな規模で考えた場合、大半のコンテンツ所有者は、そこまで高い水準は求めないということだ。

この技術の始まりについて尋ねると、共同創設者でCTOのジアメン・ガオ氏の研究からPapercupはスタートしたとシーメン氏は答えた。ガオ氏は「驚くほど頭が良く、異常なほどに音声処理にのめり込んでいた」という。ガオ氏はケンブリッジ大学で2つの修士号を取得し(機械学習と音声言語技術)、話し手に順応する音声処理に関する論文も書いている。Papercupのようなものを作ることができる可能性に気づいたのは、ケンブリッジ在学中だった。

「2017年の終わり、Entrepreneur Firstで勉強していたときに、私たちは最初のプロトタイプシステムを作りました。前例のないものながら、この技術は使えると感じました」とシーメン氏。「当初、人から聞いた意見から、私たちが作っているものには予想を超える膨大な需要があることを知りました。制作スタジオでの使用を想定して開発しているものの、ほんの一機能に過ぎなかったのですが」。

カテゴリー:人工知能・AI
タグ:Papercup合成音声機械翻訳資金調達

画像クレジット:Papercup

原文へ

(翻訳:金井哲夫)

人工知能はゾウを救えるか

著者紹介:Adam Benzion(アダム・ベンジオン)氏は連続起業家、著述家、テック投資家。Hackster.ioの共同創業者で、Edge ImpulseのCXOも務める。

ーーー

アフリカを象徴する光景といえば、ゾウの群れが大平原を歩き回るようすがすぐに思い浮かぶだろう。しかし今、ゾウの未来が脅かされている。現在、15分に1頭のゾウが密猟者によって殺されている。そして、ゾウを愛でて楽しむ人間が、実はゾウに対してすでに宣戦布告しているのである。もちろん、ほとんどの人は密猟者ではないし、象牙を収集したり、野生動物を意図的に傷つけたりはしていない。しかし、目の前にある危機に対して沈黙したり無関心であったりすることは、密猟などと同じくらい、ゾウの命を奪うことにつながっている。

この記事を読み、少しの間ゾウたちを哀れに思い、その後は次のメールチェックに進んで一日を始めることもできる。

しかし、この記事を読んだ後に少し時間を割いて、野生動物、特にゾウを救う機会が目の前に開かれており、その機会が日増しに大きくなっていることについて考えることもできる。そして、このような機会は、機械学習(ML)と、我々が親しみをこめてAIと呼ぶ魔法のような応用技術に基づいている。

画像クレジット:Jes Lefcourt

 

オープンソース開発者がAIでゾウを救う

今から6か月前、コロナ禍の中で、Avnet(アヴネット)の大型オープンソースコミュニティHackster.io(ハックスター)と、オランダの野生動物保護団体Smart Parks(スマート・パークス)は、他に類をみない最新鋭のゾウ追跡用首輪10台を研究開発し、製造、輸送するプロジェクトへの出資を大手テック企業に打診した。このときに打診を受けた企業には、Microsoft(マイクロソフト)、u-blox(ユーブロックス)、Taoglas(タオグラス)、Nordic Semiconductors(ノルディック・セミコンダクター)、Western Digital(ウエスタン・デジタル)、Edge Impulse(エッジ・インパルス)などが含まれる。

この最新型の追跡用首輪は、高度な機械学習(ML)アルゴリズムを実装し、同様の機器の中では史上最高レベルのバッテリー寿命と通信範囲を備えるように設計されている。さらに大胆な取り組みとして、この計画は完全にオープンソースとし、研究開発の成果はOpenCollar.io(オープンカラー)。環境・野生動物のモニタリングに使う追跡用首輪ハードウェア・ソフトウェアのオープンソース開発を推進する環境保護団体)を通じて全面的に公開されることが発表された。

この追跡用首輪はElephantEdge(エレファントエッジ)と呼ばれ、特殊エンジニアリング企業のIrnas(イルナス)が製造を担当する。ハックスターのコミュニティは、新たに製造されるハードウェアでスムーズに動作するようにエッジ・インパルスのMLモデルとアヴネットのテレメトリダッシュボードを実装用に整える作業を担当する。これは、前代未聞の野心的なプロジェクトであり、これほどまでに緊密な協力関係を必要とする革新的なプロジェクトを本当に完遂できるのだろうか、と疑う人も多かった。

世界最高レベルのゾウ追跡用首輪を作る

しかし、彼らはそれをやってのけた。本当に素晴らしいことだ。新たに開発されたこのElephantEdgeは、野生動物の追跡装置としては最先端の性能を有する。バッテリー寿命は8年、LoRaWAN通信の中継範囲は数百マイルに及び、TinyMLモデルの実行によって、ゾウが発する音、ゾウの動きや現在地、環境の異変などに関するより詳細な情報を自然保護官に提供できる。さらに、ElephantEdgeは、LoRaWAN技術によって自然保護官のスマホやパソコンに接続された数々のセンサーと通信することも可能だ。

ElephantEdgeにより、自然保護官は今まで使っていたシステムよりも正確にゾウの状況や現在地を把握して追跡できる。これまでのシステムは、すべての野生動物の写真を撮影して送信するタイプだったため、追跡装置のバッテリー消耗が激しかった。ElephantEdgeで採用されている高性能MLソフトウェアはゾウのみを追跡対象とするように設計されている。また、このソフトウェアは、ハックスターのコミュニティが開催した公開設計コンテストを通じて開発された。

スマート・パークスの共同創業者Tim van Dam(ティム・ヴァン・ダム)氏はこう語る。「ゾウは生態系を整える庭師のような存在だ。ゾウが歩き回ることで、他の動物が繁殖するための環境が整う。我々のElephantEdgeプロジェクトは、世界中の人々と協力して、心優しい巨人とも言えるゾウが生き残っていくのを助ける重要なテクノロジーを最善の形で提供するものだ。ゾウは毎日、生息地の環境破壊と密猟の脅威にさらされている。この革新的な追跡装置とパートナーシップにより、ゾウの生態に関する理解を深め、より適切な方法で保護することが可能になる」。

画像クレジット:Jes Lefcourt

 

コミュニティによるオープンソース開発が実現した動物保護用AIシステム

ハックスターのコミュニティは、イルナスとスマート・パークスが開発したハードウェアを動かすためのアルゴリズム開発に懸命に取り組んだ。その一環として、英国のソフトウェア開発者Swapnil Verma(スワップニル・ヴェルマ)氏と日本のデータサイエンティストMausam Jain(マウサム・ジェイン)氏が共同で開発したのがElephant AIだ。両氏は、Edge Impuseを使用して、ElephantEdgeに搭載されているセンサーのデータに基づいて重要な情報を自然保護官に送信する2つのMLモデルを開発した。

1つ目は、立ち入りが禁止されている区域に人間がいることをオーディオサンプリングによって検知して、密猟リスクを自然保護官に通知する「人間検知」モデルだ。このアルゴリズムは、オーディオセンサーを使って音と周囲の状況を記録し、それをLoRaWAN通信で自然保護官のスマホに直接送信して直ちに警告を発する。

2つ目は、ElephantEdgeに搭載された加速度計から時系列データを取得して、ゾウが走っているのか、眠っているのか、エサを食べているのかを判断し、ゾウの活動を全般的に検知する「ゾウの行動監視」モデルだ。これにより、保護専門家は、ゾウを保護するために把握すべき重要な情報を入手できる。

別の天才的なひらめきは、アフリカからはるか遠い北の果てからもたらされた。スウェーデンのソフトウェアエンジニアで自然を愛するSara Olsson(サラ・オルソン)氏が、自然保護官の活動をサポートするTinyMLベースのIoTモニタリングダッシュボードを開発したのである。

リソースやサポートが限られる中、オルソン氏は、機械学習アルゴリズムを組み込んだ完全テレメトリダッシュボードをほぼ自力で開発した。これにより、カメラトラップや水飲み場をモニタリングできるばかりでなく、ElephantEdge本体でデータを処理することで通信トラフィックを削減し、バッテリー使用量を大幅に節約することが可能になった。オルソン氏は、自分の仮説を裏付けるために、1155のデータモデルを使い、311回もテストを実行したという。

サラ・オルソン氏のTinyMLベースのIoTモニタリングダッシュボード画像クレジット:Sara Olsson

 

オルソン氏はEdge Impulseスタジオでモデルを開発し、OpenMVカメラを使ってAfricamからストリーミングされるカメラトラップを利用し、自宅にいながらにしてモデルのテストを実行することに成功した。

画像クレジット:Sara Olsson

優れたテクノロジーがあっても人間が変わらなければ意味がない

ElephantEdgeプロジェクトは、企業と個人が同じ目的のために団結すれば、野生動物保護を推進する持続可能な取り組みを協力して実現できることを示す例だ。ElephantEdgeは非常に重要なデータを生成でき、自然保護官が担当地域における緊急救助活動の優先順位を定めるのに役立つデータを提供できる。この新しい追跡用首輪は、World Wildlife Fund(世界自然保護基金)とVulcan(バルカン)が運営するEarthRanger(アースレンジャー)からの支援の下、2021年末までにアフリカ各地の自然公園にいる10頭のゾウに装着される予定だ。これにより、保護、学習、防衛に関する新たな波が生まれるだろう。

ElephantEdgeというテクノロジーが開発され、かつてないほど優れた方法でゾウを保護できるようになった。当然のことながら、これは素晴らしい成果だ。しかし、実のところ、問題の根源はもっとずっと深いところにある。ゾウの生息地を正常に保ち、個体数を増加させるには、自然界に対する人間の態度を変える必要がある。

「ゾウはかつてないほど大きな脅威に直面している」と、有名な古人類学者で自然保護学者でもあるRichard Leaky(リチャード・リーキー)氏は語る。趣味で野生動物を狩るトロフィーハンティングや象牙採取を目的とした狩猟を正当化する理由としてよく使われるのが、「(そのような狩猟は)保護活動に使える資金を生み出し、地元経済に金を落とす」というものである。しかし、最近のレポートによると、アフリカの狩猟収益のうち、狩猟区の地元コミュニティに還元されている割合はわずか3%にすぎない。動物たちが自分の生息地を守るために死ななければならないなんて、本末転倒だ。

類まれなる動物であるゾウを本当の意味で救うには、優れたテクノロジー、協力関係、そして固い決意をもって、狩猟文化に関する根本的な考え方とゾウの最大の死因である象牙貿易の問題に取り組むことが必要だ。

関連記事:AIが読書履歴を元にその人に合った良書を薦めるBingeBooksの新サービス

カテゴリー:人工知能・AI
タグ:コラム

[原文へ]

(翻訳:Dragonfly)

AWSが機械学習のためのエンド・ツー_エンド機能を備えたSageMakerの機能を拡張

立ち上げからすでに3年近くになるAmazon Web Services(AWS)の機械学習開発プラットフォームSageMakerが、自動化や機械学習能力の構築工程の、各ステップをより容易に自動化しスケールできるようになった新たな機能を追加した大規模なアップグレードを行った。

機械学習がメインストリームになるにつれて、企業のさまざまな事業部門が自動化のためのアプリケーションを求めるようになり、AWSはそれらの要求に対応してそのようなアプリケーションの開発がより容易にできるよう努力してきた。

「SageMakerのようなユーザーの多いサービスには、顧客からの提案をたくさん得られるという利点があり、それが次へ向けての改善の原動力になっている。本日(米国時間12月8日)、Amazon SageMakerのための一連のツールを発表しているが、それらは機械学習のエンド・ツー・エンドのパイプラインの構築を大幅に容易にするものであり、可視性と説明性に富むカスタムの機械学習モデルと大規模なオートメーションの準備と構築と訓練、説明、検査、モニタリング、デバッグおよび実行を可能にする」とAWSの機械学習担当副社長であるSwami Sivasubramanian(スワミ・シバスブラマニアン)氏は述べている。

AWSによると、すでに3MやADP、AstraZeneca、Avis、Bayer、Capital One、Cerner、Domino’s Pizza、Fidelity Investments、Lenovo、Lyft、T-MobileそしてThomson Reutersなどの企業がSageMakerのツールを利用して、それぞれの事業を運用しているという。

同社の新しいプロダクトには、統一されてないばらばらなソースからのデータを正規化して、一貫性のあるデータの利用ができるようにするAmazon SageMaker Data Wranglerが含まれる。また、Data Wranglerはバラバラなデータソースを特徴(feature)の集まりへとグループ化し、特定のタイプのデータを目立つようにするプロセスを容易にする。Data Wranglerツールには300種類あまりのデータトランスフォーマーが内蔵され、顧客は特徴量の正規化と変形と結合をコードを一切書かずにできるようになる。

アマゾンはまた、トレーニングや推論のための機械学習機能の保存、更新、取得、共有を容易にするリポジトリを顧客が作成できるFeature Storeを発表した。

Amazon Web Servicesが自慢するもう1つの新しいツールがPipelinesだ。これは、ワークフローの管理と自動化のためのツールキットだ。Pipelinesが提供するオーケストレーションとオートメーションの機能は従来のプログラミングと異なるものではないが、デベロッパーはパイプラインを使って、エンド・ツー・エンドの機械学習ワークフローの各ステップを定義できる。このツールを使うとデベロッパーは、SageMaker Studioのエンド・ツー・エンドのワークフローを同じ設定で再実行でき、毎回同じモデルを得ることができる。あるいは再実行を別の新しいデータで行って、モデルをアップデートすることもできる。

人工知能と機械学習における長年の課題であるデータの偏りを解決するために、アマゾンはSageMaker Clarifyをローンチした。それは米国時間12月8日、まさに発表されたツールで、同社によると機械学習のワークフロー全体にわたって偏りを検出し、デベロッパーはモデルのセットアップのされ方をよく理解した状態で仕事ができるようになる。このようなオープンソースのツールがすでにあることをアマゾンは認めるが、それらのツールは手作業が多く、デベロッパーの負担が大きいと同社は主張している。

機械学習のアプリケーション開発工程をを単純化してくれるその他のプロダクトの1つとしてSageMaker Debuggerがある。これはデベロッパーがシステムリソースの使用状況をモニタリングし、その間に異常が見つかれば警報するツールで、これによりモデルの訓練を高速化できる。

そしてDistributed Trainingと名付けられたプロダクトは、データを複数のGPUに分有させて並行処理し、ディープラーニングの大型で複雑なモデルをより速く訓練できる。

またSageMaker Edge Managerは、エッジデバイスのための機械学習モデルの管理ツールだ。これによりデベロッパーは、集団として存在するエッジデバイスにデプロイされるモデルの、最適化とセキュリティとモニタリングと管理を行う。

最後に、Amazonが発表したSageMaker JumpStartは、アルゴリズムやサンプルノートを見つけるための検索可能なインターフェースを開発者に提供し、彼らが機械学習の旅を始めることができるようにする。同社によると、機械学習を初めて使う開発者には、あらかじめ構築された複数の機械学習ソリューションを選択してSageMaker環境に導入するオプションを提供するという。

関連記事
AWSのSageMakerを使えばふつうのデベロッパーが機械学習のモデルを作れる
AWSが機械学習のデータ準備サービスSageMaker Data Wranglerを公開

カテゴリー:人工知能・AI
タグ:AmazonAWSAWS re:invent

画像クレジット:Jason Alden/Bloomberg/Getty Images

原文へ

(翻訳:iwatani、a.k.a. hiwa

AIが読書履歴を元にその人に合った良書を薦めるBingeBooksの新サービス

パンデミックは多くの業界にひどい影響を与えているが、出版業界は過去10年間に渡った陰鬱な日々の中で、まれに見る刑の一時的猶予を与えられている。家の中に閉じ込められ、他者との間のソーシャルディスタンスの維持を強制された私たち人間は、手のひらからこぼれ落ちるほどの時間を持ち、これまで以上に本のキャラクターたちとの結びつきを必要としている。

そうした本への関心の高まりは、起業家たちによる読書体験の再考に対する関心の高まりにもつながっている。数週間前にはソルトレイクシティを拠点とするBookClub(ブッククラブ)を紹介したが(未訳記事)、これは著者主導のブッククラブを作り、他の人たちと読書体験を共有することを目的とするものだった。その他には、連載小説プラットフォームのRadish(ラディッシュ)のようなスタートアップが読書が新たな一歩を踏み出す中で、大規模な新しい調達ラウンドを実施している

だが、ブッククラブにまだ行っていないとしたら、何を読むべきかをどうやって決め、どのようにして素晴らしい本を見つければよいのだろうか?もちろんライターやVCが推奨するTechCrunch2020年版ベストブック(未訳記事)以外のものでということだが。特に名を秘すそのリストの著者の1人は、これが読むべき唯一の「今年のベストブック」リストであると私に語っている。

そこでBingeBooks(ビンジブックス)の出番となる。BingeBooksが狙うのは、以前に読んだ本の履歴に基づいて、次の素晴らしい本を見つけることができるようにデザインされた、本好きのためのNetflix的チャンネルサーフィンプラットフォームになることだ。

おそらくそうしたサービスの世界で支配的な、Goodreads(グッドリーズ)のように思えるかもしれないが、それ以上の多くのものが提供される。BingeBooksはAuthors A.I.(オーサーズA.I.)によって開発された。Authors A.I.は小説家と機械学習の専門家たちが先駆的に開発したサービスで、Marlowe(マーロウ)という名のAI駆動のエディターが、本の草稿を評価し、話のテンポやプロットの中のキャラクターの一貫性などに対して、建設的なフィードバックを提供する。

Authors A.I.のチームは、著者のために本を評価、分析、解釈することができるその技術が、同様に異なる本の間のパターンを識別して読者への推奨を行うためにも役立つことに気づいた。

BingeBooksは2020年11月の感謝祭直前に公開され、Penguin Random House(ペンギンランダムハウス)、HarperCollins(ハーパーコリンズ)、Hachette(アシェット)、Macmillan(マクミラン)などの有名出版社からのタイトルだけでなく、7000以上の独立したタイトルも提供している。

「BingeBooksは、読者による発見に本気で焦点を当てています」と語るのは、Authors A.I.の社長で共同創業者のAlessandra Torre(アレッサンドラ・トーレ)氏だ。「読者と作家が交流できる、本当に安全で幸せなコミュニティはありません。それが私たちが作ろうとしているものなのです」。彼女はそのことを知っているのだろう。なにしろトーレ氏は、これまでのキャリアの中で数多くのベストセラーを含む23冊の本の著者なのだから。彼女によれば、120人以上の著者がBingeBooksプロダクトの初期の関係者として含まれているという。

発見が読者にとっての課題であることは明らかだが、作家側の課題でもある。著者、特に大手出版社の莫大なマーケティング予算を持たない独立系の著者は、読者を掴むことに苦労をしている。彼らの作品は世界一かもしれないが、それを書いたとしても必ずしも読者が来るとは限らない。BingeBooksはそのギャップを埋め、双方がより良い読書体験に出会えるように支援したいと考えている。

彼女のもとには、長年の経験を持つ著者JD Lasica(J・D・ラシカ)氏と、「The Bestseller Code」の著者であり、ワシントン州立大学の英語教授でもあり、計算機によるテキスト分析を専門としているMatthew Jockers(マシュー・ジョッカーズ)氏が加わった。

BingeBooksとAuthors A.I.はこれまで自己資金で運営されてきたが、ラシカ氏によれば、商品が市場に出てきた現在、今後の資金調達方法を検討している最中だという。ラシカ氏は、同社のマーケットプレイスとしての側面と、より多くの潜在的なユーザーをプラットフォームに参加させたいという彼らの願いを考えると、クラウドファンディングの方がより理に適っているかもしれないと語った。製品は初期段階であり、チームは2021年前半にはコミュニティ機能を拡充したいと考えている。

私たちはこの先一生、出来の悪いTikTokの動画を繰り返し見る運命なのだろうか?それとも、ビデオサービスが私たちのメディア文化を支配するのを助けてきたようなアルゴリズムは、読書にも応用できるのだろうか?それこそがBingeBooksからの問いかけであり、可能なら答えたいと思っていることなのだ。

関連記事:オンライン連載小説のスタートアップRadishがソフトバンクとKakaoから67億円を調達

カテゴリー:人工知能・AI
タグ:BingeBooks読書

画像クレジット:Paulus Rusyanto / EyeEm (opens in a new window)/ Getty Images

原文へ

(翻訳:sako)