AIがキャリアシナリオを診断・提示するアプリ「VIEW」正式ローンチ

20代の転職者を対象に転職支援サービスを提供するアサインは2月27日、ミレニアル世代のためのキャリアシミュレーションアプリ「VIEW(ビュー)」を正式にローンチした。

VIEWは、ユーザーが経歴と価値観を登録するとAIがキャリア診断を行い、今後のキャリアシナリオを提示してくれるアプリだ。ユーザーの価値観に合う職業、生涯年収やロールモデルなど、そのキャリアを選んだ場合の将来像を見ることができる。

キャリアシナリオは業界・職種単位で提示され、合計1000以上の業界×職種の組み合わせから、ユーザーに合ったものをランキング形式で確認できる。興味のあるシナリオを見つけたら、それぞれのシナリオを得意分野とするプロの転職エージェントへ無料で相談することもできる。

アサインは2016年12月の創業で、若手層を対象に転職エージェント事業を行ってきた。副業解禁や採用ルールの廃止など就労を取り巻く環境を踏まえ、「特に若手ハイクラスの転職は活性化している」としながら、「若手の転職志望者は働き方の多様化が広がる今、『このままでいいのかわからない』という漠然とした悩みを抱える傾向にある」と同社の調査結果を公表している。

若手転職希望者の意識調査(アサイン調べ)

そうした中で、若手転職者層の価値観と経歴によってキャリア支援を行ってきたノウハウと、独自のAIエンジン「VIEW AI」とを組み合わせ、今回のアプリ開発・提供に至ったという。

今後、アサインでは新卒採用領域へのサービス範囲拡大も視野に入れながら、VIEW AIの利用を広げてデータを蓄積し、機械学習によるレコメンド精度の向上を図るとしている。

Googleドキュメントの文法チェッカーがAIベースになり精度が向上

米国時間2月26日、Googleは、Google Docs(G Suiteユーザーのみ)に、機械学習を応用した新しい文法チェッカーを組み込んだことを発表した。同社は当社この新機能をCloud Next 2018で発表したが、それ以来限定公開状態が続いていた。

文法チェッカーは新しいものではなく、Docs自身にも以前からあった。何が新しいかといえば、文の明らかな間違いや微妙な問題を見つけ出すために機械翻訳技術を応用したことだ。書かれたものを辞書にある単語と比較して間違いに印をつけるも一つの仕事だが、地域や文体によっても異なる複雑な文法規則を理解することはまったく別の話だ。このようなチェックを決められた規則のみに則って行うのは非常に難しいが、同社の機械翻訳技術を使って見つけることが可能になった、と言っている。

「機械翻訳を使用することで、間違いを認識して修正を提案することができる」とG Suiteのプロダクトマネージャー、Vishnu Sivajiが今日の発表で説明した。「われわれは言語学者と密に協力して機械翻訳モデルのルールを解読し、それを元にユーザーの文書に対して自動的に提案するしくみをつくった。すべてAIの力を利用している」

つまりGoogleは、まず大量の正しい文を使ってモデルを訓練し、次に英語からフランス語に翻訳するときに使う同様のモデルを使って、誤りのある文を正しいものに修正している。

[原文へ]

(翻訳:Nob Takahashi / facebook

機械学習プロジェクトのためのトレーニングデータを生成するSuperb AI

機械学習プロジェクトで開発を行う際の大きな課題の1つは、アルゴリズムをトレーニングするために、十分な数の関連データを用意することだ。この部分を助けようとしているのが、Y Combinator Winter 2019クラスのメンバーのSuper AIである。このスタートアップは、タグ付けプロセスをスピードアップするためにAIを使用して、各企業がプロジェクトの要件を満たすためにカスタマイズされたデータセットを作成する作業を支援する。

スタートアップのCEO兼共同創業者であるHyun Kimは、AIと機械学習をアプリケーションに組み込もうとしている企業にとっての大きな問題の1つは、モデルをトレーニングするための適切なデータセットを手に入れるところにあると言う。「Superb AIは、AIを使って、ハイテク大企業向けにカスタマイズされたAIトレーニングデータを作成します。私たちが一緒に働かせていただいているお客さまは、ご自身で行うよりも何倍も速く機械学習機能を製品の中に組み込むことができています」と、KimはTechCrunchに語った。

Kimと彼の共同創業者たち(CTOのJung Kwon Lee、機械学習エンジニアのJonghyuk LeeとMoonsu Cha、そしてAPACのセールス&オペレーション責任者として韓国のソウルに住むHyundong Lee)が、このデータの問題に気が付き、それを解決するための会社を立ち上げることを決心したのは、全員がこの業界で働いているときだった。

従来は、機械学習プロジェクトに取り組んでいる会社は、データをタグ付けするために人間の労働者を雇っていた。しかしそれはたとえデータを所有していたとしても、費用がかかり間違いも多いものだった。当時AIプロジェクトに関わったり、大学で研究を行ってたりしたKimと彼の共同創業者たちは、課題の中のタグ付け作業にAIを投入するアイデアを思いついた。

「時間がかかり間違いを起こしやすい手作業に依存する代わりに、Superb AIは独自の深層学習AIを利用して人間を助けて、画像や動画のラベリングの速さを最高10倍まで高めることができるのです」とKimは説明した。同社はまた、作業を始めるためのデータそのものを持っていない企業のために、データソースを探す手助けも行う。

Kimは、プロセスから人間を完全に排除しようとしているのではく、人間の作業者と人工知能基盤を組み合わせることで、タグ付けの正確性を高めようとしているのだと語る。彼はこれにはいくつかのステップがあると語る。まず、各ピースを個々に自動化するために、トレーニングデータをできるだけ多くのコンポーネントに分割する。データが複雑すぎて、AIツールがタグ付けを自動化できない場合は、彼らは「ヒューマンインザループ」(作業プロセスへ人間を組み込むこと)と呼ばれる代替アプローチを採用する。人間がデータにラベル付けすることによって、AIは時間が経つにつれて学習し、最終的にはますます多くのプロセスを人間から引き継ぐことができるようになる。

共同創業者たちは、シリコン・バレーで足がかりを築くために、Y Combinatorに参加することを決心した。シリコン・バレーでなら祖国の韓国よりもさらにマーケットを広げることができるからだ。「それは間違いなく、私たちに変革をもたらしました。私たちがYCのパートナーや他の起業家から得た知識と経験の量は、本当に信じられないほどのものです。また、広大なYCネットワークのおかげで、初期の顧客をシリコン・バレーで見つけることができました」とキムは語った。

昨年10月にローンチした同社は、共同創業者たちを含めて最大13人の従業員を擁している。Kimによれば、同社はシード投資で30万ドルを調達し、すでに製品から同額の収益を生み出しているという。

[原文へ]
(翻訳:sako)

AIが最短3分で動画を自動生成する「VIDEO BRAIN」、音声の自動テロップ化なども可能に

PRやSNSを通じたブランドマーケティングにおいて動画コンテンツは非常に効果的だ。だが、クオリティーを追求すると膨大な時間や予算を吸い取られてしまう。

本日紹介する「VIDEO BRAIN(ビデオブレイン)」はそんな課題を解決するためのツールだ。2018年9月にβ版を発表後、花王や静岡銀行などの大手企業を中心に先行導入されている。

VIDEO BRAINは、AIが自動で動画編集をサポートしてくれる自動動画編集クラウド。動画編集などの専門知識がなくても、誰でも簡単に動画を編集できるのが特徴だ。

写真やテキストなどの素材を入稿すると、AIエンジンが入稿データを分析し、ストーリー性のある動画を自動で作成してくれる。動画の尺やサイズ、文言などを希望にあわせて微調整するだけで、最短3分での動画編集が可能だ。

おでかけ動画メディア「LeTRONC(ルトロン)」や動画広告サービスなどを展開するオープンエイトは2月20日、そんなAIサポートによる自動動画編集クラウドVIDEO BRAINに、4月からβ版として3つ新機能が追加される。

発表された新機能のうちの1つは、「多変量解析による複数動画生成」だ。テキストデータ、動画や静止画などの素材を入稿すると、AIが5タイプのクリエイティブバリエーションを自動生成してくれる。これまでは1タイプのみの生成だった。

次に紹介したい新機能は「音声自動テロップ化」。インタビュー動画など、音声が入ったMP4素材を入稿すると、動画に入っている音声をAIが認識し自動でテロップを挿入してくれる。手間のかかるテキスト書き起こし作業などが必要なくなるのは嬉しいことだ。

そして最後の新機能は「数千万点の動画・画像素材提供」。ユーザーが動画作成用の素材を持っていない場合でも、最適な動画や静止画等の素材を検索できたり、シーンに合う素材をAIが瞬時に探し出して提案してくれる。要するに、動画のためにわざわざ素材を撮影する手間が省ける。

オープンエイトでは写真やイラストなどのデジタル素材のマーケットプレイス「PIXTA(ピクスタ)」を運営するピクスタなどとのAPI連携を実施し、パートナー企業が展開する素材の一部をユーザーへ提供する。

写真、イラスト等を含めた素材点数は、PIXTAより3100万点以上が用意される予定。加えてLeTRONCの約1万点の動画コンテンツの素材も順次、実装を予定している。

オープンエイトはAIによる自動動画生成機能「LeTRONC AI(ルトロンAI)」を2017年10月に発表。同社で内々に活用されてきたこの機能を活用し、一般企業向けにクラウドサービスとして提供開始されることになったのがVIDEO BRAINだ。現在、月額15万円(契約期間1年)からのプランが用意されている。同プロダクトは2月20日にオフィシャルリリースされ、同社は現在、AI技術の活用に関する特許を出願中だ。

AIの倫理的な未来に投資するということ

(編集部注:筆者Kriti Sharmaは英国拠点のSage GroupでAIと倫理に関するVPを務める。2017年に30才以下を対象とするForbes 30に選ばれ、テクノロジー・ビジネス・メディアにおけるインフルエンサー100人の1人)

つい最近の土曜日の朝、私は学童期の子供たちに人工知能について話す機会があった。子供たちの多くはコーディングをしたことがなく、AIという言葉を聞いたこともなかった。セッションでは、彼らがつくるAIが現実世界でどのように使用されるかを考えるエクササイズがあった。私は、人々を二分するのではなく人を助けることにつながるAIソリューションを生み出すことに向けられた子供たちの素晴らしい好奇心に感動した。将来のイノベーション、特に業界がテクノロジーを専門とする職業に就く機会を、さまざまなバックグラウンドや斬新な視点を持つ人にも広げることの意義をあらためて痛感して教室を後にした。

レトリックから行動へのシフト

Googleの軍用関連プロジェクトMavenへのGoogle従業員や社会の反応が示すように、世界中で倫理的AIの需要は実際にあり、しかも急を要するものだ。そして、テクノロジーを伴うやりとりが実際にリスクの可能性を軽減し、人々を助け、仕事の効率を改善するものであることを確認するのに不可欠なものでもある。業界にとっての主要な課題は、仕事や安全という点で人にとってAIが脅威となるというような、世界でみられるAIに対する考え方をいかになくすか、その方法を見つけ出すことだ。そして人間の賢明さを倫理的に補うものとAIを位置付ける方向に持っていくことだ。つまり、企業はテクノロジーについての社会の懸念を目に見える形で解決しながら、世界経済に与えるAIの影響について正直でなければならない。

今日のデジタルリテラシーの機会は、通常受ける教育以外のところに存在している。いくつかのプログラムが、子供やテクノロジーに興味を持っている経験の浅い労働者向けに課外の機会として登場している。ここでは、新たなスキルを習得するのにお金を払うことになる。こうしたオプトインのコースでは、若い世代が必要不可欠な計算思考と幅広い問題解決、AIと働くのに必要な分析的でクリエイティブなスキル、他の先端テクノロジーを受け入れるのをサポートする。これこそが、なぜそうしたコースがより多くの人に開かれるべきなのかという理由だ。

企業はまた、デジタルスキルのギャップを埋め、テクノロジー開発の人材を多様化し、倫理的AIリテラシーを押し上げるために、テクノロジー分野やデベロッパー分野の従業員の再訓練に投資する必要がある。特に企業のリーダーは、倫理的な方法でAIを活用する必要がある新手のスキルセットを理解するために幹部や人事にそうしたツールやデータを使う権限を与えるべきだろう。

企業は、AIとともに働く大きな可能性やエキサイティングな機会を、現在いる従業員や将来の従業員にいかに届けられるか、真剣に考えるべきだ。そして最も重要なことは、AIのリーダーたちが倫理プラクティスをあらゆるランクの従業員トレーニングにも盛り込むために、各国の業界や行政と意見を交わすことだ。そして一度コミットメントが得られたら、責任もって維持しなければならない。

人々のAI理解における業界の役割の定義

短期的には企業は公共部門のパートナーと仕事の関係を築くことを優先し、デジタル教育をサポートするコミュニティスクールプログラムに投資すべきだろう。結局、業界は若い世代の良い教育に大きな責任を持っている。ここでいう若い世代というのは、デジタルが当たり前の時代に生まれ、今後10年のうちに労働力となる人たちのことだ。

一方、若い人たちは、専門家やデベロッパー、テクノロジーとAI業界で現在働いているボランティアによる面と向かったメンターシップから新たなスキルを得ることができる立場にある。さまざまな人たちにコードの仕方を教えたり、彼らにAIを紹介したりするのは業界にとって差し迫った人材難を解決するのに役立つかもしれない。しかし、社会はまた人々に広く入手可能なデータを提供し、AIと共にする未来に向けて訓練するためのスキルの素養をつけさせる必要がある。

実際、従来のオフィスワークスキルは(ソフトウェアプログラミングスキルすらも)、人々がうまく、そして継続的にAIと共存する職場にするためにレベルアップする必要がある。Infosysのような企業はオートメーションの過程で、さまざまな分野の何百という労働者の再トレーニングをすでに行なっている。LinkedInはデベロッパー、エンジニア、テック部門の新入社員が、将来の自動化に備えて自らを適応させるための内部向けAIアカデミーを立ち上げた。一般的に、企業は倫理AIについてのテクノロジーキャリアを追求することに関心を持つ新世代への教育に投資すべきだ。そして、その輪に他の人も連れてくるよう彼らに促すべきだ。

私が働く会社では、若い世代にAIについて教えるという取り組みが2018年に始まった。そして初期の活動で、2つの主要事項が明らかになった。若い人々はAIのポジティブなアプリケーションを構築するのにフォーカスするということと、そしてオープンマインドで倫理AIについて学ぼうとすることだ。業界の人々にデジタルスキルを施すための最近の動きはコーディングに集中している。これはコーディングをしない人や、絶えず学び、そしてゆくゆくはAIのように自らコーディングするテクノロジーを発展させるために必要なクリエイティブさを完全に除外している。なぜプログラムのカリキュラムがAIをつくるのに必要なデジタルスキルをいかに発展させるかを超えて“ソフト・スキル”を中心に据えているか、ここにその理由が示されている。

未来の世代にスキルと包括性を身につけさせる

コアな部分では、AIリテラシープログラムでは、いかに人と関わり合うかを示す感情移入のような特性をどのように発達させるか、AIのように自動化されたテクノロジーと将来いかに働くか、ということを若い人々に教えるべきだ。しかしながら、さまざまなバックグラウンドを持つ人にコンピューターとAIトレーニングの機会を真に広く提供するためには、業界はより多くの人にAIによって生み出される最先端のイノベーションを紹介し、キャリア追求に必要なスキルを人々に提供する道を模索しなければならない。結局、ビジネスの多様化を達成し、テクノロジー主導の未来に従業員を備えさせ、さらにはイノベーションに倫理を注入するには、可能な限り多くの人がかかわることが求められる。これら3つの点で進歩がみられれば社会は広く恩恵を受けることになる。

イメージクレジット: kentoh / Getty Images

原文へ 翻訳:Mizoguchi)

Google CloudのスピーチAPIが安くなりサポート言語も21に増えた

Googleが今日、Google Cloud上のSpeech-to-TextText-to-SpeechAPIをアップデートし、主にエンタープライズユーザーにとって関心があると思われるいくつかの新たな機能を導入するとともに、サポートする言語を拡大し、そして料金を下げた。〔正式名は、Cloud Speech-to-Text API、および、Cloud Text-to-Speech API。〕

力点はSpeech-to-Textの方に置かれているが、Text-to-Speechの方も31の新しいWaveNetと24の新しい標準音声が加わるなど、メジャーなアップデートであることに変わりはない。またサポートする言語は、以下の7つが増えた: デンマーク語、ポルトガル語、ロシア語、ポーランド語、スロバキア語、ウクライナ語、そしてノルウェーのブークモール。これらはまだベータだが、これでサポート言語は計21になる。

オーディオの再生をデバイスの特性に合わせて最適化する機能もある。ささいな改良かもしれないが、音声で対話的に応答するコールセンターや、ヘッドセットを使うアプリケーションではありがたいだろう。

Cloud Speech-to-Textの方は、デベロッパーが複数のチャネル上のユーザーをサポートしなければならない状況(電話会議など)向けに、使いやすさが向上した。そのために同社は昨年、マルチチャネルの音声認識をベータで導入、そして今回それが、一般供用となった。

また、ビデオや高性能電話用のプレミアムのAIモデルも昨年ベータでローンチし、主に短いクエリや音声コマンド用のスタンダードモデルよりも書き起こしエラーが少なくなる、と約束された。この高性能AIモデルもやはり今回、一般供用となった。

新しい機能だけでなく、今回のアップデートではSpeech-to-Textの料金が値下げされた。Googleのdata-logging programに参加しているユーザーなら、ビデオを書き起こしするためのスタンダードとプレミアムのモデルの利用料が33%安くなる。ただしこの事業に参加すると、ユーザーデータがGoogleのモデルの訓練のために使われる。そのデータにアクセスするのは特定の社員のみで、プロダクトの訓練や改良以外の目的には使わない、とGoogleは約束しているが、どんなに安く使えてもそんなのは気持ち悪い、と思うユーザーもいるだろう。

でも、通常のプレミアムビデオモデルは、データロギングに参加しなくても今度から25%安くなる。前と同じく、最初の60分はやはり無料だ。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

ゲーム: この写真は本物の顔か?それともコンピューターが作り出した顔か?

コンピューターは最近ますます、人の心を落ち着かなくさせるような技能に秀(ひい)でてきた。それは、実在しない人間の顔を作り出すことだ。そしてコンピューターは、かつて存在したことのない人間の画像を作れるようになった。

今週、ThisPersonDoesNotExistが、このコンセプトをヴァイラルに広めるような役割を演じた。このWebサイトは、コンピューターが作り出した新しい顔を数秒間隔で次々と見せてくれる。そして、その…ときどき気持ち悪くなるような…猫バージョンが、ThisCatDoesNotExistだ。

しかも今度は、それがゲームになった。顔の画像を見て、どれが本物の人間か当てるゲームだ。(ネタバレ: そのゲームによると、上図の8つの顔はどれもコンピューターが作った顔だ。)

その名もまさしくWhichFaceIsReal(どの顔が本物)と呼ばれるそのサイトは、二つの画像を並べて表示する。どちらかが本物、他方がコンピューターが作った顔だ。このゲームを作ったのはワシントン大学の二人のプロフェッショナルで、上の二つのサイトと同じ技術を使っている。そのStyleGANと呼ばれるアルゴリズムを、Nvidiaのチームが最近オープンソースにした。このアルゴリズムは、二つのニューラルネットワークを対戦させる。一方は偽の顔の画像を作り、他方が偽を判定する。

現時点では、どれが本物か当てるのは不可能だ。でも、しばらくプレーしていると、もしかしてあなたなら、コンピューターが犯す間違いに気づくかもしれない。ゲームの作者も、いくつかの問題を指摘している。顔に水滴のようなしみがあったり、笑顔の口の前歯の数が多すぎたり…。

しかし、あなたがその90%を正しく当てたとしても、もしも偽の顔が、本物の顔とこれほど意図的なまでに対照的でなかったら、果たして当てることができただろうか? つまり偽の顔のどれかが、インターネット上のプロフィールのランダムな写真のような出来栄えだったとしたら、あなたは何も感じずにそれを見過ごしただろう。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

あなたの演奏や練習にオケや楽器で伴奏をつけてくれるアプリMetronaut

Metronautアプリがあると、スマートフォンやタブレットでクラシック音楽の弾き方や聴き方が変わる。このアプリを作っているAntescofoはこのほど450万ドルを調達し、アプリは16万回ダウンロードされた。

ラウンドをリードしたのはDaphniとOneRagTimeで、これにNobuyuki Idei、Yann LeCun、Sophie Gasperment、そしてThibault Viortらが参加した。

Metronautは、あなたが楽器を弾くと、プロフェッショナルなオーケストラや楽器の伴奏をつけてくれる。オケでなく、特定の楽器だけを(例: バイオリン)鳴らして、楽器の演奏の練習の参考にもできる。しかしそれは単なるオーディオプレーヤーではなくて、デバイスのマイクロフォンからあなたの演奏を聴き、そのテンポに合わせてオケや他の楽器を鳴らす。

オケや楽器の音は、スタジオでプロのミュージシャンの演奏を録音した音だ。だからたとえば、手元にフルートがなくてもフルートの音を鳴らせられる。

テンポを落としても音質は落ちないから、練習用にゆっくり伴奏を鳴らすこともできる。自分の演奏を録音、注釈、総譜作成などできる。そして自分の進歩をチェックできる。

アプリはフリーミアムなので、毎月10分以内しか使わなければ無料だ。逆に月に10ドル払うと、無制限で利用できる。

このアプリには数十種類の楽器の音があり、ピアノやバイオリンやフルートの練習に使う人が多いけど、ボーカル(歌)の練習にも利用できる。

このサービスは、コンテンツが命だ。自分の楽器用のコンテンツが多ければ、有料会員が長続きするだろう。だから今回得た資金も、録音の機会を増やしてコンテンツを充実し、ミュージシャンにとって必須のツールに育てたい、と考えている。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

OpenAIは非常に優れたテキストジェネレータを開発したが、そのままリリースするのは危険すぎると考えている

非営利の人工知能研究会社OpenAIによって開発された、新しい言語モデルをめぐって嵐が巻き起こっている。そのモデルが説得力のある整った文章を生成する能力に長けているために、同研究所はその悪用の可能性を懸念しているのだ。

だがコミュニティの中には、同社のその態度は、研究成果を囲い込まないという約束を破るものだと、怒りを表明する者もいる。

OpenAIによれば、新しい自然言語モデルGPT-2は、40ギガバイトのインターネットテキストのサンプルを用いて、次の単語を予測するように訓練されているということだ。これは最終結果として「与えられた条件テキストのスタイルと内容に適合する」テキストを生成するシステムである。この性質によって、利用者は「選ばれた1つの話題に沿った、リアルで一貫した内容を生成する」ことが可能になる。このモデルは、最初のバージョンからは大幅に改良されていて、より一貫性のある長いテキストを生成するようになっている。

しかし、より良い対話やより良い音声認識が可能なボットを実現するような、様々な素晴らしい応用がある一方で、OpenAIは、フェイクニュース、他人へのなりすまし、あるいはソーシャルメディア上での攻撃的あるいはスパムコメントの生成などにも利用できることに気が付いた。

例えば、GPT-2が、ほぼ誰もが賛成するだろう「リサイクルは世界にとって良いことだ」という「お題文」に対して、マシンは以下のような文章を吐き出したのだ:

「リサイクルは世界にとって良いことではありません。それは環境に悪く、健康にも悪く、そして経済にも悪いのです。冗談を言っているのではありません。リサイクルは環境に良くありません。それは地球にとって破壊的であり、そしてそれは地球温暖化の主な原因です。リサイクルは私たちの健康に良くありません。それは肥満や心臓病や癌のような病気をもたらします。リサイクルは私たちの経済にとって悪いものです。それは製品のコスト、ひいてはその製品で作られたすべてのものの価格を引き上げます。リサイクルは私たちの国には良くありません。私たちは世界で最も先進的で効率的なリサイクルシステムを持っているという特権のために、途方もないコストを支払っています。リサイクルは、時間、エネルギー、お金、そして資源の壮大な無駄なのです」。

OpenAIがその公開を心配したのも不思議ではない。

こうした理由のために、OpenAIは「安全とセキュリティに対する懸念によっては、将来発表を手控えることがある」という内容が記載された組織の設立趣意書を引用しながら、より小さなバージョンの言語モデルをリリースすることにしたことを発表した。確かに、同組織は現在の決定について、確信はないと語りつつ「私たちは、AIコミュニティが、特定の研究エリアに対する発表規範に関する課題に、いつかは取り組む必要があると信じています」と発言している。

誰もがそのメッセージを素直に受け取ったわけではない。GPT-2を発表したOpenAIのツイートは、怒りと欲求不満も招いた。そして同社に対して、研究の「囲い込み」だとか、同社の名前を取り上げて「Openという名前とは逆の振る舞いだ」といった非難が寄せられたのだ。

もっと寛容に、この先の悪用の可能性を考慮して、「倫理のための新しい基準」の設定を考えようと呼びかけている者もいる。

OpenAIのポリシーディレクターであるJack Clarkは、組織の優先事項は「テクノロジーの悪意のある利用、あるいは悪用を許さない」ことであり、それは「私たちにとってとても難しいバランス調整なのです」と語った。

OpenAIの初期資金提供者の1人であるイーロン・マスクも論争に巻き込まれたが、そのツイートの中で、同社には「1年以上」関わっていないこと、また彼と会社は「良い形で」互いに独立していると語った。

OpenAIによれば、GPT-2のリリースに関する最終的な決定はまだ下されておらず、6ヶ月以内には再検討されるということだ。一方同社は、政府は「AI技術の社会的影響と普及をより体系的に監視できる組織の拡大や創設を考慮すべきであるし、そうしたシステムの能力の進化についても計測し続けるべきだ」と語っている。

まさしく今週、トランプ大統領は人工知能に関する執行命令に署名したところだ。これは米国の情報コミュニティが、人工知能は米国の国家安全保障に対する多数の「新たな脅威」の1つであると警告してから数カ月後の出来事である(同時に脅威として挙げられたものの中には量子コンピューティングや自律型無人車両もあった)。

[原文へ]
(翻訳:sako)

歩行者の動き方にも注目する自動走行車の視覚

自動運転車の技術に関する研究で名高いミシガン大学は、歩行者の動作を予想するための進化したアルゴリズムに取り組んできた。それは、歩行者が何をしているかだけでなく、どのように動いているかにも着目するものだ。人間のボディランゲージは、その人が次に何をするのかを予測する際に、非常に重要な意味を持っている。

歩行者に注意を向け、彼らが何をしようとしているのかを予測することは、すべての自動運転車の視覚システムにとって、大きな比重をしめている。人がいることを認識し、それがどこなのかを理解することは、自動車の運転の仕方に、かなり大きな影響を与える。しかし、人がどこそこの領域にいて、あれこれの状態になっているということを認識してラベル付けできる、と宣伝している会社はあっても、歩行者がどのような姿勢で、どう動いているのかを認識できるとしているものはほとんどない。

(参考記事:WTF is computer vision?

そのような視覚のアルゴリズムは、まず人間を識別し、それが数フレームの間に何ピクセル移動するかを調べて、そこから推定するといったシンプルなものでもよいかもしれない(今はまだそうではないとしても)。とはいえ、当然ながら人間の動きは、それよりはちょっと複雑なものだ。

ミシガン大学の新しいシステムは、ライダー(訳注:レーザー光を使ったレーダー)とステレオカメラを利用して、人の動きの軌跡だけでなく、その人の姿勢と歩き方も評価する。人の姿勢によって、その人が車の方を向いているのか、車から離れようとしているのかを判断できる。また、杖をついているのか、電話するためにかがんでいるのかなど、歩き方によって、その速度だけでなく意図も判別できるのだ。

振り返って後ろを見ている人がいた場合、その人は体の向きを変えようとしているかもしれない。もしかすると、交通の流れに割り込んでくるかもしれない。腕を突き出している人がいれば、おそらく誰かに、もしかすると車に、止まれと合図を送っているのだろう。こうした付加的なデータは、システムが動きを予測するのに役立ち、より完成度の高い、不測の事態を考慮したナビゲーションのプランを作成することを可能にする。

重要なのは、1歩の歩行や腕の一振りを捉える、わずか数フレームを調べるだけうまくいくということ。それだけで、より単純なモデルよりも、かなり優れた予測をすることができる。これは、予測の性能にとって大きな違いを生む。というのも、歩行者が障害物の間にいる際には、数フレーム後にもまだ見えているとは限らないからだ。

現状では、ノイズも多く、まだ研究も進んでいないデータによってできることは限られている。しかし、そうしたデータを観測し、その目録を作ることは、それが自動運転車の視覚システムにとって不可欠な機能となるための第一歩なのだ。この新しいシステムの全容は、IEEE Robotics and Automation Lettersのサイト、またはArxiv(PDF)で読むことができる。

画像クレジット:University of Michigan

[原文へ]

(翻訳:Fumihiko Shibata)

企業のAI利用の前進と成長を助けるPeltarionが$20Mを調達

SpotifyやSkype、King、TrueCaller、Googleなどの元役員たちが創業したスウェーデンのPeltarionが今日(米国時間2/14)、シリーズAで2000万ドルを調達したことを発表した。このラウンドをリードしたEuclidean Capitalは、ヘッジファンドの億万長者James Simonsのファミリーオフィスだ。これまでの投資家FAMとEQT Venturesも参加し、このラウンドで同社の調達総額は3500万ドルになる。

もちろん、今の世の中、AIプラットホームに不足はない。そんな中でPeltarionは、“オペレーショナルAI”と同社が呼ぶものに特化している。そのサービスは、データの前処理からモデルの構築、それらのプロダクションへの導入など、企業がAIを利用する場合のあらゆる局面を支援するエンドツーエンドのプラットホームだ。このすべてがクラウドで動き、デベロッパーはグラフィカルなユーザーインタフェイスから自分のモデルの構築と試験を行なう。これに関しとくに同社が強調するのは、Peltarionのユーザーは低レベルのハードウェアやソフトウェアをいっさい扱う必要がなく、ひたすらモデルの構築にフォーカスできることだ。

PeltarionのCEOで協同ファウンダーのLuka Crnkovic-Friisは次のように説明する: “オペレーショナルプラットホームの上でAIシステムを構築しデプロイすると、そのスピードはTensorFlowなどの業界標準のツールを使った場合に比べて桁違いに速い。所要人員もはるかに少ないし、AIの高度な専門知識も要らない。それによって、これまでよりもずっと多くの企業がAIを運用でき、問題解決と変化の創成に集中できるようになる”。

しかし企業の選択肢がとても多い今の時代に、わざわざ無名に近いPeltarionを選ぶ理由はあるだろうか? Crnkovic-Friisはこう語る: “うちのクライアントのほぼ全員が、特定のクラウドプロバイダーへのロックインを心配している。ストレージやコンピューターを使うだけならどのプロバイダーも似たようなものだし、他のプロバイダーへの移行もできる。しかし彼らがとても心配しているのは、AWSやGCP、Azureなどのプロバイダーが提供しているさまざまな高レベルのサービスだ。それらが、完全なロックインを作り出す”。

もちろんPeltarionは、そのプラットホームがユーザーをロックインしない、と主張する。また、他のプラットホームは、個々の企業のオペレーションのヘルプではなく、自らの商用製品としてのAIサービスを作るためにAIの専門技術を大量に使っている、という。確かに同社の言うとおり、大手テクノロジー企業以外では、多くの企業がAIのスケーラビリティで苦戦している。“彼らはスターティングブロックの上で止まってしまう。二つの大きなバリヤがあるので、走り出せない: 未熟なパッチワーク的技術と、スキルの不足だ”、とCrnkovic-Friisは述べる。

同社は新たな資金を、開発チームの増員と、コミュニティやパートナーと協働できるチーム作りに向けていく。また、アメリカなどそのほかの市場における成長にも、充てていきたい、という。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

Liltは中核に人間を据えた機械翻訳ビジネスを構築する(お望みならAI書記も)

ウェブサービスで読むあらゆる文章を、速やかに自動的に翻訳できる能力は大したものだが、本当に使えるのは、概略で足りる外国語の記事やメニューや道路標識といった程度の文章だ。この素晴らしいツールは、もっと有効に使われるべきではないだろうか。それは可能だ。Liltという企業が、もう密かに始めている。しかも嬉しいことに、人間的な要素を置き去りにしようとは考えていない。

人間の翻訳者の専門知識と、自動翻訳のスピードと汎用性とを組み合わせれば、双方のもっとも優れた能力を引き出すことができ、大きなビジネスになる可能性がある。

機械翻訳の問題点は、それを本気で使おうとしたときにわかるが、下手なことだ。トマトとポテトと間違えることはないが、一連の言葉の文字通りの意味を正確に訳す以上のことになると頼りない。ほとんどの場合は文字通りの意味で事足りる(メニューなどはそうだ)が、長い文章となると、十分とは言えなくなる。

単に利便性の問題ではない。業務においても個人的なものであっても、言葉は重大な障壁になり得る。

「英語でしか読めないものが大量にあります」と、Liltの共同創設者でCEOのSpence Greenは話す。中東で大学院に通いながらアラビア語を勉強していたとき、彼はその問題に遭遇し、英語を話さない人たちの不自由さを知った。

そうした情報は、ほとんどが機械翻訳には適さない内容だと彼は説明する。Google翻訳で訳された説明書を頼りに重機を操作しなければならない事態や、自分の読めない言語でしか移民法が書かれていない国で仕事をする状況を想像して欲しい。

「本、法的な情報、投票に関する資料……、質が求められるものの場合は人間の関与が必要です」と彼は言う。

中東で翻訳の仕事を行い、その後の2011年にGoogleでインターンとして働いていたとき、Greenは機械翻訳に関心を抱いた。ほとんどのシステムで内容が劣化してしまうのだが、質を保ったまま情報にアクセスできるように改善するにはどうしたらよいか。

そうして彼が、共同創設者のJohn DeNeroとともに追求し実現させたのが、翻訳のためのツールとしてだけではなく、翻訳者のためのツールにもなる機械翻訳システムだった。翻訳システムの中で作業することで、翻訳者はより速く、より良い仕事ができるようになり、認知的負荷が軽減される。

Liltのツールの基本的な考え方は、次の文章や段落の作業の参考になる翻訳をシステムが提供するというものだ。文章構成、時制、慣用句などを翻訳者が参照できることで、少なくとも可能性として、より短時間により良い作業ができる。Liltでは、1時間あたりの翻訳語数は5倍にもなると説明している。結果は、人間の訳者だけが行った場合に比べて同等か、それ以上のものが期待できるとのことだ。

「私たちは複数の論文を発表しています。……この技術が有効であることを、私たちはわかっていました。私たちは翻訳者たちと研究を重ね、大規模な実験も行いました」とGreenは言う。しかし、知りたいのはどのように進めたかだ。

大企業に話を持ちかけて興味を持ってもらったのか? 「それを行うことで、大企業は消費者向けアプリケーションにばかり目を向けていることを私たちは感じました。品質の基準はどこにもありません。それが翻訳業界の実態です」とGreenは語る。

学術研究に留まり、補助金を使ってオープンソース化する? 「お金は、ほぼ枯渇状態です」とGreen。911の事件の後、情報収集とコミュニケーション能力の改善という名目で、予算は潤沢に与えられた。しかし、あれから10年が経過すると切迫感が消え、同時に補助金も消えた。

会社を立ち上げた? 「この技術が必要であることは、わかっていました」と彼は話す。「問題は、誰がそれを市場に持ち込むかでした」ということで、自分たちがそれを行おうと決めた。

面白いことに、翻訳の世界の大きな変化は、彼らが本格的に取り組み始めたときに起こった。統計ニューラルネットワーク・システムが、文章のようなものを効率的に効果的に解釈する自然に近い親和性のあるアテンション・ベースのシステムに取って代わられたときだ。文章の中の単語は、画像の中のピクセルと違い、前後の言葉に構造的に依存している。彼らは中核的な翻訳システムを再構成する必要があったが、それが結果的には発展につながった。

両義的な文の機械翻訳で正しい訳語をガイドするGoogleのTransformerシステム

「これらのシステムは、ずっと流暢です。とにかく優れた言語モデルなのです。次に、学習が速い。わずかなアップデートで特定の分野に適応できます」とGreenは言う。つまり、ひとつの分野に限れば、技術書や不動産の法律など、難しい専門用語や特別な法則に素早く対応できるということだ。

もちろん、だからと言ってすぐさま翻訳ビジネスの真ん中に飛び込で、出版からリアルタイムのもの、技術系文書から無数のバーティカル市場にまで広がる世界に、「ほら、AIを使おう!」と言うことはできない。

「この業界には、何であれ現実に自動化することに対して猛烈な構造的抵抗力があります」とGreenは話す。大手出版社には、今使えている方式を変えようという気はなかった。

「有効なものが見つかるまで、私たちはいくつものビジネスモデルを試しました。『うん、この人間を組み入れた方式は問題を根本的に解決してくれる。それを基盤に会社を興そう』なんていう企業はひとつもありませんでした。そこで私たちはバーティカルに統合したのです。大企業や行政と協力して、彼らのための翻訳のワークフロー全体を私たちが持つことにしました」

品質を落とさずに高速化する方式は、基本的に効率性を倍加させる。正確に訳さなければならない文書が大量にあるが、ほとんどを自腹でやらなければならない組織にとって、それはマタタビのようなものだ。

こう考えて欲しい。それぞれ異なる言語を話す20カ国で製品を販売する企業の場合、パッケージ、広告、説明書などの翻訳は、実質的にはいつまでも完了しない作業だ。それが速く安く、高品質でできるなら、そしてそれを一手に引き受けてくれる企業があったなら、渡りに船だ。

「私たちは、Zendesk、Snap、Sprinklrなどと仕事をしています。すべての翻訳作業を引き受けています。これは海外市場への進出を手助けするものです」とGreen。翻訳用の予算や人員に限りがあり、一定期間内で可能な新規市場の開拓が5〜6件だった企業も、Liltを使えば、効率化の度合いにより、同じ予算と人員で開拓件数は2倍から3倍にできる。

現在彼らは、自然な流れとして顧客の獲得に努めている。「去年の第四半期には、初めての営業チームを結成しました」とGreenは教えてくれた。しかし、行政との最初の仕事はとくに励みになった。なぜなら「独特な用語が必要」であり、文書の量も膨大だったからだ。現在、Liltは29の言語に対応しているが、今年末には43言語に対応するという。校正機能は、翻訳者ばかりでなく編集者の作業効率も高めてくれる。

彼らはまた、学術経験者とのつながりを増やすことにも努めていて、Liltの周りに翻訳コミュニティーを構築している。学術経験者は翻訳者に欠かせない情報源であり、言語の専門家であり、大きな市場でもある。科学文献のほどんどは、高度に技術的な内容を他の言語に翻訳することが大変に難しいため、英語でのみ出版されている。

「ハイテク企業はあらゆる才能を吸い取って、アシスタントやらAlexaとやらにつぎ込んでいます」と話すGreenは、優れた研究者が退屈な仕事をさせられていることに腹を立てているように見える。AIやロボティクスのような先端技術の分野では、何度も繰り返されていることだ。

最後にGreenはこう話していた。「この輪を閉じて、書籍の翻訳に挑戦することが私の最大の夢です。儲かる仕事とは言えませんが、第三の目標なのです。もし可能なら、それは何か意味のあることを成し遂げたと気になれる道になります」

まずはアプリの説明書や政府の無秩序な契約書といった仕事から始まるのだろうが、Liltの人間を輪に組み入れた作業方法を受け入れやすい、そうした部類の文書や市場は増える一方だろう。それに、AIと人間が協力し合う未来は、人間が置き換えられる未来よりも心強い。少なくとも翻訳の世界では、人間の手が排除できるようになるのは、ずっと遠い話だ。

[原文へ]
(翻訳者:金井哲夫)

チャットボットをまとめたカオスマップ公開(2019年版)

人工知能に関するニュースを報じるメディア「AINOW」は、2月12日にチャットボット系サービスをまとめたカオスマップ(2019年版)を公開した。掲載数は国内外の合計で81サービス。

同カオスマップでは、チャットボットサービスをログ型、選択型、辞書型、選択肢型&辞書型の4つのタイプに分類。各分類の説明は以下の通りだ。

  • ログ型:ユーザーが入力した文章を解釈して返答する。会話ログを学習するので、より精度が高いチャットボットの開発ができる。
  • 選択肢型:選択式回答のため、ユーザーはあらかじめ設定したシナリオ通りに利用することができる。
  • 辞書型:登録された単語に対応する回答を返す。ユーザーは自由記述式で回答することができる。
  • 選択肢型&辞書型:選択肢型と辞書型の両方を利用することができる。

この分類で分けたところ、最多のサービス数となったのは問い合わせやWEB接客サービスに多くりようされる辞書型チャットボットだった(35件)。高度な自然言語処理分析が必要なログ型チャットボットは、そうでない選択肢型、辞書型にくらべてサービス数が少ないことが分かる。

ユーザーがチャットボットに求めるのが果たして「限りなく人間に近い自然な会話」なのか、という問題提起はよくされるが、少なくとも現状ではログ型のチャットボットの数は少ないみたいだ。

データ分析者に特化したSNS「D-Ocean」がリリース、2020年までに1万ユーザー目指す

データ分析者に特化したSNS「D-Ocean」を開発するディーオーシャンは2月14日、同サービスのオープンベータ版をリリースした。

同サービスはデータ分析者がデータを入手するためのデータマーケットプレイスとSNSを融合したサービス。ユーザーはD-Oceanに自分が収集したデータをアップロードすることができ、他のユーザーがそのデータを分析に利用することが可能だ。同サービスはSNSとしても機能するため、他のユーザーが集めたデータに「ハート(いいね)」を送ったり、興味のあるユーザーをフォローしたりすることができる。

また、クラウド連携機能によってD-Oceanで取得したデータを自分の分析環境に簡単にインポートしたり、欲しいデータがサービス上にアップロードされていないときは、その分野に詳しい他のユーザーにデータアップロード(収集)のリクエストを送ることなどができる。D-Oceanにはデータ分析者またはデータ分析に興味があるユーザーが集まるので、データ分析者を採用したい企業などにとっては採用ツールとしても使えそうだ。

D-Oceanは完全無料で利用できる。Facebook、Google、Githubのいずれかのアカウントと連携することですぐに利用開始することが可能だ。

ディーオーシャンは2017年4月の設立。オープンベータ版を伝えるプレスリリースのなかで、同社は「2020年までに、1万ユーザー・10万データを目標とし、将来は日本国内だけではなく世界中のデータ、ユーザーと交流できるようなデータプラットフォームを創出していきたい」としている。

自動運転車が加速する知的財産保護の改革

1900年代初頭の社会は、馬車から自動車への移行に苦心していた。今日ではおかしなことに思えるかもしれないが、「通行の優先権」や速度制限、交通標識や信号などの概念がなかった時代があったのだ。こうした規則は、車が馬車に出合ったとき、馬を驚かせて暴走させたり、辛うじて「道路」と呼べるような砂利道をお互いに逸れて、馬の助けを借りなければ抜け出せなくなるような事態を避けるために、考え出されなければならなかった。

100年ほど早送りしてみよう。Quo Vadisはラテン語で「汝はいずこへ」という意味。これは、現代の自動車によって可能になった、どこにでも自由に行ける生活様式を表すのにふさわしいフレーズだろう。行きたいときに、行きたいところへ、行きたい人といっしょに行ける。フォレストガンプに触発された田舎道のドライブに、化石燃料車で出かけたり、深夜に軽く空腹を満たすために、EVで町中を流す。まったくモバイルな社会になったものだ。

しかし、注意散漫だったり、運転が下手なドライバーで溢れた通りや高速道路は、「オートピア」を「ディスオートピア」に変えてしまった。人工知能によって可能になるはずの、すばらしい自動運転車の世界を想像してみよう。自分で運転することなく、運転によるすべての恩恵が受けられるのだ。車は、自分の行き先に自分自身で完璧にガイドし、渋滞を緩和し、交通量を増加させ、道路の利用率を最適化する。さらにすばらしいのは、あなたがラテをすすりながらTEDトークを観てリラックスしていても、車は勝手に目的地に向かってくれる。

いや、そうじゃない。現在の技術水準では、さまざまな運転状況に対して、せいぜい高いパーセンテージで対応できる、というくらいであって、例外なく、というわけにはいかない。きわどい状況など、5〜10パーセントのケースでは、まだ人間の介入が必要となる。たとえば、道路にできた穴を緊急に補修している作業員に出くわしたとき、どうしたらよいのかわからない、といったケースは、まだかわいいものだろう。もっとマキャヴェリズム的な例を挙げれば、全方向が一時停止の交差点で、停止中の自動運転車に、人間が運転する車が90度の方向から向かってきた場合が考えられる。AI自動車は乗員を危険にさらさない、ということを知っていて、人間の運転者は前後の車との車間距離を保ったまま徐行して近づき、うまくAI車の動きを止めさせて、人間が運転する車の列がゆっくり途切れることなく永久に通り続ける、ということも、ラッシュアワーには起こり得る。

いずれの場合でも、人間(あるいは遠隔の操縦者)なら簡単に運転を引き継ぎ、交通整理の手信号に従うか、人間の運転する車を牽制することで、交差点を通過できるだろう。しかし、高速道路上で人間による介入が必要になった場合はどうだろう。たとえば、先に通ったトラックが落とした土砂が、車線を区切る白線を覆い隠してしまったら? 自動運転車は、コンクリートの壁に向かってハンドルを切り始めてしまうかもしれない。その場合、人間の運転者が、即座に運転を代わることが唯一の望みとなる。もしその頼りの人間がビデオを見ていたとしたら、顔を上げたときには、金属やガラスの破片の嵐の中、すべてが暗転することに…

大きな懸念は、現在の特許関連の法律ではAIシステムを保護するのに不十分であるということ

人工知能、というのは人間のように思考することを暗示する魅惑的な言葉だ。よくある映画のキャラクタのように、まるで人間のように話し、やりとりすることができるものと思われがちだ。しかしAIは、もう少し正確に言えば「機械学習」のこと。今日の機械学習は、世界と対話し、矯正のための入力を受け取ることによって、人間の知性を再現しようとしている。子供を褒めたり叱ったりすることによって、良いことと悪い事の区別を教えるのとほとんど同じように、今日のAIの機械学習は、似たような二者択一の矯正によるものとなっている。掲示されている30ではなく、35mphで走行すれば、それが誤った行動であるというフィードバックがあり、それを処理することで、AIはMapleストリートを30mphを超える速度で走ってはいけない、ということを「知る」。また、今はラッシュアワーだから、Mapleは西向きの一方通行になり、西に進む場合には全3車線のどこを通ってもいいということを知ることもできる。

何千ではないにしても、すでに何百というテスト車両が、人間が運転する車やトラックと道路を共有している。そうして何百万マイルも走行することで、経験豊かなドライバーと同じような、少なくともそれにできるだけ近い知識が得られるように学習する。そうすれば、道路工事の交通整理に従ったり、車間を詰めて運転するドライバーに対処したりできるほどの信頼を勝ち取ることができる。特許に記載されている技術の場合、新規参入者が追いつくことが可能だ(もちろん、特許使用料を払うか、その特許を回避する設計ができればの話だが)。今日の機械学習には時間と経験が避けられない。それとも、それをバイパスすることができるのだろうか?

大きな懸念は、現在の特許関連の法律では、AIシステムを保護するのに不十分であるということたとえば、機械学習のトレーニングセットや、プログラマが書いたソースコードの特定の表現など、データの編集結果を、特許で保護することはできない。さらに、機械学習プロセスと、その基礎となるアルゴリズムの反復的で漸進的な進化を考えると、特許の認可に必要とされるほど正確かつ細密に、AIシステムの手法と機能を記述すること自体、困難なものになり得る。

そして、誰による発明か、ということも問題になる。AIの自己学習プロセスが意味するのは、発明の主体がAI自身によって自律的に開発される可能性があるということ。もし、その結果に特許性があるとしても、HALを発明者として挙げるべきなのだろうか? これは法律だけでは解決できない領域であり、議会による決議を必要とする問題だろう。現実的な問題もある。この分野は急速に進化しているので、出願から取得までの手続きに何年もかかる特許では、最終的に認可されたとしても、それが有効となる前に無用のものとなったり、時代遅れになったりしかねないということだ。

こうした懸念もあるので、ほとんどの自動運転車(およびAI)の開発者は、知的財産を保護するために企業秘密保護法に頼っている。しかし、これはこの分野に新たに参入しようとする企業にとって、重大な技術的ハードルとなっている。もし、AI開発者が自らの技術を特許化していれば、必要となる情報は公開されていることになるが、そうでなければ、競合他社は基本的にゼロから始める必要がある。これは非常に不利な状況だ。もし市場に参入する競合が少なければ、消費者の選択肢もそれだけ少なくなるのは間違いない。

企業秘密保護に頼る開発には、数え切れないほどの難点がある。中でも深刻なのは、競合他社が熟練した従業員を引き抜き、学習済のデータも不正に入手しようとすることだ。それによって何百万マイルも必要な学習プロセスをバイパスすることができる。保護を徹底し、このような不正行為にも対処できるようにするためには、企業秘密を厳重に管理しておく必要がある。その結果、「知る必要がある」人だけが限定的に情報を扱えるような、厄介なセキュリティ対策が不可欠となる。

こうした状況は、馬が車を引いていた時代からの移行を容易にするために、道路、標識、信号機などの規則を開発しなければならなかったことを思い起こさせる。それと同じように、現在の知的財産保護の概念は、自動走行車への移行を可能にするための新たなコンセプトの創出までは必要ないとしても、少なくとも進化させる必要があるだろう。もう少し見守ってみよう。そして魅力的なドライブに備えて、シートベルトの着用をお忘れなく。

画像クレジット:mato181Shutterstock

[原文へ]

(翻訳:Fumihiko Shibata)

音声アシスタントの使用、2023年までに3倍超になるとの予測

英国拠点の調査会社Juniper Researchの予測では、音声アシスタントの使用が今後数年で3倍に増えそうだ。デジタル音声アシスタントの使用は2018年末時点で25億台だったが、2023年までには80億台に増えることが見込まれている。

そうしたアシスタントのほとんどは、GoogleアシスタントやSiriがAndroidやiOSのユーザーに提供しているスマホで使用される。

Googleは実際、同社の音声アシスタントが先月時点でデバイス10億台で使用可能になっている、と発表している。この数字にはAndroid統合が貢献している。一方、主にEchoのようなスマートスピーカーで活用されているAmazonのAlexaは1億台超に達している。

しかしながらJuniperは、今後数年間で最も成長する音声アシスタント活用のカテゴリーはスマートスピーカーではなくスマートTVになると予想している。

Juniperは、スマートTVの音声アシスタントは今後5年間で121.3%成長し、その一方でスマートスピーカーは41.3%の成長にとどまると予測する。ウェアラブルも大きな役割を果たし、40.2%の成長を見込んでいる。

スマートスピーカー分野においてはAlexaがすでにリーダー的存在だが、今後は自前の製品を展開する中国メーカーの攻勢を受けることが予想される、とレポートは指摘している。

なお、レポートでは、スマートスピーカーはコマースで使われていないとする考えに意義を唱えている。その代わり、音声コマースは実質的に成長し、2023年までに年間800億ドル超の規模になると推測している。ただし、ここには意外な要素が含まれている。

この“音声コマース”の数字には送金や、従来の買い物体験での音声コマース使用に伴うデジタル商品の購入が含まれている。さらに、800億ドルの大部分を実際の行動を伴う購入が占めるようになるとは予想していない。

「デジタルアシスタントが真にシームレスなクロスプラットフォーム体験を提供できるようになるまでは、音声コマースの大半はデジタル購入になると我々は考えている」とレポートをまとめたJames Moarは発表文で述べている。「コネクテッドTVとスマートディスプレイは、スマートスピーカーにはないビジュアルコンテキストを提供することができ、音声コマースには欠かせないものだ」。

また、デジタルアシスタントの浸透が世界のモバイルアプリマーケットにネガティブな影響を及ぼすとJuniperが考えているのは記すに値するだろう。特にJuniperは、マルチプラットフォームアシスタントに対する消費者のニーズが増大するにつれ、独立したデベロッパーが開発したスマホやタブレット向けのスタンドアローンアプリは減少する、と指摘している。これは、今日我々がアプリを使うときの単純なインターラクションの多くが音声アシスタントに取って代わられることが見込まれるためだ。その代わり、音声アシスタントを使うようになるとスクリーンタイムが減ることになる。

加えて、他のプラットフォームでの音声アシスタントではそうではないが、スマートスピーカーでの音声アシスタントはユーザーの毎日のルーティンの一部になるという初期兆候も見られる。この傾向は、将来、音声だけのインターラクションの需要増加につながるだろう、とJuniperはみている。

原文へ 翻訳:Mizoguchi)

退職回避AI開発でカオナビと楽天技術研究所が連携

クラウド人材管理システムを提供するカオナビは2月8日、楽天技術研究所と連携して従業員のコンディションや退職リスクを予測するAIの開発を進めることを発表した。「HR Dataイノベーションプロジェクト」と名付け、3月29日まで参加企業を募集する。

カオナビ代表取締役社長の柳橋仁機(左)と、楽天技術研究所代表の森正弥氏(右)

楽天技術研究所は楽天グループの研究機関で、グループのインフラの整備、データ分析、新しいユーザー体験の創造を研究の柱とした企業だ。

同プロジェクトは、アンケート調査や人事担当者の経験を基にした従業員のコンディション把握に限界があることから、効率的かつ精度の高いコンディション・退職リスク予測を実現することを目指す。

参加企業が収集したアンケートや人事データ(勤怠、性格、顔画像、ストレス、退職状況など)を、楽天技術研究所のディープラーニング技術を用いて分析。参加企業には、データの分析結果や完成したAIの先行提供などを予定しているという。

参加企業の条件は、カオナビを導入している、もしくは導入を検討している企業。実際に参加するには、人事データ(勤怠、性格、顔画像、ストレス、退職状況など)の収集・提供が必要になる。

「首をかしげる」は否定?それとも困惑? 東電大、ディスカッション参加者の行動をデータ化

国立研究開発法人であるNEDO(新エネルギー・産業技術総合開発機構)と東京電機大学は、会議などのグループコミュニケーションにおける人の表情、音声、体の動きなどのデータセットを作成し、大学や企業向けに提供開始する。

今回、東京電機大学は同校に所属する学生6人と社会人6人に協力を仰ぎ、それぞれ2セッションのディスカッション(合計100分)を実施した。各ディスカッションでは個人の振る舞いを正面から観察するためのカメラを3台、ディスカッションの様子を俯瞰するカメラを1台、360度のパノラマ画像を撮影するカメラを1台、着座位置・顔の向きを見るためのカメラを天井に1台配置して参加者の表情を撮影。ヘッドセットによって音声を収録し、参加者の頭部、胸部、両腕部にとりつけた加速度・角速度センサーによって体の動きもデータ化している。

同校が提供するデータセットには、発言、ジェスチャー、視線などの行動に対してラベル付がされている。企業や研究機関は、それらの会話データを使って会話分析をしたり、首をかしげるという動作が「困惑」を表しているなどのデータを学習データとして活用して行動認識システムを構築したりなどが可能だ。

このデータセットの優れている点は、参加者の顔が映る表情データも収録していることだ。東京電機大学によれば、「従来のコーパスは、個人情報保護の観点から個人の顔データを含めることが不可能」だったが、同実験では参加者の同意を得ることでその課題を解決した。

それともう1つ重要なのは、同一の収集規格のもとでデータを収集することを目的としたコンソーシアムが設立されたという点だ。東京電機大学が今回公開したデータセットは合計100分ほどのディスカッションを収録したものに過ぎず、データ量としてはまだ十分ではないだろう。しかし、このコンソーシアムによって同一の規格により集められたデータの継続収集と提供が可能になれば、この分野の研究は飛躍的に進む。すでに同コンソーシアムには東京電機大学のほか、東京農工大学、湘南工科大学、豊橋技術科学大学など10大学以上の研究者が賛同している。

アメリカのスマートスピーカーの採用台数は6600万、Amazonが大差でリード

スマートスピーカーにとって、良いホリデーシーズンだった。Amazonによると、Echo Dotは同社の全商品の中で最高の売上を記録した。そのことは、音声で命令するスピーカーの市場全体が大きく成長したことを意味するのだろう。今日(米国時間2/5)は、調査会社CIRPが、それらのスピーカーのアメリカにおける導入台数が2018年9月四半期の5300万台から2018年12月には6600万台に増加した、と報告した。そしてそれは、1年前の2017年12月にはわずか3700万台だった。

しかしその調査報告書によると、ホリデーシーズンの売上が、スマートスピーカーのメーカー各社のマーケットシェアを変えることはなかった。

報告書によると、AmazonのEchoデバイスが依然としてアメリカの市場を支配し、据え付け台数ベースで70%のシェアを握っている。次いでGoogle Homeが24%、Apple HomePodが6%だ。

CIRPのパートナーで協同ファウンダーのJosh Lowitzが、声明の中でこう述べている: “ホリデーの買い物客によって、スマートスピーカー市場は再度離陸した。しかし相対的なマーケットシェアは旧状を維持し、ここ数四半期にかけてAmazon EchoとGoogle Home、そしてApple HomePodが一定のシェアを維持している。AmazonとGoogleは共に、ベーシックからハイエンドまでの豊富な機種を揃えているが、Amazonの方が機種は多様である。言うまでもなくAppleは、高価格製品HomePodのみであり、Echo DotやHome miniのようなエントリーレベルの製品を出さないかぎり、大きなシェアを獲得することはないだろう”。

さらに興味深いのは、スマートスピーカーの購入者の一部が、自宅にすでに1台持っていることだ。CIRPによると、スマートスピーカーの所有者の35%が、2018年12月の時点で複数のデバイスを持っている。それは2017年12月の18%からの大きな増加だ(下図)。

この数字は、デバイスメーカーの今後の戦略にとって重要だ。つまり、最初の1台を売ることができたら、消費者が同じベンダーから再度買うこともありえるからだ。

Amazonはここでも初期的有利性を獲得し、Google Homeのユーザーに比べてより多くの消費者の複数台購入に成功している。1年前には、デバイスを複数持つユーザーの比率はEchoのユーザーがGoogle Homeユーザーのほぼ倍だった。しかしその後Googleは健闘し、2018年末ではEchoユーザーもGoogle Homeユーザーもどちらも、そのほぼ1/3が複数のデバイスを持っている。

しかし、市場調査会社の調査報告の数字は、各社横並びでほぼ同じ、ということはありえない。標本も、調査手法も、各社それぞれに異なる。

たとえばこの秋のStrategy Analyticsの調査報告では、アメリカにおけるAmazon Echoのマーケットシェアが63%、Googleが17%、Apple HomePodが4%だった。

またeMarketerの2019年予測は、Amazon Echoがアメリカ市場の63.3%を獲得し、Google Homeは31%、HomePodやSonosなど‘その他’が12%、としている。

とはいえ、すべての報告書に大書共通する所見は、Amazonの大差でのアメリカ市場の支配だ。差は縮まっているのかもしれないが、なくなる兆しはない。

[原文へ]
(翻訳:iwatani(a.k.a. hiwa

SNS画像から降雪量や路面状態を自動判別、Specteeが日本気象協会と共同開発へ

報道機関など向けの速報サービス「Spectee」を提供するスペクティは、日本気象協会と共同で、冬季の防災情報をリアルタイムに提供するサービスを開発する。同社はこの防災情報を、道路管理者や自治体などに提供していく予定だ。

TechCrunch Tokyo卒業生でもあるスペクティ(当時の社名はNewsdeck)は、これまでSNS上にアップロードされた事故や災害の画像、動画、テキストをAIが自動収集し、報道機関向けにいち早く配信するサービスを提供してきた。SNS上に映された画像が焚き火なのか、それとも火事なのかをも判別可能なほど精度の高い画像解析技術が同社の強みだ。

そのスペクティが日本気象協会と共同開発する本サービスでは、SNSや天気カメラからの映像をAIで解析し、「降っているのは雨なのか、それとも雪なのか」、「どれくらい雪が積もっていて、視界はどれくらい悪いのか」などを判別。それらの情報を道路管理者などにリアルタイムで提供する。これまで、降雪量や路面状態を判断するためには、人の目で確認するか、高額な計測機器が必要だった。SNSなどにアップロードされた画像からこれらの情報が入手できれば、大幅なコストダウンやリアルタイム性の向上が期待できる。

共同開発の背景について、Specteeは「冬季の防災情報に対する計測機器は高額であったり、技術的に開発途上であったりして、これまで人の目に頼る部分が多いのが実情。また自動運転の将来的な実運用が始まることを考えると、道路の雪氷管理の重要性が増し、路面状態の詳細な把握が欠かせなくなると考える」とプレスリリースの中でコメントしている。

今回の共同開発ではまず、画像・映像からの冬季の防災情報の取得に注力し、AIによる解析によって、雨雪判別、降雪量、積雪量、路面状態、地吹雪の発生判別、視程、歩道の滑りやすさを自動で判断する技術の確立を目指す。また、将来的にはその情報をリアルタイムで提供するだけでなく、各地のデータをリアルタイムで解析することで、他の地域における降雪量の予測などへの応用にも期待できるという。