GoogleのKeenは機械学習版のPinterest

Area 120というGoogle(グーグル)の社内インキュベータからKeenという「AIが関心あるトピックをクラウドから集めてくれる」サービスが登場した。いわばGoogleアラートの改良版だ。ただしGoogleアラートがGoogle検索の結果をメールで通知するだけなのに対して、Keenは機械学習と人間の判断を組み合わせ、トピックをキュレーションする専用ページを作ってくれる。

ユーザー興味を抱いている個々のトピックはKeenと呼ばれる(頭の回転が速いことを指す形容詞から取ったのだろう)。

共同創業者のC.J. Adams(C.J. アダムズ)氏によれば、ヒマな時間にぼんやりスマホを眺めて画像や記事を延々とブラウズしていることに気づいたことがこのプロジェクトのアイデアのきっかけだったという。アダムズ氏は同じ時間を使うなら自分が興味を持つトピックについて学ぶほうがずっとよいと考えた。つまり深く知りたいと思っていたテーマや学びたかった技能などだ。

このアイデアを発展させるためにアダムズ氏はGoogleの同僚4人を誘った。またPeople and AI Research(PAIR、人間とAI検索)チームの協力を得て作ったのがKeenだという。「人間とAI検索」は人間の活動を中心としてそれを助ける機械学習に焦点を当てたテクノロジーを開発しているチームだ。

KeenはウェブとAndroidで公開されており、利用するにはGoogleアカウントでログインして調べたいトピックを入力すればよい。アダムズ氏はリリースノートでパン焼きバードウォッチングタイポグラフィなどの例を挙げている。

キーワードを入力するとKeenは関連するトピックを提案してくれる。「犬の訓練」と入力すると、「犬の訓練教室」「犬の訓練本」「犬の訓練のコツ」「犬の訓練ビデオ」などが提案されるので適当なものがあればクリックするとそのテーマでKeenが作成される。

後でKeenを開くと興味に合致したコンテンツの画像がピンボードとして表示される。「犬の訓練」の例では、下の画像のように各種記事、YouTube動画、キュレーションされた役に立つソースのリストから、犬の訓練用おやつ製品のAmazonリンクなどが収集されている。

作成されたトピックについてサービスはGoogle検索と機械学習で新たなコンテンツを発見、収集する。ユーザーがKeenにコンテンツを追加、内容を整理すればKeen側からのレコメンデーションも精度もアップする。

使用感はPinterestのAI自動化版といったところだ。

Keenでトピックが作成されたらコンテンツを追加、削除できるのはもちろん、他のユーザーがコレクションを閲覧、編集できるよう共有するオプションもある。コレクションは公開することも、非公開にすることもできる。また新しいコンテンツが追加されたときメールで通知を受け取ることもできる。

実はGoogleアプリのニュースフィードは似たようなテクノロジーを使っている(The Verge記事)。ニュースフィードの場合、ユーザーの検索履歴とユーザーが興味も持っていると入力したテーマを組み合わせて収集された最新ニュースその他の情報がGoogleアプリのホーム画面に配信される。ただしKeenは検索履歴にはタッチせず、ユーザーが直接入力したトピックだけに基づいてコンテンツを収集するという。

またニュースフィードがそのタイトルどおり最新の情報に焦点を当てているのとは異なり、Keenはトピックに関する有用な情報を発表時期によらずに収集する。これは記事だけでなく、イベント、ビデオ、製品カタログなどの関連情報も含まる。

しかしGoogleログインで認証される同社のサービスである以上、収集されたデータは同社と共有される。もちろんKeenも他のGoogleサービスと同様に、同社のプライバシー約款が適用される。

現在のKeenはグーグルという大企業のインキュベータから生まれたばかりのプロジェクトではあるが、インターネットのパーソナル化の一つの方向を示して示しているといえる。テクノロジー企業は、以前から  ユーザーが興味を持つコンテンツを供給することがサービスに対してポジティブなイメージを与え、エンゲージメントを高め、セッションの長さやリテンション率をアップすることに以前から気づいていた。

しかし十分に注意を払わないと、パーソナル化はユーザーにいつも似たような情報を提供、有力な反対意見が出てもそれを伝えることができないといった弊害も起こしやすい。これはユーザーの世界観を狭くするだけでなく、バイアスを強化するフィルターバブル (The Wall Street Journal記事)や同意見だけを集めてくるエコーチェンバー(Cambridge Core記事)などの好ましくない副作用をもたらす。 アルゴリズムに基づいた記事推薦は奇矯なコンテンツを検索しているユーザーを危険な迷路に送り込みいっそう過激化させてしまう(The NewYork Times記事)リスクがある。極端な場合、過激化したユーザーがテロリストになるYahoo News記事)ことさえある。

Keenの場合も機械学習と人間の専門家をペアにするほうが賢明だろう。 しかしKeenではユーザー本人と(もし招待した場合は)友人や家族を以外に人間によるレイヤーは存在せず、AIテクノロジーが情報を集めてくる仕組みだ。

このことは現在のAIシステムに充分な知識を持った人間の専門家のキュレーションが必須であることを示しているが、Keenについていえば野心の範囲を今少し狭くして特定のトピックの情報収集に特化したほうがいいのかもしれない。

原文へ

(翻訳:滑川海彦@Facebook

Facebook Messengerが機械学習で詐欺や偽の友達リクエストを撃退、未成年者を護る

米国時間5月21日、FacebookはFacebook Messengerの新しい機能を発表した。ユーザーを騙そうと狙っている連中を追い払う機能だ。機械学習を利用して、短時間に大量の友達申請リクエストを送っていたり、18歳未満のユーザーにたくさんのメッセージリクエストをしているアカウントを見つける。この機能は、Messengerの検索アルゴリズムの変更により、偽の友達申請が目立って増加している中で発表された。

怪しげな行為が見つかったら、チャットウィンドウがポップアップしてユーザーにその問題を通知し、ユーザーはブロックするか無視するかの選択肢を選べる。この機能は、一部のAndroidユーザーには3月ごろから提供されているが、iOSには来週中に実装される。

この機能の狙いは、詐欺行為となりすましの両方を減らすことだ。特に重視するのが、まだこのプラットホームに接続していない若いユーザーと大人の対話を制限することだ。Facebookの説明では「この新機能は、18歳未満のユーザーに、面識がないかもしれない大人と交流するときは注意するように諭し、メッセージに反応する前に行動を起こす権限を与える」という。

同社によると、この機能はエンドツーエンドの暗号化が導入されてからも有効だ。機械学習の導入以降になるが、その後も人間オペレーターによる怪しげなメッセージのチェックは続けられる。

[原文へ]

(翻訳:iwatani、a.k.a. hiwa

軌道上で設定変更可能で機械学習に最適化されたXilinxの宇宙規格チップ

宇宙に特化した半導体メーカーのXilinx(ザイリンクス)が開発した、宇宙空間や人工衛星で利用可能な新型プロセッサーは、いくつもの点で世界一を誇っている。宇宙向けとしては初めての20nmプロセスを実現し、演算能力と省電力性を高めている。そして、ニューラルネットワークをベースにした推論アクセラレーションによる高度な機械学習に対応する性能を備えたのも初めてだ。

このプロセッサーはFPGA、つまり基本的にユーザーが設定を変更できるハードウェアなので、必要に応じて調整が行える。機械学習の面では、演算命令実行回数が「深層学習に最適化したINT8のピーク性能」で最大5.7TOPS。これは、ひとつ前の世代と比較して25倍もの性能アップだ。

Xilinxの新しいチップは、いくつかの理由で人工衛星市場で多大なポテンシャルを発揮できる。ひとつには、プロセッサーのサイズが格段に小さくなったことだ。同社がこれまで作ってきた耐放射線チップは65nmプロセスのみの提供だった。つまりこれはサイズ、重量、電力消費量における大幅な改善を意味する。このどれもが、宇宙での使用を語る際に非常に大切な要素となる。何故なら人工衛星は、打ち上げコストと宇宙空間で使用する推進剤の必要量を減らすために、できるだけ小さく軽く作る必要があるからだ。

もうひとつは、書き換え可能であるため軌道を周回するアセットは、必要に応じてプログラム変更をして別の仕事にあたらせられることだ。その仕事に今回、機械学習アルゴリズムのローカルでの処理が加わった。つまり理論的には、例えば雲の密度と気候パターンを追跡するよう設定された地球観測衛星を、森林破壊や鉱物の露天採掘を推論させる衛星に変更することが可能だ。また、市場の需要が大きい地域に衛星を集合させたい衛星コンステレーションの運用にも、大きな柔軟性をもたらす。

Xilinxのチップはどれも、地上で使うものといろいろな点で異なっている。前述の耐放射線性能もそのひとつだ。また、パッケージは分厚いセラミックでできており、激しい振動といった外部からのストレスが加わる打ち上げ時にも、空気がないために放射線や温度の点で過酷な環境にさらされる軌道上でも、確かな耐久性を確保できるように作られている。

[原文へ]
(翻訳:金井哲夫)

AI vs ウソと差別的発言、コロナ禍のいまFacebookが抱える大問題とは

FacebookのAIツールは、いまFacebookで吹き荒れている差別的発言や偽情報とユーザーの間に立つモデレーターの役割を一手に引き受けている。同社の研究者は、ミームを装った新型コロナウイルス感染症関連の偽情報や差別発言を特定することで、こうした発言に対する水際対策を講じるための機能をいくつか考え出した。

今は新型コロナウイルス関連の偽情報を検出して排除することが優先事項であることは間違いない。Facebookやその他のソーシャルメディアは、通常の憶測や議論だけでなく、組織的に不和の種をまいたりエセ科学を広めたりするなどの、悪意ある妨害の温床となっているからだ。

「新型コロナウイルス感染症の影響で、サイト全体でユーザーの行動が大きく変わってきている。我々が危険だと感じる偽情報が急増している」とFacebookのMike Schroepfer(マイク・シュローファー)CTOは報道陣の取材に答えた。

Facebookは世界中で数十社のファクトチェック団体と契約している。そうした団体との協力体制がどの程度の効果を上げているのかという疑問はさておき、偽情報はすぐに変異していく傾向があるため、1つの画像やリンクを削除するだけでも複雑な仕事になる。

一例として、次の1つの画像を見てほしい。

これらの画像は、背景、色、書体が同じであることからほぼ同一であるともいえる。だが、2枚目の画像は少し異なっている。オリジナルではなく、誰かがオリジナル画像のスクリーンショットを撮ったものだ。3枚目の画像もほぼ同じだが、文が逆の意味になっている。

あまり洗練されていない画像認識アルゴリズムでは、これらの画像はわずかに異なる部分があるために(生成されるハッシュ値がまったく異なるため)まったく別の画像として認識されるか、圧倒的に類似点が多いためすべて同じ画像として認識されるかのどちらかである。もちろん、人間が見ればすぐに違いが分かるが、この違いを確実に識別できるようにアルゴリズムをトレーニングするのはかなり難しい。それにFacebookでは情報がまたたく間に拡散するため、上記のような同じような画像が数千も存在する状態になることがある。

「我々の目的は、人が見れば同じ画像とみなされるこうした類似画像を同じ画像として検出することだ」とシュローファー氏はいう。「これまでのAIシステムは非常に精度が高かったが、その分、わずかな違いに対して非常に弱い。数ピクセル変更しただけで、別画像と認識してしまい、削除対象から除外されてしまう。そこで我々はこの2年半で、ニューラルネットワークベースの類似性検出システムを構築した。これにより、より広範囲にわたって、こうしたわずかに異なる画像を高精度で特定できるようになった」。

幸いにも、そうした規模での画像解析はFacebookの得意とするところだ。写真を比較して顔やあまり望ましくないものの特徴を検索するためのアルゴリズム基盤はすでに整っている。あとは何を探すのかを教えるだけだ。そうして数年の努力の結果完成したのが「SimSearchNet」だ。SimSearchNetは、最も目立つ(ただし人の目ではまったく気づかないような)特徴を詳しく調べることによって、ある画像に非常によく似た画像を検索および解析するシステムだ。

現在、InstagramとFacebookにアップロードされる1日あたり数十億にのぼる画像はすべて残らずSimSearchNetによって調査されている。

Facebook MarketplaceもSimSearchNetの監視の対象だ。このマーケットプレイスでは、アップロード画像に関するルールをすり抜けようとする人たちが、同じ出品アイテムについて、ほぼ同一だが少しだけ編集した画像(例えばN95マスクの画像など)をアップロードして、削除を免れるようにしている。SimSearchNetでは、色やその他の方法で編集された写真の類似性がチェックされ、(削除対象となっている写真と同一と判定されれば)出品が中止される。

差別的ミームと意味があいまいなスカンク

Facebookが対応に苦慮しているもう1つの問題がヘイトスピーチ、およびそれに準ずる不快表現だ。とりわけAIによる検出が特に難しいことが分かっている領域としてミームがある。

問題は、こうした投稿は画像とテキストの相互作用によって初めて意味を成すことが多いという点だ。テキストだけではまったく問題なかったり意味があいまいだったりしても、画像と組み合わせることで意味が明確になる。それだけではない。画像やフレーズにはそれこそ無限のバリエーションがあり、それによって意味が微妙に変わる(あるいは変わらない)ことがある。次の例をご覧いただきたい。

Facebook上のミーム

これらは悪意のあるミームだがトーンダウンされている。Facebookでよく見かける本当に差別的なミームはこんなものではない

パズルを構成する個々の画像は、コンテキストによって問題ないこともあれば、侮辱的にもなる。こうした善悪を機械学習システムでどのように判別すればよいだろうか?こうした「複合型ヘイトスピーチ」は、AIの動作の仕組みという観点からすると大きな問題となる。既存のAIシステムは言葉を理解し、画像を判別できるが、両者の相互作用によってもたらされる結果を特定するのは簡単ではない。

Facebookの研究者たちによると、このようなテキストと画像の相互作用というテーマに関する研究は驚くほど少ないという。その意味でFacebookの研究は解決策というより探査ミッションのようなものだ。この研究によりFacebookがたどり着いたテクニックは数段階の手順から成る。まず、人に膨大な数のミーム型画像も見てもらい差別的発言かどうかを示す注釈を付けてもらう。次に、このデータに基づいて機械学習システムをトレーニングして、既存のシステムとは決定的に異なるシステムを構築した。

こうした画像分析アルゴリズムはほとんどの場合、テキストと画像を同時に提示すると、まずはテキスト、次に画像という具合に別々に分類してから、両者の関連付けを行う。しかし、その方法には上述のような脆弱さがある。つまり、差別的ミームのテキストと画像を、コンテキストを考えずに別々に見ると、まったく無害なコンテンツであると判別される可能性がある。

Facebookのシステムはテキストと画像の情報をパイプラインの最初の段階で組み合わせて(これを「早期融合」と呼ぶ)、従来の「遅延融合」アプローチとの違いを生み出す。この方法は人の処理方法に近い。つまり、メディアを構成するすべての要素を見てからその意味やトーンを評価するというやり方だ。

この新しいアルゴリズムは現時点ではまだ本格的導入されてはいない。全体的な精度は65~70%程度だ。だがシュローファー氏によると、有効性の評価には「本当に判別の難しい問題」を使っているという。複合型ヘイトスピーチは簡単に判別できるものもあれば、人でも判別が難しいものもある。

システムのミーム判別能力をさらに高めるため、Facebookでは、今年後半に開催されるNeurIPS AIコンファレンスで「差別的ミームチャレンジ」と題するコンテストを実施する予定だ。コンテストは普通、機械学習システムにとって難しいタスクが課題として使われる。そのような新しい問題は研究者たちの大好物だからだ。

FacebookのポリシーにおいてAIが果たす役割の変化

Facebookは、新型コロナウイルス大流行の初期に、AIのモデレーターとしての役割を拡充強化していく計画を発表した。マーク・ザッカーバーグ氏は3月、記者会見で、「1万5000人のモデレーター契約社員が自宅で有給休暇を取っている状態を考えると、『偽陽性』(誤って削除対象にしてしまうコンテンツ)の件数が増えると思われる」と語った。

YouTubeTwitterも同時期にコンテンツのモデレーション作業のAI移行を強化したが、AIによるモデレーションへの依存度が大きくなると、ルールに違反していないコンテンツが誤って削除対象となる可能性があることを警告している。

FacebookはAI化を進める一方で、人間のレビューアの通常出勤を促すことに必死である。ザッカーバーグ氏は4月半ば、社員の通常出勤への復帰スケジュールを明示し、コンテンツレビュアーは通常勤務への早期復帰が最も望まれる「重要職」であると述べた。

FacebookはAIシステムによるコンテンツの削除は行き過ぎる可能性もあると警告しているが、新型コロナウイルス危機の拡大にともない、ヘイトスピーチ、悪質な脅し、偽情報などもサイトで拡散を続けている。Facebookは最近、マスクをしないようにとか、ワクチンが入手可能になっても買い求めないように促す、健康に関する偽情報ルールに明らかに違反した口コミ動画を広めたとして非難されている。

この動画は「Plandemic」という公開予定の偽情報ドキュメンタリーから抜粋され、最初はYouTubeで拡散したものだが、研究者たちはFacebookで活発に活動している陰謀論支持者グループが広くこの動画を共有した結果、ネット上で広く議論される主要な話題となったと見ている。陰謀説がちりばめられた26分間のこの動画は、アルゴリズムで解釈するのが難しいコンテンツの典型例でもある。

またFacebookは火曜、テロリズム、ハラスメント、ヘイトスピーチといったカテゴリ全体にわたるモデレーション作業の詳細を記述したコミュニティ規定違反対応レポートを発表した。今回のレポートにはパンデミックが発生してから1か月分の結果しか含まれていないが、AIによるモデレーションへの移行が進めば、次回は、その成果がより反映されたものとなるだろう。

Facebookのモデレーション作業に関する質問に対し、ザッカーバーグ氏は「パンデミックによって人によるレビューが大変難しくなった。ユーザーのプライバシー保護および社員の精神衛生の保護に関する懸念から、レビューアの在宅勤務は課題が多いが、それでも現在その方向に確実に進めている」と述べた。FacebookはTechCrunchの取材に対し、常勤コンテンツレビュアーの出社勤務については、ごく一部の希望者にのみ許可していると回答した。コンテンツ管理担当副社長Guy Rosen(ガイ・ローゼン)氏によると、大部分の契約コンテンツレビュアーは在宅勤務が可能となったという。「モデレーション作業では今後も人間の能力が重要な役割を果たすだろう」とローゼン氏は語った。

関連記事:いまさら聞けない機械学習入門

Category:AI・人工知能

Tag:Facebook 機械学習 画像認識

“新型コロナウイルス

[原文へ]

(翻訳:Dragonfly)

マイクロソフトが自律システム向け機械教示サービス「Project Bonsai」をプレビュー公開

米国時間5月19日、Microsoft(マイクロソフト)は同社主催のBuild 2020で、新しいMachine Teaching(機械教示)サービス、Project Bonsai(ボンサイ)を発表した。現在パブリックプレビュー版が公開されている。

この名前に聞き覚えがあると思う人は、おそらくマイクロソフトがBonsaiという会社を買収したからだろう。2018年、機械学習に特化していたBonsaiは、シミュレーションツールに複数の機械学習技術を組み合わせることで、産業用制御システムに焦点を当てた汎用ディープ強化学習プラットフォームを作った。

Project Bonsaiもまた企業の自律機械の学習と管理のために同様の狙いを持っていることは容易に想像できるだろう。「Project Bonsaiを使えば、AIの専門知識を持たない特定分野の専門家が、最先端の知識を機械システムに追加できる」とマイクロソフトはリリース文で語っている。

「パブリックプレビュー版のProject Bonsaiは、Bonsai社の技術と、2019年のBuildとIgniteでプライベートプレビューを発表した自律システムをベースに開発されている」。

マイクロソフトによると、Project Bonsaiは顧客の自律システム開発を支援するための同社の長期的展望の第1弾にすぎないという。同社はMachine Learning(機械学習)と比較してMachine Teaching(機械教示)の優位性を強調し、他の手法よりブラックボックス的要素が少なく、期待どおりに動かない時にデベロッパーやエンジニアがデバッグしやすい点を指摘した。

Bonsaiの他にもマイクロソフトは、エンジニアやデベロッパーがリアル世界の制御システム開発の基本を学ぶためのオープンソースのバランシングロボットであるProject Moabを発表した。3本の腕で支えられた台の上にボールをバランスさせるようロボットに教えるというものだ。

ロボットは3Dプリントして作るか、2020年中に売り出させる完成品を買うことができる。MathWorks(マスワークス)が開発したシミュレーションがあるので、デベロッパーは今すぐ試してみることもできる。

「卵を立てるといった従来の方法では容易でなかった分野に今すぐ参入できる」とマイクロソフトのゼネラルマネージャーであるMark Hammond(マーク・ハモンド)氏はいう。「Project Moabの鍵は、エンジニアがいろいろな問題に挑戦し、ツールやシミュレーションモデルの使い方を学べるプラットフォームを提供することだ。ひとたび概念を理解すれば、他のまったく新しい分野に応用できる」

関連記事:Microsoftが強化学習のスタートアップBonsaiを買収して自律型システムの研究開発を推進

[原文へ]

(翻訳:Nob Takahashi / facebook