AIでヘイトコメント問題に取り組むInstagram

Instagramは、敵意があったり、攻撃したり、あるいは嫌がらせをするようなコメントを自動的に検出し、人びとがそれらを見ないようにする仕掛けを導入しようとしている。この新しいシステムはFacebookとInstagramがDeepTextを使って行った成果に基づくものだ。なおDeepTextとは、スパムと戦うために言葉を文脈の中で解釈するテキスト分類エンジンだ。

Wiredが最初に報告したように、Instagramのシステムは、Facebookがスパム対策に上手く適用できた技術を、昨年10月から取り込んでいる。どのようスパムを識別すべきかを人間の入力によって教える訓練を経て、チームは満足できる結果を得ることができた。ただしこのことによって、対策前に比べて正確にはどれ位の効果が出たのかについては発表されていない。

このシステムの成功に基づいて、チームは更により強烈な問題に適用できるかを探りたいと思っていた。すなわち敵意に満ち、嫌悪感むき出しで、嫌がらせを狙ったコメントを識別するということだ。さて、おそらく読者はインターネットには詳しいと思う。もしそうなら、インターネットという場所が、その最終的な効果をほとんど考慮しない、言いっ放しの、傷つける罵りや攻撃が、大量に拡散される手段となっていることに気がついているだろう。

Wiredによれば、DeepTextの訓練を請け負った評価者たちは、ネガティブなコメントを識別して、それらを「いじめ、人種差別、性的嫌がらせ」のような幅広いカテゴリーに分類するような訓練を行った。評価者たちは、現在の公開に至る前に、少なくとも計200万件のコメントを分析したと言われており、分類の正しさを確実にするために、それぞれのコメントは最低2回評価された。

レポートによれば今日（米国時間6月29日）からシステムは稼働し、今後は敵対的なコメントを入力してもただ消されることになる（ただしそのコメントを投稿した人には表示され続ける。これは表示されるまで投稿を繰り返すような、フィルターをすり抜ける努力をさせないためだ）。このフィルタは、最初は英語のみに適用されるが、このプロジェクトのために雇われた評価者たちは皆少なくともバイリンガルであり、Instagramはそのスパムフィルターを他言語にも広げつつある。よって他の地域にこのツールが展開されるのも時間の問題だろう。

個人的には、Instagramは既に多くの友人がやってくるソーシャルネットワークになっていると思う。なぜなら大部分のインターネットソーシャルフォーラムよりもより親しみやすいものだからだ。もし今回のシステムが効果的だということが分かったら、長期的には利用者を長く留める避難所になることもできるだろう。

[ 原文へ ]
（翻訳：Sako）