インターネットのセキュリティー関連商品とサービスを提供するDuo Securityの研究チームは、ツイッターで暗躍し暗号通貨の詐欺を働く高度なボットネットの存在を突き止めた。
このボットネットは、ツイッターのアカウントを自動的に識別する方法を開発し公開するための、さらにはボットやその活動について研究を掘り下げるための、大規模な研究プロジェクトの中で発見された。
研究チームは、Twitter APIと標準的なデータエンリッチ化技術を用いて、5億件以上のつぶやきを含む、一般のツイッター・アカウント8800万件分の大きなデータセットを作成した(ただし、研究のために焦点を当てたのは、アカウントごとの最後の200件のつぶやきだとのこと)。
そして彼らは、古典的な機械学習の手法を使って、ボット分類システムをトレーニングし、その後、十分な試行を重ねたさまざまなデータ科学技術を用いて、発見したボットネットの構造のマッピングと解析を行った。
他の研究者がバトンを引き継いで、研究を発展させられるよう、この研究資料とデータ収集システムはオープンソース化されている。たとえて言うなら、いいIDと悪いIDを自動的に見分ける研究などだ。
彼らが開発した分類システムの対象は、自動化と人の介在とを意図的に混合してボットであることを発見されにくくするハイブリット・アカウントではなく、純粋なボットだ。
この研究では、感情は問題にされていない。むしろ、ツイッター・アカウントがボットなのか人なのかという核心的な問題にフォーカスされている。
データセットには、たとえばカスタマーサービスのための、自動処理と人の対応との両方で運用されるツイッター・アカウントのような「サイボーグ」ハイブリッドが、わずかに混入している可能性は高いと彼らは話している。しかしそれでも、政治的な偽情報を排除するための国の施策で使われているような、さらにわかりづらいボットと人のハイブリッド・アカウントの特定には、とくに力を入れていなかった。
この研究によって、ボットネットの構造に関して、いくつか面白い分析結果が示された。論文によれば、彼らが発見した、少なくとも1万5000(「もっとずっと多いはず」)のボットで構成される暗号通貨詐欺ボットネットに関するケーススタディーも含まれているが、そのボットネットは、悪意ある「プレゼント」広告を使って、何も知らないユーザーから金を吸い上げようと試みるという。
「試みる」というのは正しい時制だ。なぜなら、ボットネットの発見をツイッター社に報告したにも関わらず、それはいまだにツイッター上で活動をしているからだ。合法的なツイッター・アカウントを装って報道機関を捲き込み(下の写真)、また、ずっと小さなスケールでは、認証されたアカウントを乗っ取っている。
さらに彼らは、ツイッターのサイドバーにある「おすすめユーザー」で、他のスパムボットが推薦されているのことも発見している。これは痛い。
ツイッターの広報担当者は、プラットフォーム上でのボットやボットネットによる被害と現状認識に関する私たちの質問には答えようとしていない。そのため、こうした暗号通貨詐欺ボットネットをいまだに完全に駆除できない理由は、明らかになっていない。しかし、この研究に対する声明で、ツイッター社は、この種の自動化されたスパムは、同社のスパム対策によって自動的に検知され、隠されるようになっていると主張している(Duo Securityの研究者がTwitter APIを通じてアクセスが許されたデータには、それは反映されていない)。
ツイッター社はこう話している。
私たちは、こうした形の操作を認識しており、それらのアカウントが詐欺の目的でユーザーに関わろうとすることを予防するための、数々の検知システムを積極的に導入しています。スパムやある種の自動化システムは、ツイッターの規則に反します。多くの場合、スパム的なコンテンツは、自動検知によってツイッターには表示されないようになっています。しかし、ツイッターの検索や会話のエリアから、スパム的なコンテンツが非表示にされたとしても、APIを通したときの有効性には影響しません。つまり、ツイッター上では見えなくなっていても、APIを使えばスパムは見えてしまいます。スパム関連のアカウントは、ツイッター・アカウントの5パーセント以下に過ぎません。
ツイッター社の広報担当者はまた、すべてのボットや自動化システムが悪ではないと(当然ながら)強調している。彼女が示した最近の同社のブログ記事には、そのことが繰り返し語られていた。そこでは、たとえばPentametronのような一部のボットは「愉快で楽しい体験」をもたらすと紹介している。Pentametronは、たまたま弱強五歩格の形式に書かれた韻を踏むつぶやきの組みを見つけ出して詩を作るという、古くからある自動システムだ。
普通の神経の持ち主なら、シェークスピアが愛した韻文のオマージュを作る自動システムを悪く思うことはないだろう。しかし同時に、普通の神経の持ち主なのに、ツイッター上で続けられる暗号通貨詐欺という害悪を悪く思っていないのか……。
ひとつだけ、はっきりしている。「ボットか否か」という質問に答えるという難しい仕事は重要であり、オンライン詐欺の武器化を考えると、これからますます大切になるということだ。これは非常に政治色が強く、必要不可欠な戦いになる可能性があるため、あらゆるアカウントに「ボット度」を示す必要が出てくるかも知れない(これを行うかどうかについては、ツイッター社の広報担当者は答えてくれなかった)。
ツイッターの自動化システムを特定する方法や技術の研究はすでに行われていても、Duo Securityの研究チームは、それを支援するデータが周囲にないことに不満を感じると言う。しかし、それが彼らに研究を続けさせる推進力にもなっている。
「不完全なケースもありました」とデータ科学者のOlabode Aniseは話す。「彼らが使用したと主張しているデータを、どこで入手したかを明らかにできないのです。彼らはおそらく、結論からスタートしたのでしょう。結論から入る研究は少なくありません。私たちは、この研究を自分たちのものにして引き継いで欲しいと考えています。だから、私たちの手法やツールをオープンソースにしているのです。そうすれば、みんな一から始めることができる。まずはデータを集め、モデルをトレーニングして、それからツイッター上のボットを局所的に発見できるようになるのです」
「私たちは特別なことも、大発明もしたわけではありません」と彼は言う。「私たちは、公的なツイッター・アカウントに関連する最大クラスのデータセットを作り上げたという確信があったので、飛び抜けて大規模な研究ができたのです」
Aniseによると、彼らの分類モデルのトレーニングには、サザンカリフォルニア大学の研究室から提供された2016件のデータと、彼らが作った公的なつぶやきのデータセットを探っている間に発見した暗号通貨詐欺ボットネットのデータの一部も、使われているという(なぜなら、彼によるとこのボットネットは「折り紙付きの自動化システム」だからだ。暗号通貨詐欺も、良いことをしたわけだ)。
分類モデルの精度に関して、ツイッター上にどれだけのボットが存在するかを示すデータが常に足りない部分が「難点」だとAniseは言う。
ツイッター社は知ってると想像する(あるいは期待する)人もいるだろう。少なくとも見積もることはできるのではないか。しかし、どちらにせよ、ツイッター社はその情報を公開していない。つまり、公的なつぶやきデータに対して、「ボットか否か」モデルの精度を確かめることは、研究者にとって困難だということだ。そのため彼らは、ラベリングしたボットアカウントによる(小さな)データセットを使った分類モデルの照合に頼らざるを得ない。それゆえ、その精度がどれほどの精度でわかるかは、ボット発見とはまた別の問題となる。
Aniseは、「他のタイプのアカウントを正確に特定する」場合、彼らの最良のモデルは、照合による検査で98パーセント止まりだったと話してる(つまり、8800万件の完全なデータセットを使用した検査ではないので「そのアカウントがボットなのか違うのかを、誰でも簡単にわかる方法というものがないのです」と彼は言う)。
それでも研究チームは、「現実的なデータ科学技術」と彼らが名付けた方法を使った彼らのやり方が、いつか実を結び、ツイッターのボットを検知する効果的な分類モデルが実現すると、自信を持っているようだ。
「基本的に私たちが示したものは、実際これが私たちの本当の目的だったのですが、誰でもチュートリアルを見て、そのとおりにやれば機械学習を使ってボットを確実に特定できる、シンプルな機械学習の手法があるというです」と彼は言う。
もうひとつ、小さな問題がある。モデルがトレーニングに使っているボットが、ツイッター上にあるすべての自動化システムではないということだ。それが精度にも影響すると彼は認めている(「自分が作ったモデルの性能は、自分が持っているデータの内容を超えることができない」というやつだ。ここでまた、最良のツイッターのデータを持っている人は、みなツイッター社にいるという問題に突き当たる)。
彼らの論文に記されている暗号通貨詐欺ボットのケーススタディーは、注目を集めるためだけのものではない。それには、他の研究者たちが、彼らが説明するツールと技術を使って、最初のボットを見つけ出すところから、元をたどって正体を暴き、ボットネット全体を消滅させるところまで研究を発展させられるようにする狙いがあった。
そこで彼らは、ツイッターのボットネット探しのための「ハウツー」ガイドを製作した。
彼らが研究のためにソーシャル・ネットワーク・マッピングを使用して分析した暗号通貨詐欺ボットネットは、論文では「ユニークな三段の階層構造」を持つと記されている。
「これまで発見されたツイッターのボットネットは、大抵がフラットな構造をしており、各ボットは、ボットネットの中で同じ仕事をしていました。それらはみな、特定のタイプのつぶやきを広めるか、特定のタイプのスパムをばら撒きます。通常、仕事を分担したり、部署に分かれたボットネットは希です」とセキュリティー・エンジニア主任のJordan Wrightは説明している。
「このボットネットは、誰をフォローしたか、誰がフォローしているかを知るために、別のボットとのソーシャル・コネクションのマッピングを始めると、ボットはある特定の方法でつながり、ひとつのクラスターはまた別の方法でつながっているという、非常に明確な構造を示すのです」
「これは、ボットを組織化させてゆく戦略を、ボットの持ち主がどのように変更しているかを知るために重要なことです」
彼らはまた、そのボットネットから発せられるつぶやきのスパムが、互いにボットネットの中で拡散されて、全体的な暗号通貨詐欺が増幅される仕組みになっていることも発見した。Wrightによると、これは「人工膨張」のプロセスだと説明している。そしてこれは、ボットネットの持ち主が、「いいね」をしたり、後に詐欺スパムをつぶやくという単独の機能を持つ新しいボットを作るときに役立つとのことだ。
「目的は、それらに人工的な人気を与えることです。もし私が被害者で、ツイッターをスクロールして見ていたとします。そしてそのボットのつぶやきに出会ったとき、リツイートやいいねの数の多さから、これは合法的なアカウントだと判断してしまうといういう仕組みです」と彼は言う。
「いいね同士のつながりや、私たちが集めたソーシャル・ネットワークをマッピングしてみると、そこに現れるのは多層構造のボットネットです。非常に独創的で、非常に洗練されていて、非常に組織的です。各ボットには、より大きな目的の達成を支えるための、たったひとつだけの仕事が与えられています。それがこのボットネットのユニークな点です」
ツイッターは、このところ大量の変更を行っている。プラットフォーム上での、より高い信ぴょう性や権威をボットに持たせるためにスパム犯が仕掛ける不正な活動を閉め出すためだ。
しかし、ツイッター社には、まだまだやるべきことがあることは確かだ。
「それが洗練されていると思うのには、非常に現実的な理由があります」と、チームがケーススタディーで紹介した暗号通貨詐欺ボットネットについて、Wrightは話す。「それは動いているからです。時間を追うごとに進化し、構造を変化させています。その構造には階層があり、組織化されています」
[原文へ]
(翻訳:金井哲夫)