国家安全保障局(NSA)は、諜報員がアメリカ人数千万人分の通話記録を集めているだけで、実名は分析から除かれていて安全であると言いたがる。しかし、スタンフォード大学の研究者、Johathan Mayerらは、いわゆる「メタデータ」を個人名と一致させることは、Google検索とあまり変わらない簡単な手順で可能であることを発見した。
「もし、一介の学術研究者がここまで、この早さで調べられるのなら、NSAが大量の通話記録を識別できないとは到底信じられない」と 彼らは書いている。
有志が登録した通話記録からなるクラウドソース公開データベース、MetaPhoneを使うことによって彼らは:
クラウドソースされたMetaPhoneデータセットから無作為に5000件の電話番号を抽出し、Yelp、Google Places、およびFacebookの登録簿を検索した。わずかな努力とこの3つの情報源 — すべて無料公開 — だけから、1356件(27.1%)の番号を一致させることができた。内訳は、Yelpでの一致が378件(7.6%)、Google Placesが684件(13.7%)、Facebookが618件(12.3%)だった。
どこかの組織がそれなりの人員を投入した場合はどうだろうか?
人力による分析を控えめに推定するために、われわれのデータセットから100件の番号を無作為抽出し、それぞれにGoogle検索をかけてみた。一時間以内に、100件中60件を個人または企業名と関連づけることができた。前述の3つの情報源を加えたところ、数字は73に増えた。
本来匿名であるべきデータベースから個人を特定する科学は、学界でゲーム化している。昨年、ある研究者グループは、親類のDNAデータベースと公開人口統計データから、個人を特定できることを証明した。
さらに過激なところで、別の研究者らは、Facebookユーザーが「いいね!」をつけたページから、性的指向を推定した(ゲイの男性はカーリーボテとフライに特別な感情を持っているらしい)。
「あなたは自分の情報を隠しているつもりでも、われわれは多くを知ることが可能だ」とメリーランド大学の計算機科学者、Jennifer Golbeckは言う。彼女はFacebookユーザーの識別に用いられたのと同様の研究を行っている。
統計的に、難しいことではない。サンフランシスコ在住で背の低い31歳のユダヤ人ライターは何人もいない。アルゴリズムで全員を識別することはできないとしても、検索対象を劇的に絞れるので、必要な情報を見つけることは容易だ。
政府機関が個人情報を持つべきかどうかについての意見はまちまちだろうが、彼らが今持っているデータから何も見つけ出せない、と思い込むふりはやめよう。
[画像提供:Flickr User Artondra Hall]
[原文へ]
(翻訳:Nob Takahashi)