データの匿名化はウソだと欧州の研究者グループが解明

ヨーロッパの2つの大学の研究者たちが、匿名化されたデータセットから、たった15のデモグラフィック属性から99.98%の精度で個人を再識別できるとされる方法を公表した。

個人情報の複雑なデータセットは、情報サンプル(サブセット)を分離するといった今の匿名化方式では再特定を防げないことを、彼らのモデルは示唆している。

つまり、匿名化して公開された大きなデータセットで、厳格なアクセス制限なくして再特定に対して安全なものはひとつもないということだ。

「私たちの研究が示しているのは、大量にサンプリングされた匿名化データセットであっても、GDPR(EU一般データ保護規則)に明記された最新の基準を満たせず、公開したらそれっきりという非特定化モデルによる匿名化の技術的、法的な妥当性を著しく阻害します」と、インペリアル・カレッジ・ロンドンとベルギーのルーヴァン・カトリック大学の研究者たちは、Nature Communicationsに掲載された論文の要約の中に書いている。

当然ながら今回の研究は、データの匿名化を元に戻せることを初めて証明したものではない。この論文に関わった研究者の一人、インペリアル・カレッジ・ロンドンのイブ=アレキサンダー・デ・モントイ(Yves-Alexandre de Montjoye)氏は、これ以前の研究でも、たとえば、クレジットカードのメタデータから、わずか4つの情報の断片をランダムに抽出するだけで、買い物をした人の90%を、一意の個人として再特定できることを証明している。

スマートフォンの位置情報のプライバシー侵害問題について調査した、デ・モントイ氏が共同筆者となった別の研究論文によれば、たった4つの時空間地点からなるデータセットから、95%の個人を一意に特定することに成功したという。

同時に、寄せ集められたデータから簡単に個人が特定できてしまうというこれらの研究結果があるにも関わらず、マーケティング目的でブローカーが売買しているような匿名化された顧客データセットには、その何倍もの個人の属性データが含まれている恐れがある。

たとえば研究者たちは、データブローカーのExperianがAlteryxにアクセス権を販売した匿名化されたデータセットには、米国の1億2000万世帯の、世帯あたり248の属性データが含まれていたことを引き合いにい出している。

彼らのモデルから見れば、基本的に、これらの世帯はみな再特定される危険性がある。それでも、大量のデータセットが、匿名化という甘い言葉に載せられて、今でも取り引きされている。

個人情報がどれだけ商用目的で取り引きされているかに関して、さらに怖い話を聞きたい方に教えよう。あの悪評高い、すでに廃業した、政界にデータを売る会社Cambridge Analyticaは、昨年、こう話していた。それは、Facebookのデータ不正利用スキャンダルの最中のことだ。米国人有権者をターゲットにした内密な活動の基礎となったデータセットは、Acxiom、Experian、Infogroupといった有名データブローカーからライセンスされたものだった。とくに同社が強調していたのは、「米国人個人の無数のデータ点」は「超大手の信頼あるデータ収集業者とデータ販売業者」から合法的に入手したということだ。

匿名データセットから、驚くほど簡単に個人を再特定できてしまうことを、研究者たちは何年間にもわたり示してきたが、今回の研究の最大の成果は、あらゆるデータセットからどれだけ簡単に個人を特定できるかを見積もれる統計モデルを構築したことにある。

彼らは、データのマッチングが正しい可能性を演算することで、これを実現している。そのため、基本的に、マッチの一意性が評価される。また彼らは、小さなサンプリングの断片がデータの再特定を許してしまうことも突き止めた。

「人口統計と調査データからの210件のデータセットを使って私たちのアプローチを検証したところ、非常に小さなサンプリングデータの断片であっても、再特定の防止や個人データの保護の妨げになることがわかりました」と彼らは書いている。「私たちの方法は、個人の一意性の予測に関してAUC精度で0.84から0.97というスコアを示し、誤発見率も低くなっています。私たちの研究では、米国人の99.98%は、今手に入る匿名化されたデータセットから、年齢、性別、配偶者の有無など、わずか15属性のデータを使って正確に再特定できることがわかりました」。

他の人たちも今回の発見を再現できるように、彼らは実験のためのプログラムを公開するという、通常あまり見かけないプロセスを踏んでいる。また、特定のデータ点に基づくデータセットからどれほど正確に再特定できるかを試せるように、属性を自由に入力できるウェブインターフェイスも作った。

そのインターフェイスにランダムに入力した3つの属性(性別、誕生日、郵便番号)でテストした結果、理論上の個人を再特定できる可能性は、属性をひとつ(配偶者の有無)追加すると、スコアが54%から95%に跳ね上がった。ここから、15件よりもずっと少ない属性データだけでも、ほとんどの人のプライバシーが危険にさらされるということがわかる。

経験からすると、データセットに含まれる属性データが多いほど、マッチングの精度は上がり、したがって匿名化でデータが守られる可能性は低くなる。

これは、たとえばGoogleが所有するAI企業DeepMindが、英国の国民健康保険との共同研究で100万人分の匿名化された目のスキャンデータへのアクセスを許されている件を考えるうえで、とても参考になる。

身体特徴に関するデータは、当然ながらその性質上、個人特有のデータ点を大量に含んでいる。そのため、(文字どおり)視覚データの数ピクセル分などという程度でなく多くのデータを保持している目のスキャンデータは、どれをとっても“匿名化”されていると考えるのは不適当だ。

今の欧州のデータ保護の枠組みは、本当の意味で匿名のデータならば、利用や共有が自由にできることになっているだがそれに対して、その法律が強要している個人情報の処理や利用に関する規制上の要件は厳格だ。

この枠組みは、再特定の危険性については深く認識しており、匿名化データよりもむしろ仮名化データという分類を用いている(仮名化には個人データが多く残っていることが多く、同じ保護の下にある)。十分な要素を取り除いて個人の特定を確実にできなくしたデータセットのみが、GDPRの下では匿名と認められる。

ほんのわずかな属性データしかない場合でも再特定される危険性があることを明らかにしたことで、この研究は、いかなるデータセットも、真に間違いなく匿名であると認定することが極めて難しいことを強調している。

「この研究結果は、ひとつには、再特定には実害がないとする主張、もうひとつには、データセットの一部をサンプリングまたは分離することが説得力のある否定論拠になるという主張を退けるものとなりました」と研究者たちは断言している。

「この研究の結果、1つ目には、ほんの数件の属性データで、非常に不完全なデータセットからでも確実に個人を再特定できることが示され、ふたつめには、データセット、たとえばひとつの病院ネットワーク、またはひとつのオンラインサービスから一部のデータをサンプリングまたは分離すれば説得力のある拒否論拠になるという主張が否定され、そして最終的に、みっつめとして、たとえ母集団一意性が低かろうと(これは、十分に再特定できるデータを匿名と見なすことを正当化する論議だが)、それでも私たちのモデルを使えば、多くの個人が正確に再特定されてしまうリスクを負うことが示されました」。

彼らは、規制当局と議員たちに、データ再特定による危険性を認識し、プライバシーを保護した形でデータ処理が行えると彼らが言う有効な「プライバシー保護を強化するシステムとセキュリティー対策」のための法律面での注意を払うよう訴えることにしている。この保護システムとセキュリティー対策には、暗号化検索とプライバシーを侵さないコンピューター処理、粒度の細かいアクセス制御メカニズム、ポリシーの執行と説明責任、データ来歴など、2015年の彼らの論文からの引用も含まれている。

「EU加盟国や地方の規制当局などにより、匿名化の基準が再定義される場合、それは堅牢で、私たちがこの論文で示したような新しい脅威を考慮したものにならなければなりません。再特定という個人的なリスクと、(たとえデータセットが不完全であっても)説得力のある拒否論拠の欠如を考慮する必要があります。さらに、効率的に人々のプライバシーを守りつつデータの利用を可能にする、広範で有効なプライバシー保護を強化するシステムとセキュリティー対策を法的に承認することも大切です」と彼らは付け加えている。

「今後も当局は、現在の非特定化の実現方法が、GDPRやCCPA(カリフォルニア消費者プライバシー法)などの現代のデータ保護法の匿名化基準に達しているかどうかを自問し、法律や規制の観点から、非特定化して公開したら終わりというモデルを超える必要性を強調するようになるでしょう」。

[原文へ]

(翻訳:金井哲夫)