人身売買被害者の合成データでプライバシーを侵害せずにビッグデータ分析ができる

人身売買に効果的に対処するためには、対処する側がそれを理解する必要があり、最近ではそれは「データ」となる。残念ながら、被害者を知るための便利なインデクスはないが、でもこの秘密情報はいろいろなところで豊富だ。Microftと国際移住機関(International Organization for Migration、IOM)は、本物の人身売買データの重要な特徴をすべて備えているが、完全に人工的な新しい合成データベースで前進する方法を見つけたかもしれない。

各被害者は疑う余地もなく個人だが、人身売買が多い国や彼らが利用しているルートや方法、被害者の行き着く先など、基本的な高レベルの問いは統計の問題だ。トレンドやパターンを同定するためのエビデンスは防止活動にとって重要だが、これら何千もの個人のストーリーに埋もれていて、しかも公開されたくないものが多い。

IOMのプログラムコーディネーターであるHarry Cook(ハリー・クック)氏は、データセットを説明するニュースリリースで次のように述べている。「実際に見つかった人身売買の事件に関する管理データは、可利用なデータの主たる源泉だが、そのような情報は機密性が高い。IOMは過去2年間Microsoft Researchと協力して、そうしたデータを分析用にシェアし、それと同時に被害者の安全とプライバシーを守るという困難な課題において進歩できたことを、うれしく思っている」。

歴史的には、犯罪データベースや医療情報などは大量の編集をするのが常套手段だが、「匿名性を取り去る」この方法は、データを再構築しようとする真剣な試みに対して効果がないことが立証されてきた。現在では数多くのデータベースが公開され、あるいはリークされて、コンピューティングの力を誰もが利用できる時代であるため、編集された情報を極めて信頼できる形で提供できる。

Microsoft Researchが採った方法は、オリジナルデータをベースとして、ソースの重要な統計的関係を保持し、しかし場所・時期・個人等を同定できる情報がない合成データを作ることだ。「Jane Doe」を「Janet Doeman」に書き換えたり、彼女の故郷をクリーブランドからクイーンズに変えるのではなく、データに似通った性質のある10名弱の人たちのデータを合わせて、彼らを統計的に正確に表現している属性の集合をつくるが、それを使って個人を同定することはできなくなっている。

画像クレジット:Microsoft Research / IOM

当然この方法では元のデータの粒度は失われるが、機密性のあるソースと違ってこのデータは実際に使用できる。それはどこかのタスクフォースが分析して「そうか、次の人買いはXXXXで行われるのだ」というタイプの情報ではないが、このデータは直接的なエビデンスに基づいているため、政治や外交レベルで事実の記録として取り上げることができる。これまではもっと一般的に「X国と政府Zはこの件で無視できる」や「共謀している」などと言わなければならなかったのが、これからは確かなデータに基づいて「性的人身売買の36%はあなたの司法圏を通っている」と言えるようになる。

データが一種の強制手段として利用されるという意味ではなく、人間の悲惨のグローバルな交易を、一連のお互いに無関係な出来事の連鎖ではなく、1つのシステムとして理解することは、それ自身に価値がある。そのデータは、ここで見ることができ、その作り方を勉強したい人には、この事業のGitHubがある。

画像クレジット:SEAN GLADWELL / Getty Images

原文へ

(文:Devin Coldewey、翻訳:Hiroshi Iwatani)