データ匿名化のGretelがシリーズAで12.5億円調達

企業がデータを扱う中で、直面する大きな問題の1つは、個人を特定できる情報(PII)やその他の機密データが決して流出しないようにすることだ。通常、その種のデータを取り除くには丹念な手間のかかる手作業が必要だ。アーリーステージスタートアップのGretel(グレーテル)は、データセットの匿名化をより迅速かつ容易にすることで、その状況を変えたいと思っている。米国時間11月16日、同社はGreylockが主導する1200万ドル(約12億5000万円)のシリーズAを発表した。これによって、同社は現在までに合計1550万ドル(約16億2000万円)を調達した。

Gretelの共同創業者でCEOのAlex Watson(アレックス・ワトソン)氏は、彼の会社は、データの匿名化をよりシンプルなものに変え、これまではプライバシー上の懸念のために手の届かなかったデータセットを利用可能にするために創業されたのだという。

「開発者として、アイデアをテストしたり、新しい機能を構築したりしたいと考えたとします。その場合、必要なデータにアクセスするには数週間かかることがあります。基本的には、始めるための様々な承認をとりつけ、そしてデータベースのスナップショットを取得し、その後手作業で個人データと思われるものを取り除き、必要なものが全部手に入ったことを祈ることになります」。

以前AWSでジェネラルマネージャーとして働いていたワトソン氏は、データを匿名化するための、より迅速かつ信頼性の高い方法が必要であると信じていた。それがGretelを始めた理由なのだ。その最初の製品は、開発者向けの個人を特定できる情報を取り除くオープンソースの合成機械学習ライブラリだ。

「開発者は、機械学習モデルをトレーニングする私たちのオープンソースライブラリを、機密データに対して利用します。トレーニングが行われていく際に、私たちは差分プライバシー(differential privacy)と呼ばれるものを強制していきます。これは基本的に、データ内部にある個人の秘密情報の詳細を、モデルが記憶しないようにするものです」と彼はいう。その結果、匿名化され、業務全体で安全に共有できる新しい加工データセットが作成されることになる。

同社は2019年に創業し、今年は実際にオープンソース製品を開発し、その周囲にオープンソースコミュニティを構築するために費やされた。「なので、私たちのアプローチと市場投入戦略は、基盤となるライブラリをオープンソース化し、同時に合成データと匿名化データを簡単かつ大量に生成できるSaaSサービスを構築することなのです」と彼はいう。

創業者たちはこの会社を成長させていく中で、どのようにすれば多様で包摂的な組織を生み出すことができるかを、定例経営会議で検討してきた。特に彼らは、今回の投資資金を使ってシニア人材の雇用を始めることを検討している。

「私たちは、多様な候補者に応募していただき、実際に彼らと会話を行うことができるように、意識的に努力しています。それは報われるでしょう。あるいは現在採用プロセスの中の候補者たちの顔ぶれから、報われようとしている最中ですと言ってもよいでしょう。だから私たちはとても楽しみにしているのです。しばしば陥りやすい、均一思考を避けることはとても重要なことです」と彼はいう。

現在同社には有料顧客はいないが、設計パートナーとの関係を築き、2021年からは収益を引き出すことを計画している。投資をリードしているGreylockのパートナーであるSridhar Ramaswamy(スリーダー・ラマスワミー)氏は、このようなサービスに大きな可能性を見ているので、彼の会社は収益を挙げる前の会社に賭けているのだと語る。

「Githubがソースコードのアクセスとコントロールを一般化したように、わたしたちはGretelが世界中のデータへの安全で制御されたアクセスを一般化すると考えています」とラマスワミー氏は述べている。

関連記事
絶滅危惧種など画像が少ないケースでも合成データでAIを訓練するSynthetaicが4.7億円を調達
元NSAとAmazonのエンジニアが「データのGitHub」を開発中

カテゴリー:ネットサービス
タグ:Gretel匿名化資金調達

画像クレジット:MR.Cole_Photographer / Getty Images

原文へ

(翻訳:sako)

元NSAとAmazonのエンジニアが「データのGitHub」を開発中

6か月ほど前、NSA(米国家安全保障局)、Google、それにAmazon Web Servicesに勤務した経験を持つエンジニアやデベロッパーのグループが出し合ったアイデアがある。

画像クレジット:Oleksandr Hruts/Getty Images

データは、デベロッパーやエンジニアが新しい機能を開発し、より優れたイノベーションを実現するために重要な役割を果たす。しかしデータは、非常に機密性が高かったり、入手しにくいものだったりすることが多い。カギが掛けられた状態で厳重に保管され、封印されていたり、規約によって守られていたりする。アクセスの承認を取るのに数週間かかることもある。そこで、上記のエンジニア達は、Gretelを設立した。まだ初期段階のスタートアップだが、デベロッパーが機密性の高いデータをリアルタイムで安全に共有し、協力して作業できるようにすることを目指している。

共同設立者のひとりであるAlex Watson(アレックス・ワトソン)氏は、それは人々が考えているようなニッチな問題ではない、と述べている。デベロッパーは、どんな会社でも、この問題に直面する可能性があるとも言う。デベロッパーはユーザーデータ全体へのフルアクセスは必要としない場合が多い。取り掛かりとして、その一部や、サンプルのデータさえあればいい。多くの場合、本物のユーザーデータのように見えるだけのデータでも十分なのだ。

「まずは、データを安全に共有できるようにすることから始めます」と、ワトソン氏は言う。「データが使えるようになれば、いろいろ可能になるすばらしいユースケースがいくらでもあります」。同氏は、GitHubのように、広く利用されているソースコード共有プラットフォームが、ソースコードへのアクセス性を高め、コラボレーションを容易にするのに役立ったと述べている。「しかし、データについては、GitHubのようなものがないのです」と彼は続けた。

そこでワトソン氏と、ほかの共同創立者であるJohn Myers(ジョン・マイヤーズ)、Ali Golshan(アリ・ゴルシャン)、Laszlo Bock(ラズロ・ボック)の各氏がGretelを考え出したわけだ。

「現在、データセットの匿名化されたバージョンを、デベロッパーが自動的にチェックアウトできるようにするソフトウェアを開発中です」と、ワトソン氏は述べている。このいわゆる「合成データ」は、基本的には、通常の機密性の高いユーザーデータのように見え、同じように扱える人工的なデータだ。Gretelは、機械学習を使用して、名前、住所、その他、顧客識別子などによって構成されるデータを分類し、できるだけ多くのラベルをデータに付加する。ラベル付けされたデータには、アクセスポリシーを適用できる。次に、このプラットフォームは、差分プライバシーを適用する。これは、大量のデータを匿名化するために使用される手法の1つだ。それにより、データを実際の顧客情報に結び付けることはできなくなる。「これは、機械学習によって生成された、完全に偽のデータセットです」とワトソン氏は説明している。

この活動は、すでに注目を集めている。Gretelは、Greylock Partnersが率いるシード投資によって350万ドル(約3億9100万円)のシード資金を集め、このプラットフォームを離陸させることができた。このシード投資には、Moonshots Capital、Village Global、およびいくつかのエンジェル投資家が参加している。

「グーグル(Google)では、デベロッパーがデータに安全にアクセスできるよう、独自のツールを作成する必要がありました。われわれが必要とするツールが存在しなかったからです」と、元グーグルの重役で、現在はGreylockのパートナーのSridhar Ramaswamy(スリドハー・ラマスワミー)氏は述べている。

Gretelでは、実際に使った量に基づいて顧客に課金するという。それは、Amazon(アマゾン)が、クラウドコンピューティングのサービスへのアクセスに価格設定するのと同様の仕組みだ。

「今、これはまさに進行中であり、開発が進んでいるところです」とワトソン氏は述べた。Gretelは、今後数週間でデベロッパーコミュニティとの関係を強化する計画を立てており、6カ月以内には、Gretelを実際に利用できるようにすることを目指しているとのこと。

関連記事:Meet 5 cybersecurity unicorns that could IPO in 2020(未訳)

原文へ

(翻訳:Fumihiko Shibata)

データの匿名化はウソだと欧州の研究者グループが解明

ヨーロッパの2つの大学の研究者たちが、匿名化されたデータセットから、たった15のデモグラフィック属性から99.98%の精度で個人を再識別できるとされる方法を公表した。

個人情報の複雑なデータセットは、情報サンプル(サブセット)を分離するといった今の匿名化方式では再特定を防げないことを、彼らのモデルは示唆している。

つまり、匿名化して公開された大きなデータセットで、厳格なアクセス制限なくして再特定に対して安全なものはひとつもないということだ。

「私たちの研究が示しているのは、大量にサンプリングされた匿名化データセットであっても、GDPR(EU一般データ保護規則)に明記された最新の基準を満たせず、公開したらそれっきりという非特定化モデルによる匿名化の技術的、法的な妥当性を著しく阻害します」と、インペリアル・カレッジ・ロンドンとベルギーのルーヴァン・カトリック大学の研究者たちは、Nature Communicationsに掲載された論文の要約の中に書いている。

当然ながら今回の研究は、データの匿名化を元に戻せることを初めて証明したものではない。この論文に関わった研究者の一人、インペリアル・カレッジ・ロンドンのイブ=アレキサンダー・デ・モントイ(Yves-Alexandre de Montjoye)氏は、これ以前の研究でも、たとえば、クレジットカードのメタデータから、わずか4つの情報の断片をランダムに抽出するだけで、買い物をした人の90%を、一意の個人として再特定できることを証明している。

スマートフォンの位置情報のプライバシー侵害問題について調査した、デ・モントイ氏が共同筆者となった別の研究論文によれば、たった4つの時空間地点からなるデータセットから、95%の個人を一意に特定することに成功したという。

同時に、寄せ集められたデータから簡単に個人が特定できてしまうというこれらの研究結果があるにも関わらず、マーケティング目的でブローカーが売買しているような匿名化された顧客データセットには、その何倍もの個人の属性データが含まれている恐れがある。

たとえば研究者たちは、データブローカーのExperianがAlteryxにアクセス権を販売した匿名化されたデータセットには、米国の1億2000万世帯の、世帯あたり248の属性データが含まれていたことを引き合いにい出している。

彼らのモデルから見れば、基本的に、これらの世帯はみな再特定される危険性がある。それでも、大量のデータセットが、匿名化という甘い言葉に載せられて、今でも取り引きされている。

個人情報がどれだけ商用目的で取り引きされているかに関して、さらに怖い話を聞きたい方に教えよう。あの悪評高い、すでに廃業した、政界にデータを売る会社Cambridge Analyticaは、昨年、こう話していた。それは、Facebookのデータ不正利用スキャンダルの最中のことだ。米国人有権者をターゲットにした内密な活動の基礎となったデータセットは、Acxiom、Experian、Infogroupといった有名データブローカーからライセンスされたものだった。とくに同社が強調していたのは、「米国人個人の無数のデータ点」は「超大手の信頼あるデータ収集業者とデータ販売業者」から合法的に入手したということだ。

匿名データセットから、驚くほど簡単に個人を再特定できてしまうことを、研究者たちは何年間にもわたり示してきたが、今回の研究の最大の成果は、あらゆるデータセットからどれだけ簡単に個人を特定できるかを見積もれる統計モデルを構築したことにある。

彼らは、データのマッチングが正しい可能性を演算することで、これを実現している。そのため、基本的に、マッチの一意性が評価される。また彼らは、小さなサンプリングの断片がデータの再特定を許してしまうことも突き止めた。

「人口統計と調査データからの210件のデータセットを使って私たちのアプローチを検証したところ、非常に小さなサンプリングデータの断片であっても、再特定の防止や個人データの保護の妨げになることがわかりました」と彼らは書いている。「私たちの方法は、個人の一意性の予測に関してAUC精度で0.84から0.97というスコアを示し、誤発見率も低くなっています。私たちの研究では、米国人の99.98%は、今手に入る匿名化されたデータセットから、年齢、性別、配偶者の有無など、わずか15属性のデータを使って正確に再特定できることがわかりました」。

他の人たちも今回の発見を再現できるように、彼らは実験のためのプログラムを公開するという、通常あまり見かけないプロセスを踏んでいる。また、特定のデータ点に基づくデータセットからどれほど正確に再特定できるかを試せるように、属性を自由に入力できるウェブインターフェイスも作った。

そのインターフェイスにランダムに入力した3つの属性(性別、誕生日、郵便番号)でテストした結果、理論上の個人を再特定できる可能性は、属性をひとつ(配偶者の有無)追加すると、スコアが54%から95%に跳ね上がった。ここから、15件よりもずっと少ない属性データだけでも、ほとんどの人のプライバシーが危険にさらされるということがわかる。

経験からすると、データセットに含まれる属性データが多いほど、マッチングの精度は上がり、したがって匿名化でデータが守られる可能性は低くなる。

これは、たとえばGoogleが所有するAI企業DeepMindが、英国の国民健康保険との共同研究で100万人分の匿名化された目のスキャンデータへのアクセスを許されている件を考えるうえで、とても参考になる。

身体特徴に関するデータは、当然ながらその性質上、個人特有のデータ点を大量に含んでいる。そのため、(文字どおり)視覚データの数ピクセル分などという程度でなく多くのデータを保持している目のスキャンデータは、どれをとっても“匿名化”されていると考えるのは不適当だ。

今の欧州のデータ保護の枠組みは、本当の意味で匿名のデータならば、利用や共有が自由にできることになっているだがそれに対して、その法律が強要している個人情報の処理や利用に関する規制上の要件は厳格だ。

この枠組みは、再特定の危険性については深く認識しており、匿名化データよりもむしろ仮名化データという分類を用いている(仮名化には個人データが多く残っていることが多く、同じ保護の下にある)。十分な要素を取り除いて個人の特定を確実にできなくしたデータセットのみが、GDPRの下では匿名と認められる。

ほんのわずかな属性データしかない場合でも再特定される危険性があることを明らかにしたことで、この研究は、いかなるデータセットも、真に間違いなく匿名であると認定することが極めて難しいことを強調している。

「この研究結果は、ひとつには、再特定には実害がないとする主張、もうひとつには、データセットの一部をサンプリングまたは分離することが説得力のある否定論拠になるという主張を退けるものとなりました」と研究者たちは断言している。

「この研究の結果、1つ目には、ほんの数件の属性データで、非常に不完全なデータセットからでも確実に個人を再特定できることが示され、ふたつめには、データセット、たとえばひとつの病院ネットワーク、またはひとつのオンラインサービスから一部のデータをサンプリングまたは分離すれば説得力のある拒否論拠になるという主張が否定され、そして最終的に、みっつめとして、たとえ母集団一意性が低かろうと(これは、十分に再特定できるデータを匿名と見なすことを正当化する論議だが)、それでも私たちのモデルを使えば、多くの個人が正確に再特定されてしまうリスクを負うことが示されました」。

彼らは、規制当局と議員たちに、データ再特定による危険性を認識し、プライバシーを保護した形でデータ処理が行えると彼らが言う有効な「プライバシー保護を強化するシステムとセキュリティー対策」のための法律面での注意を払うよう訴えることにしている。この保護システムとセキュリティー対策には、暗号化検索とプライバシーを侵さないコンピューター処理、粒度の細かいアクセス制御メカニズム、ポリシーの執行と説明責任、データ来歴など、2015年の彼らの論文からの引用も含まれている。

「EU加盟国や地方の規制当局などにより、匿名化の基準が再定義される場合、それは堅牢で、私たちがこの論文で示したような新しい脅威を考慮したものにならなければなりません。再特定という個人的なリスクと、(たとえデータセットが不完全であっても)説得力のある拒否論拠の欠如を考慮する必要があります。さらに、効率的に人々のプライバシーを守りつつデータの利用を可能にする、広範で有効なプライバシー保護を強化するシステムとセキュリティー対策を法的に承認することも大切です」と彼らは付け加えている。

「今後も当局は、現在の非特定化の実現方法が、GDPRやCCPA(カリフォルニア消費者プライバシー法)などの現代のデータ保護法の匿名化基準に達しているかどうかを自問し、法律や規制の観点から、非特定化して公開したら終わりというモデルを超える必要性を強調するようになるでしょう」。

[原文へ]

(翻訳:金井哲夫)