合成データセット（用語）

ソフトウェアを開発するとき、実際の顧客データでのテストが難しいことがある。有意なテストセットを作ることは、時間のかかる難題だ。この問題の解決を目指して、合成データセットの作成を支援するTonic.aiが米国時間9月29日、シリーズBで350万ドル（約3億9000万円）を調達した。

Insight Partnersがこのラウンドをリードし、GGV CapitalとBloomberg Beta、OctaveのWilliam Smith（ウィリアム・スミス）氏、Heavybit、そしてSilicon Valley CISO Investments（SVCI）が参加した。Crunchbaseのデータによると、同社の累計調達額は4500万ドル（約50億1000万円）になる。

CEOで共同創業者のIan Coe（イアン・コー）氏によると、同社の目標は、開発者にプロダクション級のデータを提供して、組織の中のガバナンスやコンプライアンスを気にする連中を満足させることだ。「Tonicは合成データと差分プライバシーと分散コンピューティングを利用するデータトランスフォーメーション企業です。私たちは個人情報を含むデータからアイデンティティを取り除き、データの価値はすべて保全しながら、開発者がソフトウェアの開発とテストに使えるようにします」とコー氏は説明する。

同社は本物のデータから「フェイク」のデータセットをつくり、データベースに実際にあるような情報を作り出す。ただしこのソリューションは、ただ名前を変えて法的にも倫理的にも問題がないようにすることではない。データのリポジトリや複雑なデータベースからデータを取り出すときには、もっと極端に複雑な接続を使うことが多い。

コー氏によると、だからこそそれは、誰かが簡単に真似したり、自分で作ったりすることのできない技術だという。Tonicのボンネットの下では、大量の複雑な処理が行われている。1つの例としては、どこかで名前を変えたら、データ全体に整合性を持たせるために、アプリケーションのプロダクションプロセスの、その名前が現れるすべての場所で名前を変更し、本物のデータの遺漏を防がなければならない。

現在、同社の主な顧客は開発者だが、プロダクトはデータサイエンティストなどにとっても有用なはずだ。2019年にローンチした同社は、GretelやSynthetaicのようなスタートアップがこの問題の部分的解決に努力している様子を見てきた。そしてコー氏によると、エンタープライズ級の大きな複雑な問題に挑戦し解決しているような競合他社は1社もなかった。

「他のスタートアップの一部は、私たちと同世代でしたが、エンタープライズの複雑巨大なデータ集合に対して、合成データセットの作成という問題を本当に解決しているところは1社もありませんでした。彼らはデータのインフラストラクチャという厄介な問題や、データの仕事をCI/CDのパイプラインと統合することにも取り組んでいない。そしてそれは、Tonicの大きな差別化要因だ」とコー氏はいう。

同社の社員は現在40名程度だが、新たな資金により2022年には少なくとも100名に増員する予定だという。そのために最近同社は人事担当を1人雇い、同社のダイバーシティの確保などはその者の仕事になる。

「私たちの人事担当は2021年すでに特別雇用事業を行い、マイノリティの人たちを雇用しました。ダイバーシティを目的とする特別の雇用事業やサービスは、常時行なうことになるでしょう」とコー氏はいう。

画像クレジット：matejmo/Getty Images

［原文へ］

（文：Ron Miller、翻訳：Hiroshi Iwatani）

タグ: 合成データセット（用語）

ソフト開発時に使える、プライバシー問題がない合成データセット作成を支援するTonic.ai