ZOZOテクノロジーズの研究開発組織「ZOZO研究所」は9月2日、同所研究員が研究において使用している大規模データセット「Shift15M」および実装基盤をオープンソースとして公開したと発表した。データセットおよび実用基盤をGitHub上に公開し、データセットの概要説明を同研究所上に掲載している。
また、同データセットを使用した研究結果をまとめた研究論文「SHIFT15M: Multiobjective Large-Scale Fashion Dataset with Distributional Shifts」をarXivに公開している。
ZOZO研究所は、「ファッションを数値化する」をミッションに掲げるZOZOグループの研究機関。ZOZOグループが保有するファッションに関する情報資産を基に、ファッションを科学的に解明するための研究開発を行っている。
同データセットは、ZOZO研究所が2020年公開した「Open Bandit Dataset」に続くオープンデータプロジェクトの第2弾。同データセットを公開することで、データの分布シフトが起こることによって生じる新たな課題を見出し、解決策を探るための研究開発を促進する一助となることを目指しているという。
Shift15M
Shift15Mは、ファッションアプリ「IQON」に投稿されたコーディネートを基に構成された大規模データセット(IQONは2020年4月にサービスを終了。公開データは商品やユーザーの特定が不可能なよう十分に匿名化しており、利用規約とプライバシーに配慮している)。
同データセットは、IQONのサービス提供期間である2010年から2020年までに投稿されたコーディネート約255万件のほか、これらのコーディネートを構成する約1500万件のアイテムに関する特徴量、アイテムカテゴリに関するデータやコーディネート投稿への「いいね」数などの関連データも含む。
データセットの詳細
- アイテムの特徴量
- コーディネートに含まれるアイテムの情報
- アイテムやコーディネートの付加情報(投稿日時、「いいね」の数、ジャンル・カテゴリー、統計情報、学習のための教師信号など人間が付与したラベル)
データに収録されるアイテム数の詳細
- コーディネートの数:2,555,147
- コーディネートを構成するアイテム数(重複あり):15,218,721
- コーディネートを構成するアイテム数(重複なし):2,335,598
あわせて公開する実装基盤では、コーディネートデータの年ごとに異なる傾向を認識し、その変化によって生じるデータ分布のシフトを再現実験で確認することが可能という。これによって、年々変化するファッションの流行をより正確にとらえ、研究のさらなる発展に役立てられるとしている。また、回帰問題、分類問題、集合マッチングなど、データ分布のシフトが生じる条件のもとで様々なタスクを検証するためのコードが整備されている。
分布シフト研究の発展を支える新たな研究基盤
ZOZO研究所による研究開発の1つに、ファッションの流行が変化しても、継続的に認識精度を高く保つことができるAI技術の実現を目的とするものがあるという。
ファッションに関連するデータは、流行の変化による影響を受け、分布シフトと呼ばれる数理的現象が生じると考えられている。分布シフトは、流行・時間などの変化に伴って入力データの分布が変化することで生じ、ファッションに限らず多くの分野に共通して現れる現象とされる。この分布シフトによって、AIの認識精度が低下することから、近年注目を集めているそうだ。
ただ分布シフトの検証は、AI技術の実用性にかかわる重要なテーマである一方、検証に用いる実用的なデータセットの不足により、学術界における当該分野の研究の進展はこれまで制限されてきたという。
そこで、分布シフト研究の発展を支える新たな研究基盤として、ZOZO研究所が保有する実データで構成された大規模データセット「Shift15M」と実装基盤を公開することを決定した。
同データセットと実装基盤は、ファッションに限らず幅広い分野での活用が可能としている。分布シフトの再現実験と典型的なタスクにおける効果検証や比較検証など、目的に合わせて利用できる。