ZOZO研究所が分布シフト研究促進に向けファッションの流行変化を検証するデータセット・実装基盤をオープンソースで公開

ZOZO研究所が分布シフト研究促進に向けファッションの流行変化を検証するデータセット・実装基盤をオープンソースとして公開

ZOZOテクノロジーズの研究開発組織「ZOZO研究所」は9月2日、同所研究員が研究において使用している大規模データセット「Shift15M」および実装基盤をオープンソースとして公開したと発表した。データセットおよび実用基盤をGitHub上に公開し、データセットの概要説明を同研究所上に掲載している。

また、同データセットを使用した研究結果をまとめた研究論文「SHIFT15M: Multiobjective Large-Scale Fashion Dataset with Distributional Shifts」をarXivに公開している。

ZOZO研究所は、「ファッションを数値化する」をミッションに掲げるZOZOグループの研究機関。ZOZOグループが保有するファッションに関する情報資産を基に、ファッションを科学的に解明するための研究開発を行っている。

同データセットは、ZOZO研究所が2020年公開した「Open Bandit Dataset」に続くオープンデータプロジェクトの第2弾。同データセットを公開することで、データの分布シフトが起こることによって生じる新たな課題を見出し、解決策を探るための研究開発を促進する一助となることを目指しているという。

Shift15M

Shift15Mは、ファッションアプリ「IQON」に投稿されたコーディネートを基に構成された大規模データセット(IQONは2020年4月にサービスを終了。公開データは商品やユーザーの特定が不可能なよう十分に匿名化しており、利用規約とプライバシーに配慮している)。

同データセットは、IQONのサービス提供期間である2010年から2020年までに投稿されたコーディネート約255万件のほか、これらのコーディネートを構成する約1500万件のアイテムに関する特徴量、アイテムカテゴリに関するデータやコーディネート投稿への「いいね」数などの関連データも含む。

データセットの詳細

  • アイテムの特徴量
  • コーディネートに含まれるアイテムの情報
  • アイテムやコーディネートの付加情報(投稿日時、「いいね」の数、ジャンル・カテゴリー、統計情報、学習のための教師信号など人間が付与したラベル)

データに収録されるアイテム数の詳細

  • コーディネートの数:2,555,147
  • コーディネートを構成するアイテム数(重複あり):15,218,721
  • コーディネートを構成するアイテム数(重複なし):2,335,598

あわせて公開する実装基盤では、コーディネートデータの年ごとに異なる傾向を認識し、その変化によって生じるデータ分布のシフトを再現実験で確認することが可能という。これによって、年々変化するファッションの流行をより正確にとらえ、研究のさらなる発展に役立てられるとしている。また、回帰問題、分類問題、集合マッチングなど、データ分布のシフトが生じる条件のもとで様々なタスクを検証するためのコードが整備されている。

分布シフト研究の発展を支える新たな研究基盤

ZOZO研究所による研究開発の1つに、ファッションの流行が変化しても、継続的に認識精度を高く保つことができるAI技術の実現を目的とするものがあるという。

ファッションに関連するデータは、流行の変化による影響を受け、分布シフトと呼ばれる数理的現象が生じると考えられている。分布シフトは、流行・時間などの変化に伴って入力データの分布が変化することで生じ、ファッションに限らず多くの分野に共通して現れる現象とされる。この分布シフトによって、AIの認識精度が低下することから、近年注目を集めているそうだ。ZOZO研究所が分布シフト研究促進に向けファッションの流行変化を検証するデータセット・実装基盤をオープンソースとして公開

ただ分布シフトの検証は、AI技術の実用性にかかわる重要なテーマである一方、検証に用いる実用的なデータセットの不足により、学術界における当該分野の研究の進展はこれまで制限されてきたという。

そこで、分布シフト研究の発展を支える新たな研究基盤として、ZOZO研究所が保有する実データで構成された大規模データセット「Shift15M」と実装基盤を公開することを決定した。

同データセットと実装基盤は、ファッションに限らず幅広い分野での活用が可能としている。分布シフトの再現実験と典型的なタスクにおける効果検証や比較検証など、目的に合わせて利用できる。

ZOZO研究所のファッションコーデ関連論文がコンピュータービジョンの国際会議ECCVで採択

ZOZOテクノロジーズ ZOZO研究所 ECCV 深層集合マッチング

ZOZOテクノロジーズの研究開発組織「ZOZO研究所」は7月13日、同研究員らが執筆した論文「Exchangeable Deep Neural Networks for Set-to-Set Matching and Learning」(置換不変ニューラルネットワークによる深層集合マッチング)が、コンピュータービジョン分野における世界3大国際会議のひとつ「European Conference on Computer Vision(ECCV)2020」に採択されたと発表した。ZOZO研究所は、8月24日~27日にオンライン開催のECCV 2020本会議でポスター発表(プレゼン・ディスカッション)を行う。

この研究成果は、同研究員の斎藤侑輝氏、中村拓磨氏、共同研究者・和歌山大学講師の八谷大岳氏、統計数理研究所・総合研究大学院大学教授 福水健次氏(斎藤の博士課程指導教員)によるもの。

ECCVは、CVPR(Computer Vision and Pattern Recognition)・ICCV(International Conference of Computer Vision)と並ぶ国際会議(トップカンファレンス)。隔年ごとに開催されており、第16回目となる今回は、5025本の投稿から1361本の論文が採択された。

今回採択の論文では、ファッションアイテムの推薦から1歩先んじて、ファッションコーディネートの推薦について研究。例えば、ユーザーが持つアイテム群(下図左)と推薦候補のアイテム群(下図右)が複数あるとき、どのアイテム群がユーザーのアイテム群に一番マッチし、2つの群を合わせたときにコーディネートとして適切かを考えるものとしている。

ZOZOテクノロジーズ ZOZO研究所 ECCV 深層集合マッチング

それぞれのアイテム群は集合として表現でき、アイテム群のマッチングは集合マッチングの問題設定として定式化できる。さらに、このように異なるアイテムカテゴリーを持つ集合同士のマッチングには、強力な特徴学習の仕組みとなる深層学習が必要になるという。しかし、集合マッチングと深層学習を組み合わせた研究は、ほとんど行われてこなかった。

そこで同論文では、独自のニューラルネットワークアーキテクチャ、効率的な学習法、学習データ作成手段を提案。特に集合マッチングには「集合内のアイテムや集合同士を入れ替えても出力が不変であること」と「集合間インタラクションに基づく特徴変換」とを備えた手法が重要であると提起。それらを満たすアーキテクチャを考案した。

実験では、各アイテムの画像特徴量を抽出する畳み込みニューラルネットワークと、特徴量の集合を扱う提案手法をEnd-to-endに学習し、マッチする集合の候補を正しく選べるかを調査。その結果、提案手法は比較手法(Set TransformerとBERT)よりも精度が高いことが明らかになり、上述の特性が同論文の提唱する集合マッチングにおいて重要であると確認した。提案手法や実験の詳細については、同社技術ブログ「ZOZO Technologies TECH BLOG」でも、一部紹介している。

論文では、集合マッチングのベースとなる特性を数理的に捉え、集合データに適したアーキテクチャを考案。提案手法は様々な分野での集合マッチングのベースラインとなる可能性を秘めているため、今後さらなる発展を目指すという。

また、現在は研究段階であるものの、具体的にどのようなユースケースに導入し、ユーザーエクスペリエンス向上につなげられるかも検証しており、今後も研究開発に努めるとしている。

関連記事
新型コロナによる非接触需要でスキャン技術のScanditが約86億円調達
廃棄物管理にAIを活用するGreyparrotが約2.4億円調達
コンピュータービジョンで製造作業員の動きのエラーを検知、トヨタも手を組むInvisible AI
コンピュータービジョンを利用して製品写真を重要な属性へと分解するGlisten