ZOZOテクノロジーズの研究開発組織「ZOZO研究所」は7月13日、同研究員らが執筆した論文「Exchangeable Deep Neural Networks for Set-to-Set Matching and Learning」(置換不変ニューラルネットワークによる深層集合マッチング)が、コンピュータービジョン分野における世界3大国際会議のひとつ「European Conference on Computer Vision(ECCV)2020」に採択されたと発表した。ZOZO研究所は、8月24日~27日にオンライン開催のECCV 2020本会議でポスター発表(プレゼン・ディスカッション)を行う。
この研究成果は、同研究員の斎藤侑輝氏、中村拓磨氏、共同研究者・和歌山大学講師の八谷大岳氏、統計数理研究所・総合研究大学院大学教授 福水健次氏(斎藤の博士課程指導教員)によるもの。
ECCVは、CVPR(Computer Vision and Pattern Recognition)・ICCV(International Conference of Computer Vision)と並ぶ国際会議(トップカンファレンス)。隔年ごとに開催されており、第16回目となる今回は、5025本の投稿から1361本の論文が採択された。
今回採択の論文では、ファッションアイテムの推薦から1歩先んじて、ファッションコーディネートの推薦について研究。例えば、ユーザーが持つアイテム群(下図左)と推薦候補のアイテム群(下図右)が複数あるとき、どのアイテム群がユーザーのアイテム群に一番マッチし、2つの群を合わせたときにコーディネートとして適切かを考えるものとしている。
それぞれのアイテム群は集合として表現でき、アイテム群のマッチングは集合マッチングの問題設定として定式化できる。さらに、このように異なるアイテムカテゴリーを持つ集合同士のマッチングには、強力な特徴学習の仕組みとなる深層学習が必要になるという。しかし、集合マッチングと深層学習を組み合わせた研究は、ほとんど行われてこなかった。
そこで同論文では、独自のニューラルネットワークアーキテクチャ、効率的な学習法、学習データ作成手段を提案。特に集合マッチングには「集合内のアイテムや集合同士を入れ替えても出力が不変であること」と「集合間インタラクションに基づく特徴変換」とを備えた手法が重要であると提起。それらを満たすアーキテクチャを考案した。
実験では、各アイテムの画像特徴量を抽出する畳み込みニューラルネットワークと、特徴量の集合を扱う提案手法をEnd-to-endに学習し、マッチする集合の候補を正しく選べるかを調査。その結果、提案手法は比較手法(Set TransformerとBERT)よりも精度が高いことが明らかになり、上述の特性が同論文の提唱する集合マッチングにおいて重要であると確認した。提案手法や実験の詳細については、同社技術ブログ「ZOZO Technologies TECH BLOG」でも、一部紹介している。
論文では、集合マッチングのベースとなる特性を数理的に捉え、集合データに適したアーキテクチャを考案。提案手法は様々な分野での集合マッチングのベースラインとなる可能性を秘めているため、今後さらなる発展を目指すという。
また、現在は研究段階であるものの、具体的にどのようなユースケースに導入し、ユーザーエクスペリエンス向上につなげられるかも検証しており、今後も研究開発に努めるとしている。
関連記事
・新型コロナによる非接触需要でスキャン技術のScanditが約86億円調達
・廃棄物管理にAIを活用するGreyparrotが約2.4億円調達
・コンピュータービジョンで製造作業員の動きのエラーを検知、トヨタも手を組むInvisible AI
・コンピュータービジョンを利用して製品写真を重要な属性へと分解するGlisten