電気通信大学、「つるつる」「さらさら」などオノマトペ・擬態語で画像内のモノの質感を表現するAIを開発

電気通信大学は11月17日、「つるつる」や「さらさら」といったオノマトペ(擬態語)で画像に写っているモノの質感を表現できるAIの開発を発表した。オノマトペという人によって感覚の異なるあいまいさを機械学習させることに成功したということだ。

電気通信大学大学院情報理工学研究科および人工知能先端研究センターの坂本真樹教授らによる研究グループは、1946枚の画像に写っているものの質感を、100人の被験者にオノマトペで表現してもらい、そのデータから深層学習モデルを作り出した。

ここで使われたのが、人の神経細胞をモデルにしたニューラルネットワークだが、特に物体認識の分野で注目されている畳み込みニューラルネットワークの中でも、さらに多層の構造を持つ深層畳み込みニューラルネットワーク(DCNN)を採用した。DCNNには、画像の特徴量を学習の過程で自動で検出できる利点があるからだ。そのため、ものの質感のように「着眼点が人によって異なる」ものにも適用できる。しかし、そもそもAIは曖昧な学習が苦手なので、学習手法になんらかの工夫が必要だった。

そこで研究グループは、音韻が触覚や視覚などの感覚的印象と結びつく現象である「音韻徴性」が強く表れるオノマトペに着目した。これを使えば人の印象を定量化しやすい。研究では、繊維、ガラス、金属、プラスチック、水、葉、革、紙、石、木の10のカテゴリーに分類される1946枚の画像と、これらに対応する3万138語のオノマトペを用意し、100人の被験者に画像を見て表現してもらった。そして、1枚の画像に複数のオノマトペを正解として学習させることで、曖昧さを考慮したDCNNモデルを作ることができた。画像を入力するとオノマトペが出力されるこのモデルでは、約80%の正解率を達成できたという。

「人間のように質感を表現できるコンピューターが実現すれば、人とロボットが共存するといわれる将来、たとえば、ロボットが目の不自由な人に質感を教えるといったことが可能になると期待されます」と研究グループは話している。

投稿者:

TechCrunch Japan

TechCrunchは2005年にシリコンバレーでスタートし、スタートアップ企業の紹介やインターネットの新しいプロダクトのレビュー、そして業界の重要なニュースを扱うテクノロジーメディアとして成長してきました。現在、米国を始め、欧州、アジア地域のテクノロジー業界の話題をカバーしています。そして、米国では2010年9月に世界的なオンラインメディア企業のAOLの傘下となりその運営が続けられています。 日本では2006年6月から翻訳版となるTechCrunch Japanが産声を上げてスタートしています。その後、日本でのオリジナル記事の投稿やイベントなどを開催しています。なお、TechCrunch Japanも2011年4月1日より米国と同様に米AOLの日本法人AOLオンライン・ジャパンにより運営されています。