電気通信大学は11月17日、「つるつる」や「さらさら」といったオノマトペ(擬態語)で画像に写っているモノの質感を表現できるAIの開発を発表した。オノマトペという人によって感覚の異なるあいまいさを機械学習させることに成功したということだ。
電気通信大学大学院情報理工学研究科および人工知能先端研究センターの坂本真樹教授らによる研究グループは、1946枚の画像に写っているものの質感を、100人の被験者にオノマトペで表現してもらい、そのデータから深層学習モデルを作り出した。ここで使われたのが、人の神経細胞をモデルにしたニューラルネットワークだが、特に物体認識の分野で注目されている畳み込みニューラルネットワークの中でも、さらに多層の構造を持つ深層畳み込みニューラルネットワーク(DCNN)を採用した。DCNNには、画像の特徴量を学習の過程で自動で検出できる利点があるからだ。そのため、ものの質感のように「着眼点が人によって異なる」ものにも適用できる。しかし、そもそもAIは曖昧な学習が苦手なので、学習手法になんらかの工夫が必要だった。
そこで研究グループは、音韻が触覚や視覚などの感覚的印象と結びつく現象である「音韻徴性」が強く表れるオノマトペに着目した。これを使えば人の印象を定量化しやすい。研究では、繊維、ガラス、金属、プラスチック、水、葉、革、紙、石、木の10のカテゴリーに分類される1946枚の画像と、これらに対応する3万138語のオノマトペを用意し、100人の被験者に画像を見て表現してもらった。そして、1枚の画像に複数のオノマトペを正解として学習させることで、曖昧さを考慮したDCNNモデルを作ることができた。画像を入力するとオノマトペが出力されるこのモデルでは、約80%の正解率を達成できたという。
「人間のように質感を表現できるコンピューターが実現すれば、人とロボットが共存するといわれる将来、たとえば、ロボットが目の不自由な人に質感を教えるといったことが可能になると期待されます」と研究グループは話している。