2021年2月に開催された「『自然言語処理(NLP)』の可能性 -コロナ禍のウイルス対策から、感情を理解する音声認識まで-」というイベントで、AppierのAIチーフサイエンティストであり、台湾国立精華大学准教授でもあるMin Sun(ミン・スン)氏が登壇、昨今のAI技術のトレンドやそのユースケースについて解説した。今回はそのレポートをお届けする。
ミン氏は、世界での人工知能に関する論文を学会で多数発表しており、2015年から2017年までCVGIP(Computer Vision Graphics and Images Processing)より最優秀論文賞を3年連続で受賞している。今回、ミン氏は、新型コロナウイルス関連でのAIの活躍と、AI系でトップクラスの学会であるVirtual NeurIPSで近年注目されている自然言語処理技術の2点について語った。
新型コロナウイルス関連において、AIはフェイクニュース検知だけでなく、医療分野でも活躍している。ウイルスの突然変異検知や新薬生成では、GoogleのDeepMindによって開発された人工知能プログラムAlphafoldが注目されている(2020年にはバージョン2が開発されている)。また、生物医学領域においてタンパク質構造を記憶することで異変のある配列を持つアミノ酸を検知し、新型コロナウイルスの突然変異の判別や予測が可能だという。さらにX線結晶学を組み合わせることで、従来より5万倍早い速度で抗ウイルス薬を検証できるとのこと。
患者が重度の場合、検証、対策はしやすいが、軽度や無症状患者の場合、ウイルスの突然変異は予測が難しく、軽度や無症状患者を介した爆発的拡大は防ぎづらい。しかしAIによる突然変異検知が進むことで、このパンデミック防止も防げるのではないかと考えられている。
自然言語処理技術の話題について、ミン氏は2つの技術を紹介した。トップクラスの学会であるNeurIPSの2020年開催分でBest Paperにも選ばれた、GPT-3(Generative Pretrained Transformer)という文章生成言語モデルが現在、注目されている。これはElon Musk(イーロン・マスク)氏やMicrosoftが出資する非営利団体OpenAIが制作しており、一つ前のモデルであるGPT-2と比較すると、事前学習に使用されるテキストデータは約1100倍となる45TB、パラメータ数は約117倍の1750億個と、データセットが飛躍的に大きくなっている。事例を少し与えただけで、続きの文章をまるで人間が書いたかのように自然に生成してくるとエンジニアの間で話題になった。
そんなGPT-3を超えると注目を集めているのが、Googleの研究者たちが集結するGoogle Brain Teamが発表した、1兆個を超えるパラメータを持つことができると言われているNLP AIモデル、Switch Transformerだ。その特徴は、処理のところどころにゲーティングネットワークを置き、与えられた処理を最も効率的に行ってくれそうなエキスパートと呼ばれる特化型FFN(Feed Forward Network)に聞きに行くこと。FFNは順伝播型ニューラルネットワークと訳され、一方向に処理を進める。戻りがないため再帰型と比較し処理が速くなるが、これによって従来より7倍以上の事前トレーニングの高速化が可能だと言われており、実際、研究者たちがSwitch Transformerを用いて、一部の単語をマスクした状態で欠落した単語を予想するなどのトレーニングを行ったが、不安定性がないという。
自然言語処理能力の向上は、音声解析分野での期待が大きい。コロナ禍で自宅で過ごす時間が多くなり、ポッドキャストや音声SNSのClubhouseの利用者は増加。従来、話者が複数で長時間録音された音声データの書き起こしは要素が多すぎることもあり難しいとされてきたが、大規模処理モデルを用いれば、その処理や新たな音声コンテンツの作成も期待できるという。例として、Real time Voice Cloningを使用することで、リアルタイムに音声をコピーし、別の話者の声に変換することもできるという。
今後もAIの進化、そしてAIが叶える未来に期待が膨らむ。