rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化

rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化

rinnaは8月25日、日本語に特化したGPT-2とBERTの事前学習モデルとその学習を再現するためのソースコードを、GitHubおよびNLPモデルライブラリーHuggingFaceにオープンソースソフトウェア(OSS)として公開したと発表した。ライセンスはMIT。製品開発のための実験過程で開発したもので、日本語の自然言語処理(NLP)の研究・開発コミュニティに貢献するためという。

rinnaは、2021年4月に日本語に特化した中規模サイズのGPT-2(GPT2-medium)をOSS化しており、今回はモデルサイズが異なる2つのGPT-2(GPT2-small、GPT2-xsmall)を公開したことになる。モデルサイズの違いはパフォーマンスとコストのトレードオフとしており、研究者や開発者は最善のモデル選択可能となるという。また、GPT2-mediumも、学習データと学習時間を増やし、より高性能なモデルへとアップデートしているそうだ。

またGPT-2に加え、BERTを改良したモデルであるRoBERTaも公開した。 GPT-2とBERTの公開により利用者は目的に合わせたモデル選択や、追加学習により多様なタスクへの応用が可能となる。

GPT-2は、予測したい単語より前の単語を考慮して次の単語を予測する言語モデルとなっており、BERTについては、予測したい単語の前の単語だけでなく後の単語も考慮して予測を行う。例えばGPT-2では以下図のように「吾輩」「は」を考慮して「猫」を予測するが、BERTでは前の単語「吾輩」「は」と後ろの単語「で」「ある」を考慮して「猫」を予測する。

rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化

また、今回公開のRoBERTaはBERTを改良したモデルにあたり、BERTより高い性能が報告されているという。RoBERTaを用いて、「4年に1度、[MASK]は開催される。」の[MASK]部分を予測すると、オリンピックやワールドカップといった4年に1度開催されるイベントが上位に予測される。

rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化

文章生成タスクにおいては、文章を1単語ずつ順次予測するGPT-2が用いられるものの、文章分類タスクなどの文章全体を考慮したタスクにおいては、BERTが利用される。文章分類タスクの他にも、質問応答タスクや固有表現認識タスクなど多様なタスクに適用することが可能という。

rinnaの研究チームが開発する大規模な事前学習モデルは、すでに同社製品で広く利用しているという。同社は今後も、AIに関する研究を続け、高性能な製品を開発するとともに、研究・開発コミュニティに貢献するために、研究成果を公開していく予定としている。他社との協業も進めることで、AIの社会実装の拡大を目指す。

rinnaの日本語事前学習モデルの特徴

    • 学習データとして、日本語CC-100と日本語Wikipediaの計75GBのオープンソースデータを使用
    • 8つのNVIDIA Tesla V100 GPUを用いて、75GBの日本語テキストを最大45日間かけ学習。その結果、すべてのモデルにおいて、十分に学習された汎用性があるモデルとなっているという。学習された事前学習モデルはHuggingFaceにおいてMITライセンスで公開
    • 事前学習モデルの学習に用いたソースコードはGitHubにMITライセンスで公開。利用者は、日本語CC-100とWikipediaのオープンソースデータを用いることで、自分のマシンでrinnaによる結果を再現可能
    • GPT-2ではモデルサイズが異なるGPT2-medium(3.36億パラメータ)、GPT2-small (1.10億パラメータ)、GPT2-xsmall (0.37億パラメータ)の3つのモデルを公開。またBERTを改良したRoBERTa (1.10億パラメータ)も公開
    • 利用者の目的に沿った多様なタスク(ドメインに特化した文章生成、文章分類、質問応答など)について、rinnaが公開した事前学習モデルを用いた追加学習により実現できる