rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化

rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化

rinnaは8月25日、日本語に特化したGPT-2とBERTの事前学習モデルとその学習を再現するためのソースコードを、GitHubおよびNLPモデルライブラリーHuggingFaceにオープンソースソフトウェア(OSS)として公開したと発表した。ライセンスはMIT。製品開発のための実験過程で開発したもので、日本語の自然言語処理(NLP)の研究・開発コミュニティに貢献するためという。

rinnaは、2021年4月に日本語に特化した中規模サイズのGPT-2(GPT2-medium)をOSS化しており、今回はモデルサイズが異なる2つのGPT-2(GPT2-small、GPT2-xsmall)を公開したことになる。モデルサイズの違いはパフォーマンスとコストのトレードオフとしており、研究者や開発者は最善のモデル選択可能となるという。また、GPT2-mediumも、学習データと学習時間を増やし、より高性能なモデルへとアップデートしているそうだ。

またGPT-2に加え、BERTを改良したモデルであるRoBERTaも公開した。 GPT-2とBERTの公開により利用者は目的に合わせたモデル選択や、追加学習により多様なタスクへの応用が可能となる。

GPT-2は、予測したい単語より前の単語を考慮して次の単語を予測する言語モデルとなっており、BERTについては、予測したい単語の前の単語だけでなく後の単語も考慮して予測を行う。例えばGPT-2では以下図のように「吾輩」「は」を考慮して「猫」を予測するが、BERTでは前の単語「吾輩」「は」と後ろの単語「で」「ある」を考慮して「猫」を予測する。

rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化

また、今回公開のRoBERTaはBERTを改良したモデルにあたり、BERTより高い性能が報告されているという。RoBERTaを用いて、「4年に1度、[MASK]は開催される。」の[MASK]部分を予測すると、オリンピックやワールドカップといった4年に1度開催されるイベントが上位に予測される。

rinnaが日本語に特化したGPT-2とBERTの事前学習モデルを開発しオープンソース化

文章生成タスクにおいては、文章を1単語ずつ順次予測するGPT-2が用いられるものの、文章分類タスクなどの文章全体を考慮したタスクにおいては、BERTが利用される。文章分類タスクの他にも、質問応答タスクや固有表現認識タスクなど多様なタスクに適用することが可能という。

rinnaの研究チームが開発する大規模な事前学習モデルは、すでに同社製品で広く利用しているという。同社は今後も、AIに関する研究を続け、高性能な製品を開発するとともに、研究・開発コミュニティに貢献するために、研究成果を公開していく予定としている。他社との協業も進めることで、AIの社会実装の拡大を目指す。

rinnaの日本語事前学習モデルの特徴

    • 学習データとして、日本語CC-100と日本語Wikipediaの計75GBのオープンソースデータを使用
    • 8つのNVIDIA Tesla V100 GPUを用いて、75GBの日本語テキストを最大45日間かけ学習。その結果、すべてのモデルにおいて、十分に学習された汎用性があるモデルとなっているという。学習された事前学習モデルはHuggingFaceにおいてMITライセンスで公開
    • 事前学習モデルの学習に用いたソースコードはGitHubにMITライセンスで公開。利用者は、日本語CC-100とWikipediaのオープンソースデータを用いることで、自分のマシンでrinnaによる結果を再現可能
    • GPT-2ではモデルサイズが異なるGPT2-medium(3.36億パラメータ)、GPT2-small (1.10億パラメータ)、GPT2-xsmall (0.37億パラメータ)の3つのモデルを公開。またBERTを改良したRoBERTa (1.10億パラメータ)も公開
    • 利用者の目的に沿った多様なタスク(ドメインに特化した文章生成、文章分類、質問応答など)について、rinnaが公開した事前学習モデルを用いた追加学習により実現できる

AIチャットボット「りんな」を手がけるrinnaが日本語特化のGPT-2大規模言語モデルをオープンソース化

AIチャットボット「りんな」を手がけるrinnaが日本語特化のGPT-2大規模言語モデルをオープンソース化

AIチャットボット「りんな」などを手がけるrinna(リンナ)は4月7日、日本語に特化したGPT-2の大規模言語モデルを構築し、GitHubおよびNLPモデルライブラリー「HuggingFace」において、トレーニングコードと言語モデルをオープンソースソフトウェアとして公開した。

また今回公開したモデルは、GPT2-mediumと定義される中規模サイズのものという。今後、パフォーマンスとコストのトレードオフに基づいてユーザーおよび研究者が最善の選択を行えるよう、異なるサイズのモデルも公開する予定。異なるデータでトレーニングした新しいモデルの公開も計画している。

rinnaの研究チームが開発している大規模な言語モデルは、すでに同社プロダクトに広く使用されているという。同社は今後も、異なるテキストスタイルや異なるデータ量を含む、より高精度でより大規模な言語モデルの研究開発を続け、AIチャットボットの能力を高めるとしている。また、日本語の研究コミュニティのために、これらのモデルのオープンソース化を行う。

日本語GPT-2モデルの機能

言語モデルとは、言語データの機械学習を基に、会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したもの。GPT-2の場合は、単語レベルの確率の組み合わせから文の確率を計算する言語モデル(自己回帰言語モデル)を採用している。

例えば、「確率(吾輩は猫である) = 確率(吾輩) × 確率(は|吾輩) x 確率(猫|吾輩,は) × 確率(で|吾輩,は,猫) × 確率(ある|吾輩,は,猫,で)」のような方法で推定を行う。この能力を使って、GPT-2は「吾輩は猫で」という接頭辞(Prefix)を与えられたとき、確率の推定から次にくる単語として「ある」を選択し、文章を自動生成する。

今回rinnaが公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成できる。ユーザーおよび研究者は、特定のテキストデータを微調整して、このモデルから独自のモデルを作成することも可能としている。

例えば、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト(デモ1:講演の感想、デモ2:書籍の紹介)で応答文を生成するように、微調整できるという(掲載した画像のデモは生成する文章の文字数上限を設定しており、実際に生成される全文ではない)。

デモ1:講演の感想のコンテキストで文章生成

デモ1:講演の感想のコンテキストで文章生成

デモ2:書籍の紹介のコンテキストで文章生成

デモ2:書籍の紹介のコンテキストで文章生成

rinnaの日本語GPT-2モデルの特徴

rinnaの日本語GPT-2モデルは、トレーニングデータとしてCC-100のオープンソースデータを使用しているという。

またNVIDIA「Tesla V100 GPU」を用いて、70ギガバイトの日本語テキストを約1カ月の長期間にわたってトレーニングしたそうだ。その結果同モデルは、約18 perplexityという性能を達成した。この「18perplexity」は、GPT-2モデルが前に与えられた単語から次の単語を予測するときに、正しいものを含む18のオプションだけを残せるという性能を意味するという。モデルは十分にトレーニングされており、汎用性があるとしている。

rinnaは、Microsoft(マイクロソフト)のAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表している。

これらの最新技術は、同社運営のAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボット「AIキャラクター」の開発に応用しており、企業のマーケティングなどに採用されているという。

同社は、製品開発のための自然言語処理(NLP)の実験過程で、日本語に特化したGPT-2の大規模言語モデルを構築。日本語のNLP研究コミュニティに貢献するために、開発した言語モデルと、研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHub、およびNLPモデルライブラリHuggingFaceで、オープンソースとして公開した。

関連記事
ウイルスの突然変異予測からClubhouse話者識別まで、今、人工知能に期待されていること
Copy.aiのAI利用記事作成システムは「使える」レベルの驚異的な出来、日本語も対応
テキストアドベンチャー「AI Dungeon」のLatitudeが「無限の物語」を生み出すゲーム制作のために3.5億円調達
OpenAIのDALL-Eは言葉による指示で「それらしい」画像を作り出す
LINEがOpenAI「GPT」・Google「T5」同様の超巨大汎用言語モデルをNAVERと共同開発、世界初の日本語特化
日本語音声合成向けに東京式アクセントを自動推定する自然言語処理ソフト「tdmelodic」がオープンソース化
OpenAIがテキストベースのAI機能利用が簡単になる汎用APIを開発
マイクロソフトはOpenAIと協力してAzure上に世界第5位となるスーパーコンピューターを構築
OpenAIは非常に優れたテキストジェネレータを開発したが、そのままリリースするのは危険すぎると考えている

カテゴリー:人工知能・AI
タグ:OpenAI(組織)自然言語処理 / NLP(用語)GPT / Generative Pretrained TransformeGPU(用語)ディープラーニング / 深層学習(用語)Microsoft / マイクロソフト(企業)日本(国・地域)