AIチャットボット「りんな」などを手がけるrinna(リンナ)は4月7日、日本語に特化したGPT-2の大規模言語モデルを構築し、GitHubおよびNLPモデルライブラリー「HuggingFace」において、トレーニングコードと言語モデルをオープンソースソフトウェアとして公開した。
また今回公開したモデルは、GPT2-mediumと定義される中規模サイズのものという。今後、パフォーマンスとコストのトレードオフに基づいてユーザーおよび研究者が最善の選択を行えるよう、異なるサイズのモデルも公開する予定。異なるデータでトレーニングした新しいモデルの公開も計画している。
rinnaの研究チームが開発している大規模な言語モデルは、すでに同社プロダクトに広く使用されているという。同社は今後も、異なるテキストスタイルや異なるデータ量を含む、より高精度でより大規模な言語モデルの研究開発を続け、AIチャットボットの能力を高めるとしている。また、日本語の研究コミュニティのために、これらのモデルのオープンソース化を行う。
- HuggingFace:https://huggingface.co/rinna/japanese-gpt2-medium
- GitHub:https://github.com/rinnakk/japanese-gpt2
日本語GPT-2モデルの機能
言語モデルとは、言語データの機械学習を基に、会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したもの。GPT-2の場合は、単語レベルの確率の組み合わせから文の確率を計算する言語モデル(自己回帰言語モデル)を採用している。
例えば、「確率(吾輩は猫である) = 確率(吾輩) × 確率(は|吾輩) x 確率(猫|吾輩,は) × 確率(で|吾輩,は,猫) × 確率(ある|吾輩,は,猫,で)」のような方法で推定を行う。この能力を使って、GPT-2は「吾輩は猫で」という接頭辞(Prefix)を与えられたとき、確率の推定から次にくる単語として「ある」を選択し、文章を自動生成する。
今回rinnaが公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成できる。ユーザーおよび研究者は、特定のテキストデータを微調整して、このモデルから独自のモデルを作成することも可能としている。
例えば、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト(デモ1:講演の感想、デモ2:書籍の紹介)で応答文を生成するように、微調整できるという(掲載した画像のデモは生成する文章の文字数上限を設定しており、実際に生成される全文ではない)。
rinnaの日本語GPT-2モデルの特徴
rinnaの日本語GPT-2モデルは、トレーニングデータとしてCC-100のオープンソースデータを使用しているという。
またNVIDIA「Tesla V100 GPU」を用いて、70ギガバイトの日本語テキストを約1カ月の長期間にわたってトレーニングしたそうだ。その結果同モデルは、約18 perplexityという性能を達成した。この「18perplexity」は、GPT-2モデルが前に与えられた単語から次の単語を予測するときに、正しいものを含む18のオプションだけを残せるという性能を意味するという。モデルは十分にトレーニングされており、汎用性があるとしている。
rinnaは、Microsoft(マイクロソフト)のAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表している。
これらの最新技術は、同社運営のAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボット「AIキャラクター」の開発に応用しており、企業のマーケティングなどに採用されているという。
同社は、製品開発のための自然言語処理(NLP)の実験過程で、日本語に特化したGPT-2の大規模言語モデルを構築。日本語のNLP研究コミュニティに貢献するために、開発した言語モデルと、研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHub、およびNLPモデルライブラリHuggingFaceで、オープンソースとして公開した。
関連記事
・ウイルスの突然変異予測からClubhouse話者識別まで、今、人工知能に期待されていること
・Copy.aiのAI利用記事作成システムは「使える」レベルの驚異的な出来、日本語も対応
・テキストアドベンチャー「AI Dungeon」のLatitudeが「無限の物語」を生み出すゲーム制作のために3.5億円調達
・OpenAIのDALL-Eは言葉による指示で「それらしい」画像を作り出す
・LINEがOpenAI「GPT」・Google「T5」同様の超巨大汎用言語モデルをNAVERと共同開発、世界初の日本語特化
・日本語音声合成向けに東京式アクセントを自動推定する自然言語処理ソフト「tdmelodic」がオープンソース化
・OpenAIがテキストベースのAI機能利用が簡単になる汎用APIを開発
・マイクロソフトはOpenAIと協力してAzure上に世界第5位となるスーパーコンピューターを構築
・OpenAIは非常に優れたテキストジェネレータを開発したが、そのままリリースするのは危険すぎると考えている