大規模言語モデル(LLM)とは?
大規模言語モデルとは、大量のデータを基に言語を理解し生成する機械学習モデルです。機械学習モデルとは、未知の情報から判断したりパターンを発見するプログラムのことです。
名前からもわかる通り、自然な文章や画像を生成する能力があります。現在では、文章生成や画像生成など日常生活の多くの場面で使われています。大規模言語モデルは、ナダ・トロント大学教授のジェフリー・ヒントンによって先駆的な「Alex net」がリリースされた後今にいたるまで開発、改善されています。
言語モデルとは
大規模言語モデルを紹介する前に、そのもとになっている言語モデルについて紹介します。
言語モデルとは、機械に自然な文章を生成させるために、文脈上で次に続きそうな単語の確率を割り当てたモデルのことです。例えば、「喉が渇いた。お茶を〜」という文章があったときに、「お茶を」に続く述語のなかで「飲みたい」を高い確率に当て、「食べたい」を低い確率に当てます。
このように、より自然な文章の並びに対して高い確率を割り当てて、不自然な文章の並びに対しては低い確率を割り当てます。これをすることによってChatGPTなどでより自然な文章が出力できるようになります。
改めて大規模言語モデル
先ほど言語モデルとは、文章が自然な並びになるようにそれぞれの単語に確率を割り当てたものと紹介しました。では、その言語モデルがもとになった大規模言語モデルはどのようなものなのでしょうか。大規模言語モデルとは、言語モデルに使われる各種のデータの量が大規模になったモデルです。主に3つの種類のデータが大規模になっています。
- 計算量:コンピューターが計算処理を行う量
- データ量:コンピューターにインプットする文章などの情報の量
- パラメーター数:単語や文章を予測するための確率計算に用いるパラメーターの量
実際、大規模言語モデルの多くは数億から数十億のテキストデータを用いて文章を生成しています。このような大規模化によって、質問したことを理解して人間が書いたような自然な文章を生成できるようになりました。(ただし、あくまで確率に基づいて文章を生成しているわけではないことには注意が必要です)
大規模言語モデルと生成AI、ChatGPT、自然言語の違い
皆さんが生成AIを調べる中でよく出てくる単語として大規模言語モデル、生成AI、ChatGPT、自然言語があると思います。これらの単語はそれぞれどのような意味があるのでしょうか。ここではそれぞれの単語の意味を比較して紹介します。
- 生成AIは、データを用いて文章に限らず、画像、動画、音楽など新たなコンテンツを生み出すAIのこと
- 大規模言語モデルは生成AIの中でも自然言語を生み出すことに特化したモデルのこと。大規模言語モデルは生成AIの一種といえる。
- 機械学習とは、特定のデータを使ってコンピューターに学習させる技術のこと。大規模言語モデルとはテキストデータに特化した機械学習モデルといえる。
- ChatGPTとは、大規模言語モデルを使って応答を行うOpenAIが提供するサービスのこと。大規模言語モデルがシステムの中身になっているといえる。
このようにすべて大規模言語モデルに関わる単語ですがこのような違いがあります。
大規模言語モデルの仕組み
次に大規模言語モデルの仕組みを見ていきましょう。大規模言語モデルの背後には、膨大なデータと高度なアルゴリズムがあります。これにより、文脈を理解し、適切な応答や文章生成が可能となります。
トークン化
トークン化とは、入力されたテキストを小さな単位(トークン)に分割するプロセスです。このプロセスによってモデルがテキストを処理しやすくなります。トークンは単語やサブワード、さらには文字単位にまで細分化されます。適切なトークン化は、モデルの性能向上に寄与します。
文脈理解
文脈理解とは入力された文章の各トークンの関係性を調べるプロセスです。
モデルは、前後の文脈を考慮し、単語やフレーズの意味を理解します。文脈理解の精度は、モデルの訓練データ量や質に大きく依存します。これにより、モデルはより自然で適切な応答を生成することができるようになります。
エンコード
エンコードは、入力テキストをベクトル表現に変換するプロセスで、トークン化した入力テキストを数値データとして処理できるようにするためのものです。エンコードされたベクトルは、テキストの意味や文脈情報を保持します。高精度なエンコードは、モデルのパフォーマンス向上に重要です。これにより、モデルはテキストを数値データとして処理し、高度な言語理解と生成を実現します。
トークンのデコード
デコードは、モデルが生成したベクトル表現を再びテキストに変換するプロセスです。デコードはトークンごとに行われ、逐次的にテキストが生成されます。デコードのプロセスにより、モデルは一貫した文脈で自然な文章を作成することができます。
入力文の次のトークンの確率を出力
入力文の次のトークンの確率を出力するプロセスについて説明します。
モデルは、入力文に基づき、次に出現するトークンの確率分布を計算します。確率の高いトークンが選ばれ、順次テキストが生成されます。このプロセスにより、モデルは一貫した文脈で自然な文章を作成します。これにより、モデルはより適切で自然なテキスト生成が可能となります。
大規模言語モデル一覧
大規模言語モデルには様々な種類があります。
よく「このモデルは文章の精度が良い、悪い」と言われますが実際にはどのモデルが良いものを持っているのでしょうか?また、それぞれに異なる特性があるため用途によって使い分けもできるため詳しく見ていきましょう。
GPT-3.5,GPT-4,GPT-4o
まずGPT-3.5、GPT-4、およびGPT-4oについてご紹介します。全てChatGPTを提供しているOpenAIが作っている大規模言語モデルです。現在にかけてどんどん進化を重ねるOpenAIの大規模言語モデルですがこういった性能の違いがあります。
GPT-3.5 | GPT-4 | GPT-4o | |
---|---|---|---|
パラメータ | 1.750億 | 約100兆個 | 未公開 |
最大トークン数 | 2,048 | 32,768(2の15乗) | 未公開 |
トレーニングデータ | 2021年までのデータ | 2021年以降のデータも含む | 最新データまで含む |
このようにGPT-3.5からGPT-4でパラメータは1000倍ほどの違いがあります。実際、ChatGPT4はアメリカの司法試験で上位10%に入りました。ChatGPT3.5が下位10%に留まっていることを考えると大きな違いです。GPT-4oは非公開ですがそれ以上のパラメータ数と考えると性能の向上の具合がわかると思います。(2024年8月にはGPT-4o-latestという最新モデルが公開されました。このモデルでは英語において生成される文章の精度が世界で一番高くなっています。)
BERT
次にBERTについてご紹介します。
BERTは、Googleが開発した言語モデルでGeminiに搭載されています。BERTの最も大きな特徴は、双方向性を持っていることです。つまり、文の前後を考慮した文脈理解ができます。これにより、高度な自然言語処理タスクを行うことが可能になります。実際、この特徴によって「自然言語処理タスク」において2018年当時の最高スコアを叩き出したことで注目されました。「自然言語処理タスク」とは翻訳や文書分類、質問応答といった自然言語処理における仕事の分野におけるタスクのことです。
パラメータによる性能の違い
モデルのパラメータ数は性能に直結し、一般的に多いほど高度な言語処理が可能です。つまりパラメータ数が多ければ多いほど精度の高い文章を出力することができます。
しかし、パラメータ数が多いモデルは計算資源と訓練データが必要です。そのため、適切なパラメータ設定は、モデルの実用性と効率性を左右します。このバランスをうまく設定できれば、モデルの性能と実用性を最大限に引き出すことが可能です。
大規模言語モデルが使われているサービス
これまでは大規模言語モデルがどのようなものかを紹介しました。しかし、これだけでは大規模言語モデルがどのような場面で使われているかわからない人もいると思います。
大規模言語モデルは多くの場面で使われるようになっており、特に大規模言語モデルを使ったサービスは身近なものになってきています。そこで最近よく使われている生成AIのサービスを挙げてそれぞれどの大規模言語モデルが使われているのか見ていきましょう。
ChatGPT
「ChatGPT」とは人間と会話したかのように質問に対して返答してくれる対話型のAIサービスです。
2022年11月に公開したあと日本でも大きな話題を呼びました。OpenAIが開発したこのサービスは先ほど説明した大規模言語モデルであるGPT-3.5、GPT-4、GPT-4oをベースにサービスを提供しています。それぞれ有料版、無料版によって使える大規模言語モデルが違います。
複数回のアップデートを経てユーザーにとって非常に使いやすく初心者でも使いやすいサービスといえるでしょう。実際、ChatGPTは登録なしでサービスを活用することができます。
また、ファイル添付、画像生成などかゆいところに手が届く機能がそろっています。
Gemini
Googleが開発した「Gemini(旧Bard)」は2023年12月に発表したサービスです。
大規模言語モデルであるBERTが使われています。文章理解だけでなく、画像や動画、音声も理解できる”マルチモーダル機能”を備えている点が特徴です。この特徴によって、Geminiでは生成してもらいたい内容によっていくつものサービスを行き来する必要がありません。
Geminiは3つのモデルに分かれており、それぞれGemini Nano、Gemini Pro、Gemini、Ultraがあります。日本語を生成する性能はOpenAIの最新モデル(ChatGPT-4o-latest)よりもGeminiの最新モデル(Gemini1.5Pro)の方が優れています。
日本語の文章生成をする場合はGeminiを使ってみましょう!
Copilot
Copilot(旧Bing AIチャット)は、Microsoftが提供する検索エンジン「Bing」内の対話型AIサービスです。
このサービスは検索エンジンと連動することによって常に最新の情報を得ることができます。また出力内容には参照したページのURLがあるためユーザーは気になったことがあればより深く自分で調べることや事実確認をすることができます。
Copliotに搭載されている大規模言語モデルはGPT-4であるため高精度な回答がCopliotから返ってきます。また無料で使えるため性能の良い大規模言語モデルを使いたい人におすすめです。
企業における大規模言語モデル(LLM)活用事例
多くの企業が大規模言語モデルを事業に導入することで、業務効率化や顧客対応の改善を図っています。この記事では具体的な企業の取り組みを紹介します。ぜひ、この事例を参考に大規模言語モデルがどのように活用できるか考えてみてください。
メルカリが生成AIを活用した「メルカリAIアシスト」サービスを提供開始
メルカリは、生成AIと大規模言語モデルを活用して「メルカリAIアシスト」という新機能を提供しています。
このサービスではAIが自動で出品情報の改善を提案します。このサービスを利用することで、ユーザーは出品した商品がより早く売れるようになります。たとえば、売れ残り商品のサイズや価格情報の追記、商品名の自動生成などをします。このサービスによって、出品者が効率的に商品を売却できる環境を整えることができています。
- 出品商品の改善提案
メルカリAIアシストは、売れ残った商品の情報を自動的に分析し、過去のデータをもとに商品が売れやすくなるような提案を行います。これにより、ユーザーが手動で行う必要のある作業を大幅に軽減し、出品者の負担を減らします。 - 商品名の自動生成
大規模言語モデルを使って、商品の特徴に基づいた適切な商品名を自動生成します。これにより、購入者が商品を見つけやすくなり、販売機会が向上します。この機能は、特に初心者やタイトルに迷う出品者にとって大きな助けとなります。 - カテゴリ別最適化
現時点では、キャラクターグッズや音楽関連商品など特定のカテゴリに限定されていますが、将来的には対応カテゴリを広げる予定です。大規模言語モデルを活用することで、カテゴリごとに最適な提案が行われるようになり、幅広いユーザー層に対応できるよう設計されています。
このように、メルカリは大規模言語モデルを活用することによってユーザーにとってより便利で効果的な出品サポートを提供しています。
詳細な情報や導入の背景については、公式発表ページをご覧ください。
マイナビとELYZAが大規模言語モデルを活用した新サービス
マイナビとELYZAは、共同で大規模言語AIを活用した原稿作成支援システムの実証実験を行い、一部業務において平均30%の業務効率化に成功しました。
このシステムにはELYZAが開発した国産の大規模言語モデル「ELYZA Brain」を活用されています。このシステムによって求人原稿の新規作成や書き換えがより簡単になりました。
- 求人原稿の自動生成
マイナビバイトでの求人原稿の新規作成や書き換えにおいて、大規模言語モデルが自動で文章を生成します。この自動生成によって出稿スピードが向上し、求人の質を保ちながら、手作業による負担が大幅に軽減されました。 - 業務効率化
ELYZAの大規模言語モデルを活用することで、求人原稿作成にかかる時間が月間で500〜700時間削減することができるようになりました。これにより、作業者がより高度なタスクに時間を割けるようになり、全体の業務効率が大幅に向上しました。 - 利便性の向上
ELYZA Brainの導入によって利便性が上がりました。具体的には、原稿作成が早くなったことで求人の掲載までの時間が短縮されました。このことは、求職者とのマッチング機会の損失を減らすことができます。また、より多くの時間が原稿の質向上に割けるようになり、最終的には採用活動全体の品質が向上しました。
この共同プロジェクトの成功は、今後の業務効率化やAI技術のさらなる発展に向けた大きな一歩となりました。マイナビとELYZAは、今後もAI技術を活用した革新的なサービスの提供を目指していきます。
詳細はこちらをご覧ください。
NTT-ATの大規模言語モデル活用「LLMカスタマイズサービス」
NTTアドバンステクノロジ株式会社(NTT-AT)は、ChatGPTなどの大規模言語モデルを企業向けにカスタマイズする「LLMカスタマイズサービス」を開始しました。このサービスは、企業が持つ固有の知識を大規模言語モデルと融合させ、業務効率を高めることを目的としています。
- 企業に対するコンサルティング
NTT-ATは、企業の業務に合わせて大規模言語モデルを最適に導入するコンサルティングを行っています。企業固有の知識や業務に基づき、どのように大規模言語モデルを適用するかを提案しています。 - 個々の企業に合った業務支援システムの構築
大規模言語モデルを活用して、企業独自の知識を組み込んだ業務支援システムを構築します。これにより、日常業務において自然なチャット応答や業務文書の作成支援を実現し、従来のシステムでは対応が難しかった業務のデジタル化を進めます。 - システムの最適化
導入したシステムは実際の業務で運用しながら、継続的に最適化を図ります。これにより、企業の業務により適したシステムへと進化させ、持続的な効果を発揮します。
NTT-ATの「LLMカスタマイズサービス」は、企業のデジタルトランスフォーメーションを強力に支援するものであり、多様な産業分野での活用が期待されています。
詳細はこちらをご覧ください。
最近の大規模言語モデル(LLM)の最新動向
近年AIのビジネスへの活用により大規模言語モデルも大きな進化をしています。この動向を追うことで今後どのようなサービスがうまれるかを予測することができます。
国内大規模言語モデルの発展
2024年現在、国内大手ITベンダーが大規模言語モデルの提供を始めます。
NTTは3月に「tsuzumi(つづみ)」を、NECは春頃に「cotomi(コトミ)」という大規模言語モデルの提供を始めました。この二社の大規模言語モデルはオープンAIのGPTに比べて規模が小さいことが特徴です。
実際にGPT-4が約100兆個のパラメータを持っているのに対してtsuzumiは70億と6億のパラメータ、cotomiは130億のパラメータしか持っていません。この小さい大規模言語モデルによるメリットは2つあります。
- 利用する企業が自社で大規模言語モデルを保有できる
- 少ないリソース、低コストでの利用ができる
従来の大規模言語モデルはベンダー企業、つまり大規模言語モデルを開発した企業から提供する方法が主流でした。なぜなら、大規模言語モデルを扱えるデータセンターは利用する企業では用意することがむずかしかったからです。
しかし、小さい大規模言語モデルでは利用する企業で大規模言語モデルを持つことができます。これにより情報漏洩の危険性などが少なくなります。
また、用意するデータが少なくなることで大規模言語モデルが学習するための費用が安くなります。例えば、GPT-3と同じ1750億のパラメータを持つ大規模言語モデルに対して3000億トークンのデータを学習させる費用は4億7000万円ほどであるのに対して、同じデータ量をtsuzumiに学習させるための費用は1/25の1900万円で済みます。
外国企業による日本投資(OpenAI,Googleなど)
現在OpenAIやGoogleなどの海外のAI企業による日本への投資が目立ちます。OpenAIはアジア初となる拠点を4月に日本で立ち上げ事業活動を始めました。
Microsoftは日本国内のAIやクラウド基盤強化に2年間で4400億円、AWSはデータセンターへの設備投資に2027年までに2.3兆円を使うと計画しています。Googleも日本独自の新サービスを提供する。このように近年の日本への投資の理由はいくつか考えられます。
- 日本の消費者が新たなテクノロジーに好意的
- 近年の専門人材の不足
- 少子高齢化によるAIの需要の高まり
これらの理由から大規模言語モデルは今後世界の中でも日本において大きく発展すると思われます。
大規模言語モデルの課題
今まで見てきたように大規模言語モデルは様々な活用の仕方が考えられ今後社会にインパクトを与えられます。しかし、発展途中の大規模言語モデルにはいくつかの課題があります。
一方で、LLMにはいくつかの課題も存在します。
人工知能倫理と安全性
大規模言語モデルを使ったサービスは使い方をまちがえると気づかない間に差別や偏見をばらまいてしまう可能性があります。これは大規模言語モデルの社会的影響が大きくなればなるほど相対的にその影響が大きくなります。そのため、慎重に倫理について見定める必要があります。
また、データの収集の仕方や活用方法については大規模言語モデルの開発者に一任されています。この方法について問題視されることがあるため開発者はこの安全性について責任を取り続けなくてはいけません。
データプライバシーとアクセス権
利用ユーザーの情報が漏れる可能性があります。なぜなら、ChatGPTなど大規模言語モデルを使ったサービスはユーザーの入力したデータをも学習してしまう場合があるからです。
実際に、ChatGPTが出た当初は企業の従業員が機密情報を入力し、OpenAIに大量の機密情報が入ってしまうという事例がありました。しかし近年ではサービス提供者が情報漏洩を自主的に規制しておりその危険性は下がっています。
不適切な内容のフィルタリング
大規模言語モデルは不適切なコンテンツを生成するリスクがあります。開発者が調べることを規制したとしてもユーザーの入力次第では大規模言語モデルは暴力的なコンテンツをはじめとした不適切なコンテンツを生成してしまいます。
これは開発者がフィルタリング技術を上げる必要があります。ただ、現在のところ普通の使い方をしていれば特に問題はありません。
大規模言語モデルで考えられる未来
大規模言語モデルはそのインパクトから大きく社会を変えていくでしょう。今後10年以内には、消費者のニーズに合わせたカスタマイズ可能なAIや今まで以上に創造性を発揮し人間を助けるAIなどが登場することが予想されます。
現在大企業が多大な費用を払って大規模言語モデルを使っている状況から個々人に焦点が向かうのです。実際、ChatGPTに登場する「GPTs」では既に個々人に合わせたチャットボットの作成が可能となっています。
このように社会を変える大規模言語モデルの登場により社会に大きな変化が訪れます。この変化に対応していくためには、個々人による理解が求められます。
まとめ
大規模言語モデルは大規模なデータセットを使った言語モデルのことです。ChatGPTをはじめとした生成AIのサービスやビジネスのサポートなどすでに幅広い点で使われています。
一方で、大規模言語モデルの活用には倫理やデータプライバシーの課題があり、これらの問題に対応するための規制と技術の向上が必要です。国内外の企業による大規模言語モデルへの投資も進み、今後さらに発展が期待されます。大規模言語モデルは、個々人に合わせたカスタマイズや創造性を発揮するAIの登場により、社会に大きな変化をもたらすでしょう。個々人の理解と適応が求められます。