LLMとは?大規模言語モデルの仕組みと歴史
約10分
LLM(Large Language Model、大規模言語モデル)とは、膨大なテキストデータを学習することで、人間のように自然な文章を理解・生成できるAIモデルです。ChatGPTなどのAIアシスタントやOpenAI APIのモデルは、LLMをアプリケーションから利用する代表例です。[1] LLMの仕組みを理解することは、現代の生成AIを正しく使いこなすための第一歩です。
LLMが登場する前 — 自然言語処理の歴史
Section titled “LLMが登場する前 — 自然言語処理の歴史”LLMが登場する以前、コンピュータに言語を理解させるアプローチは大きく3つの段階を経てきました。
ルールベース(〜1990年代)
Section titled “ルールベース(〜1990年代)”人間が文法ルールや辞書を手作業で定義し、コンピュータに処理させる方法です。「動詞の後には目的語が来る」といったルールを記述することで翻訳や情報抽出を行いました。ルールが複雑になるほど例外が増え、実用的な品質を保つことが困難でした。
統計的手法(2000年代)
Section titled “統計的手法(2000年代)”大量のテキストデータから単語の共起確率を統計的に学習する手法です。「東京の後には駅が来ることが多い」といったパターンを統計モデルとして構築しました。機械翻訳や音声認識の品質改善に使われましたが、長い文脈の理解には限界がありました。
ニューラルネットワーク(2010年代〜)
Section titled “ニューラルネットワーク(2010年代〜)”ニューラルネットワークを用いた表現学習により、単語の意味を数値ベクトル(Word2Vec など)で表現できるようになりました。そして2017年のTransformerの登場が、現代のLLMへの道を開きました。[2]
LLMとは何か — 定義と3つの特徴
Section titled “LLMとは何か — 定義と3つの特徴”LLMは次の3つの特徴を持つ言語モデルです。
| 特徴 | 内容 |
|---|---|
| Large(大規模) | 数十億〜数兆のパラメータを持つ大規模なモデル |
| Language(言語) | テキストデータを主要な学習・出力対象とする |
| Model(モデル) | データから学習した統計的なパターンの集合 |
「大規模」の基準は時代とともに変化します。GPT-3 は1750億パラメータの自己回帰型言語モデルとして報告され、少数ショット学習の能力を示した代表例です。[3]
LLMが「言語を理解する」仕組み
Section titled “LLMが「言語を理解する」仕組み”ステップ1: テキストをトークンに分割する
Section titled “ステップ1: テキストをトークンに分割する”LLMはテキストをそのまま処理するのではなく、まずトークン(Token)という単位に分割します。トークンは単語・部分的な単語・記号などです。
「東京は日本の首都です」
→ ["東京", "は", "日本", "の", "首都", "です"]トークンの数え方はモデルのトークナイザーによって変わるため、実務では利用するAPIやモデルのトークナイザーで確認します。[1]
ステップ2: トークンを数値ベクトルに変換する(埋め込み)
Section titled “ステップ2: トークンを数値ベクトルに変換する(埋め込み)”各トークンは埋め込み(Embedding)と呼ばれる高次元の数値ベクトルに変換されます。意味が似た単語は、ベクトル空間上でも近い位置に配置されます。
「王」- 「男性」+ 「女性」≈ 「女王」
(ベクトル演算で意味の関係を表現できる)ステップ3: Transformerで文脈を理解する
Section titled “ステップ3: Transformerで文脈を理解する”変換されたベクトルはTransformer(トランスフォーマー)アーキテクチャで処理されます。Self-Attention(自己注意機構)により、文中のすべてのトークン間の関係を同時に計算し、文脈を表現します。[2]
graph LR
A["入力テキスト"] --> B["トークン化"]
B --> C["埋め込み変換\n(ベクトル化)"]
C --> D["Transformer層\n(Self-Attention)"]
D --> E["次のトークンの\n確率分布"]
E --> F["出力テキスト"]ステップ4: 次のトークンを確率的に予測する
Section titled “ステップ4: 次のトークンを確率的に予測する”LLMの本質は「次に来るトークンの確率を予測すること」です。
「東京は日本の」→ 次のトークンは?
- 「首都」: 45%
- 「大都市」: 20%
- 「南」: 5%
- ...この確率分布に従って次のトークンを選び、それを入力に加えてさらに次のトークンを予測します。このプロセスを繰り返すことで文章全体が生成されます。
LLMの学習方法
Section titled “LLMの学習方法”事前学習(Pre-training)
Section titled “事前学習(Pre-training)”大規模なテキストデータを使い、「次のトークンを予測する」タスクで学習します。GPT-3 論文では、WebText 系データ、Common Crawl、書籍、Wikipedia などを組み合わせた事前学習が報告されています。[3]
指示チューニング(Instruction Tuning)
Section titled “指示チューニング(Instruction Tuning)”事前学習済みモデルを、指示(instruction)に従って行動するよう追加学習させます。「〜を要約して」「〜を翻訳して」といった指示に正確に応答できるようになります。
RLHF(人間フィードバックによる強化学習)
Section titled “RLHF(人間フィードバックによる強化学習)”人間の評価者がモデルの出力を評価し、より良い応答を選ぶフィードバックを用いて強化学習を行います。InstructGPT の研究では、この手法が指示追従性と人間評価の改善に使われました。[4]
graph TD
A["事前学習\nPre-training\n(大量テキストで言語パターンを習得)"]
B["指示チューニング\nInstruction Tuning\n(指示への応答を学習)"]
C["RLHF\n(人間フィードバックで品質向上)"]
A --> B --> CLLMの歴史と現在の確認方法
Section titled “LLMの歴史と現在の確認方法”timeline
title LLMの主要マイルストーン
2017 : Transformer 論文が公開
2018 : BERT と GPT 系の初期研究が登場
2020 : GPT-3 が少数ショット学習を実証
2022 : ChatGPT が一般公開
2020年代 : モデルのマルチモーダル化と推論用途が拡大モデル名、コンテキスト長、入力形式、価格、提供状況は頻繁に変わります。現在の仕様を扱うときは、各社の公式モデル一覧を確認します。[1][5][6]
| 確認したいこと | 確認先 |
|---|---|
| OpenAI の提供モデル、入力形式、API仕様 | OpenAI Models / API docs |
| Claude のモデル系列と機能 | Anthropic Claude models docs |
| Gemini のモデル系列と機能 | Google Gemini API models docs |
LLMの限界と注意点
Section titled “LLMの限界と注意点”LLMは強力ですが、いくつかの重要な限界があります。
ハルシネーション(幻覚): 存在しない事実を自信を持って述べることがあります。「次のトークンの確率予測」が本質であるため、事実確認なしに流暢な文章を生成してしまう場合があります。
知識のカットオフ: 学習データには終端日(カットオフ日)があり、それ以降の出来事は知りません。
推論の限界: 複雑な数学計算や論理推論では、モデルの種類にかかわらず誤りが発生することがあります。
文脈長の制限: 一度に処理できるトークン数(コンテキストウィンドウ)にはモデルごとの上限があります。上限値はモデル更新で変わるため、公式モデル一覧で確認します。[1][5][6]
- LLMとは大量のテキストデータを学習した大規模言語モデルで、現代のAIアシスタントの基盤
- テキストをトークンに分割し、Transformerで文脈を理解し、次のトークンを確率的に予測することで文章を生成
- 事前学習 → 指示チューニング → RLHF という3段階の学習プロセスで実用的な品質を実現
- GPT・Claude・Gemini・Llama など多様なモデルが存在し、特性が異なる
- ハルシネーションや知識カットオフなど、固有の限界を理解した上で活用することが重要
よくある質問
Section titled “よくある質問”Q: LLMとChatGPTは同じですか?
A: 異なります。LLMは「大規模言語モデル」の総称です。ChatGPTはOpenAIが提供するチャットサービスで、利用できるモデルはOpenAIの提供状況に応じて変わります。[1]
Q: LLMは本当に「言語を理解」しているのですか?
A: 哲学的には議論があります。LLMは人間のような「意味理解」をしているのではなく、統計的なパターン(どのトークンの後に何が来るか)を学習しています。しかしそのパターン学習の規模が非常に大きいため、結果として人間が「理解しているように見える」応答を返します。
Q: パラメータ数が多いほど賢いですか?
A: 一般的にはパラメータ数が多いほど高性能ですが、学習データの質・量・アーキテクチャの効率も重要です。近年は少ないパラメータで高性能を実現する「効率的なモデル」の研究も進んでいます。
Q: LLMをローカル(自分のPCで)動かせますか?
A: 可能なモデルもあります。ただし、必要なメモリや速度はモデルサイズ、量子化方式、推論エンジン、ハードウェアによって大きく変わるため、使うモデル配布元と実行ツールの要件を確認してください。
- OpenAI, Models
- Ashish Vaswani et al., Attention Is All You Need, 2017年6月12日
- Tom B. Brown et al., Language Models are Few-Shot Learners, 2020年5月28日
- Long Ouyang et al., Training language models to follow instructions with human feedback, 2022年3月4日
- Anthropic, Claude models overview
- Google AI for Developers, Gemini models