LLMとは？大規模言語モデルの仕組みと歴史

約10分

AIに興味を持ち始めた方、「ChatGPTはどうやって文章を作っているの?」という疑問を持っている方

生成AIとはを読んでいること

LLM（Large Language Model、大規模言語モデル）とは、膨大なテキストデータを学習することで、人間のように自然な文章を理解・生成できるAIモデルです。ChatGPTなどのAIアシスタントやOpenAI APIのモデルは、LLMをアプリケーションから利用する代表例です。[1] LLMの仕組みを理解することは、現代の生成AIを正しく使いこなすための第一歩です。

LLMが登場する前 — 自然言語処理の歴史

LLMが登場する以前、コンピュータに言語を理解させるアプローチは大きく3つの段階を経てきました。

ルールベース（〜1990年代）

人間が文法ルールや辞書を手作業で定義し、コンピュータに処理させる方法です。「動詞の後には目的語が来る」といったルールを記述することで翻訳や情報抽出を行いました。ルールが複雑になるほど例外が増え、実用的な品質を保つことが困難でした。

統計的手法（2000年代）

大量のテキストデータから単語の共起確率を統計的に学習する手法です。「東京の後には駅が来ることが多い」といったパターンを統計モデルとして構築しました。機械翻訳や音声認識の品質改善に使われましたが、長い文脈の理解には限界がありました。

ニューラルネットワーク（2010年代〜）

ニューラルネットワークを用いた表現学習により、単語の意味を数値ベクトル（Word2Vec など）で表現できるようになりました。そして2017年のTransformerの登場が、現代のLLMへの道を開きました。[2]

LLMとは何か — 定義と3つの特徴

LLMは次の3つの特徴を持つ言語モデルです。

特徴	内容
Large（大規模）	数十億〜数兆のパラメータを持つ大規模なモデル
Language（言語）	テキストデータを主要な学習・出力対象とする
Model（モデル）	データから学習した統計的なパターンの集合

「大規模」の基準は時代とともに変化します。GPT-3 は1750億パラメータの自己回帰型言語モデルとして報告され、少数ショット学習の能力を示した代表例です。[3]

LLMが「言語を理解する」仕組み

ステップ1: テキストをトークンに分割する

LLMはテキストをそのまま処理するのではなく、まずトークン（Token）という単位に分割します。トークンは単語・部分的な単語・記号などです。

「東京は日本の首都です」
→ ["東京", "は", "日本", "の", "首都", "です"]

トークンの数え方はモデルのトークナイザーによって変わるため、実務では利用するAPIやモデルのトークナイザーで確認します。[1]

ステップ2: トークンを数値ベクトルに変換する（埋め込み）

各トークンは埋め込み（Embedding）と呼ばれる高次元の数値ベクトルに変換されます。意味が似た単語は、ベクトル空間上でも近い位置に配置されます。

「王」- 「男性」+ 「女性」≈ 「女王」
（ベクトル演算で意味の関係を表現できる）

ステップ3: Transformerで文脈を理解する

変換されたベクトルはTransformer（トランスフォーマー）アーキテクチャで処理されます。Self-Attention（自己注意機構）により、文中のすべてのトークン間の関係を同時に計算し、文脈を表現します。[2]

graph LR
    A["入力テキスト"] --> B["トークン化"]
    B --> C["埋め込み変換\n（ベクトル化）"]
    C --> D["Transformer層\n（Self-Attention）"]
    D --> E["次のトークンの\n確率分布"]
    E --> F["出力テキスト"]

ステップ4: 次のトークンを確率的に予測する

LLMの本質は「次に来るトークンの確率を予測すること」です。

「東京は日本の」→ 次のトークンは?
- 「首都」: 45%
- 「大都市」: 20%
- 「南」: 5%
- ...

この確率分布に従って次のトークンを選び、それを入力に加えてさらに次のトークンを予測します。このプロセスを繰り返すことで文章全体が生成されます。

LLMの学習方法

事前学習（Pre-training）

大規模なテキストデータを使い、「次のトークンを予測する」タスクで学習します。GPT-3 論文では、WebText 系データ、Common Crawl、書籍、Wikipedia などを組み合わせた事前学習が報告されています。[3]

指示チューニング（Instruction Tuning）

事前学習済みモデルを、指示（instruction）に従って行動するよう追加学習させます。「〜を要約して」「〜を翻訳して」といった指示に正確に応答できるようになります。

RLHF（人間フィードバックによる強化学習）

人間の評価者がモデルの出力を評価し、より良い応答を選ぶフィードバックを用いて強化学習を行います。InstructGPT の研究では、この手法が指示追従性と人間評価の改善に使われました。[4]

graph TD
    A["事前学習\nPre-training\n（大量テキストで言語パターンを習得）"]
    B["指示チューニング\nInstruction Tuning\n（指示への応答を学習）"]
    C["RLHF\n（人間フィードバックで品質向上）"]
    A --> B --> C

LLMの歴史と現在の確認方法

timeline
    title LLMの主要マイルストーン
    2017 : Transformer 論文が公開
    2018 : BERT と GPT 系の初期研究が登場
    2020 : GPT-3 が少数ショット学習を実証
    2022 : ChatGPT が一般公開
    2020年代 : モデルのマルチモーダル化と推論用途が拡大

モデル名、コンテキスト長、入力形式、価格、提供状況は頻繁に変わります。現在の仕様を扱うときは、各社の公式モデル一覧を確認します。[1][5][6]

確認したいこと	確認先
OpenAI の提供モデル、入力形式、API仕様	OpenAI Models / API docs
Claude のモデル系列と機能	Anthropic Claude models docs
Gemini のモデル系列と機能	Google Gemini API models docs

LLMの限界と注意点

LLMは強力ですが、いくつかの重要な限界があります。

ハルシネーション（幻覚）: 存在しない事実を自信を持って述べることがあります。「次のトークンの確率予測」が本質であるため、事実確認なしに流暢な文章を生成してしまう場合があります。

知識のカットオフ: 学習データには終端日（カットオフ日）があり、それ以降の出来事は知りません。

推論の限界: 複雑な数学計算や論理推論では、モデルの種類にかかわらず誤りが発生することがあります。

文脈長の制限: 一度に処理できるトークン数（コンテキストウィンドウ）にはモデルごとの上限があります。上限値はモデル更新で変わるため、公式モデル一覧で確認します。[1][5][6]

まとめ

LLMとは大量のテキストデータを学習した大規模言語モデルで、現代のAIアシスタントの基盤
テキストをトークンに分割し、Transformerで文脈を理解し、次のトークンを確率的に予測することで文章を生成
事前学習 → 指示チューニング → RLHF という3段階の学習プロセスで実用的な品質を実現
GPT・Claude・Gemini・Llama など多様なモデルが存在し、特性が異なる
ハルシネーションや知識カットオフなど、固有の限界を理解した上で活用することが重要

よくある質問

Q: LLMとChatGPTは同じですか?

A: 異なります。LLMは「大規模言語モデル」の総称です。ChatGPTはOpenAIが提供するチャットサービスで、利用できるモデルはOpenAIの提供状況に応じて変わります。[1]

Q: LLMは本当に「言語を理解」しているのですか?

A: 哲学的には議論があります。LLMは人間のような「意味理解」をしているのではなく、統計的なパターン（どのトークンの後に何が来るか）を学習しています。しかしそのパターン学習の規模が非常に大きいため、結果として人間が「理解しているように見える」応答を返します。

Q: パラメータ数が多いほど賢いですか?

A: 一般的にはパラメータ数が多いほど高性能ですが、学習データの質・量・アーキテクチャの効率も重要です。近年は少ないパラメータで高性能を実現する「効率的なモデル」の研究も進んでいます。

Q: LLMをローカル（自分のPCで）動かせますか?

A: 可能なモデルもあります。ただし、必要なメモリや速度はモデルサイズ、量子化方式、推論エンジン、ハードウェアによって大きく変わるため、使うモデル配布元と実行ツールの要件を確認してください。

参考文献

OpenAI, Models
Ashish Vaswani et al., Attention Is All You Need, 2017年6月12日
Tom B. Brown et al., Language Models are Few-Shot Learners, 2020年5月28日
Long Ouyang et al., Training language models to follow instructions with human feedback, 2022年3月4日
Anthropic, Claude models overview
Google AI for Developers, Gemini models

クイズ

トランスフォーマーモデル

生成AIとは