BERTとGPTの違い

約10分

Transformerの基本（Self-Attention・Encoder/Decoder構造）を理解している方

BERT（Bidirectional Encoder Representations from Transformers）とGPT（Generative Pre-trained Transformer）は、どちらもTransformerをベースとした代表的な言語モデルです。[1][2][3] 両者は同年（2018年）に発表されましたが、アーキテクチャの設計思想が対照的であり、得意なタスクも異なります。どちらの系統のモデルが使われているかを理解することで、AIツールの特性と使い分けを正確に把握できます。

BERTとGPTの設計思想の違い

BERTとGPTはどちらもTransformerをベースとしていますが、目的が異なるため、使用するアーキテクチャと学習方法が対照的です。

graph LR
    subgraph BERT["BERT（Encoder-Only）\n双方向で文脈を理解"]
        B1["[CLS] 昨日"] --> B2["東京で"] --> B3["[MASK]"] --> B4["食べた"]
        B3 -.->|"左右両方向から文脈参照"| B1
        B3 -.-> B4
    end
    subgraph GPT["GPT（Decoder-Only）\n左から右へ順にテキストを生成"]
        G1["昨日"] --> G2["東京で"] --> G3["ラーメンを"] --> G4["食べた"]
        G4 -.->|"過去のトークンのみ参照"| G1
    end

BERT（Bidirectional Encoder Representations from Transformers）

BERTは、2018年にGoogleが発表したEncoder-Only（エンコーダのみ）の言語モデルです。[2]

主な特徴

双方向エンコーダ（Bidirectional Encoder）: BERTは各トークンを処理する際に、そのトークンの左側と右側の両方の文脈を同時に参照します。[2]

事前学習の方法

BERTは2つのタスクで事前学習を行います。

マスク言語モデル（Masked Language Model, MLM）: BERT論文では、入力トークンの一部を[MASK]に置き換え、マスクされたトークンを予測する事前学習タスクが説明されています。[2]

入力: 「私は昨日 [MASK] を食べた」
予測: 「ラーメン」「寿司」「カレー」...

次文予測（Next Sentence Prediction, NSP）: BERT論文では、2つの文が与えられたときに、2文目が1文目の後に続く文かどうかを予測するタスクも使われました。[2]

BERTが得意なタスク

タスク	説明	例
文章分類	文章のカテゴリを判定	ポジティブ/ネガティブの感情分析
固有表現認識（NER）	テキスト内の人名・地名などを識別	「田中さんは東京に住んでいる」
質問応答（抽出型）	文章中から答えの箇所を抜き出す	文書内の特定情報の検索
文章の類似度計算	2つの文がどれほど似ているか判定	重複コンテンツ検出・検索の精度向上

GPT（Generative Pre-trained Transformer）

GPTは、2018年にOpenAIが発表したDecoder-Only（デコーダのみ）の言語モデルです。[3] GPT-3 は、同じ自己回帰型の流れで大規模化した代表例です。[4]

主な特徴

単方向デコーダ（Unidirectional Decoder）: GPTは各トークンを生成する際に、そのトークンより前（左側）のトークンを使って次のトークンを予測します。これを**自己回帰（Autoregressive）**と呼びます。[3][4]

事前学習の方法

次トークン予測（Causal Language Modeling）: 与えられたテキストの次に来るトークンを予測するタスクで学習します。

入力: 「昨日、東京で」
予測: 「ラーメンを」「友人と」「会議が」...

この学習を大規模なテキストデータで繰り返すことで、入力に続くテキストを生成する能力を獲得します。[3][4]

GPTが得意なタスク

タスク	説明	例
テキスト生成	入力に続く自然なテキストを生成	メール・記事・コードの自動作成
対話・チャット	文脈を保ちながら会話を継続	ChatGPT、Claude などの対話AI
要約	長文を短くまとめる	議事録・論文の要約
翻訳	テキストを別言語に変換	多言語コンテンツの作成
コード生成	自然言語の指示からコードを生成	GitHub Copilot などの開発支援

BERTとGPTの詳細比較表

比較項目	BERT	GPT系
開発元	Google（2018年）	OpenAI（2018年〜）
アーキテクチャ	Encoder-Only	Decoder-Only
文脈参照方向	双方向（左右両方）	単方向（左のみ）
学習方法	MLM + NSP	次トークン予測
得意なタスク	文章理解・分類・NER	テキスト生成・対話
主な用途	検索・感情分析・情報抽出	チャットボット・コード生成
代表例	BERT、RoBERTa、ALBERT	GPT、GPT-3 など

派生モデルとその位置づけ

BERTとGPTの登場後、多くの派生・後継モデルが開発されました。

BERT系の主要派生モデル

モデル	開発元	特徴
RoBERTa	Meta AI（2019年）	BERTの改良版。NSPを廃止し、より多くのデータで学習
ALBERT	Google（2019年）	BERTのパラメータを削減し、軽量化
DistilBERT	Hugging Face（2019年）	BERTを知識蒸留で小型化したモデル
ELMo	Allen Institute（2018年）	BERTより前の双方向モデル。LSTMベース

GPT系の主要派生モデル

モデル	開発元	特徴
GPT	OpenAI（2018年）	教師なし事前学習とタスク別ファインチューニングを組み合わせた初期モデル
GPT-2	OpenAI（2019年）	自己回帰型のテキスト生成を大規模化したモデル
GPT-3	OpenAI（2020年）	1750億パラメータで少数ショット学習を示したモデル

Encoder-Decoderモデル（両方を使うモデル）

モデル	開発元	特徴
T5	Google（2020年）	すべてのタスクをText-to-Textとして処理
BART	Meta AI（2019年）	要約・翻訳に強みを持つ

実務での使い分け

graph TD
    Task["タスクの種類は？"]
    Task -->|"既存テキストの分析・分類"| BERT_Use["BERT系モデルを使用\n感情分析・NER・検索"]
    Task -->|"テキストを生成・対話"| GPT_Use["GPT系モデルを使用\nChatGPT・Claude・Copilot"]
    Task -->|"翻訳・要約（入出力ともに長文）"| T5_Use["Encoder-Decoderモデルを使用\nT5・BART"]

BERT系が適している場面:

大量のレビュー・フィードバックをポジティブ/ネガティブで分類したい
顧客メールから担当者名・日時・案件番号を自動抽出したい
社内文書の意味的な検索精度を向上させたい

GPT系が適している場面:

カスタマーサポートの対話システムを構築したい
ユーザーの指示に基づいて文章・コードを自動生成したい
既存コンテンツを要約・翻訳・別形式に変換したい

まとめ

BERTはEncoder-Onlyで双方向の文脈理解を行い、文章分析・分類タスクに強い
GPTはDecoder-Onlyで自己回帰的にテキストを生成し、生成・対話タスクに強い
どちらもTransformerをベースとしているが、目的と設計が正反対
実務では「分析・分類」→BERT系、「生成・対話」→GPT系という使い分けが基本

よくある質問

Q: ChatGPTはGPTと同じものですか?

A: 異なります。GPTはOpenAIが開発した言語モデル系列です。[3][4] ChatGPTはOpenAIが提供する対話サービスで、利用できるモデルは提供状況によって変わります。[5]

Q: BERTは現在も使われていますか?

A: 文章分類、固有表現認識、抽出型質問応答など、入力テキストを理解・分類する用途ではBERT系の考え方が今も有用です。ただし、実務ではタスク、精度、コスト、運用環境に応じて生成系モデルと比較します。

Q: どちらのモデルのほうが「賢い」ですか?

A: 「賢さ」はタスクによって異なります。文章分類や情報抽出ではBERT系が適している場合があり、自由な文章生成や対話では自己回帰型の生成モデルが適している場合があります。用途に応じた適切なモデル選択が重要です。

Q: LlamaはBERT系ですか、GPT系ですか?

A: Llama 系は一般にDecoder-Onlyの自己回帰型言語モデルとして扱われるため、BERT系よりもGPT系に近い設計です。個別モデルの仕様は配布元の公式情報で確認してください。

参考文献

Ashish Vaswani et al., Attention Is All You Need, 2017年6月12日
Jacob Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2018年10月11日
Alec Radford et al., Improving Language Understanding by Generative Pre-Training, 2018年
Tom B. Brown et al., Language Models are Few-Shot Learners, 2020年5月28日
OpenAI, Introducing ChatGPT, 2022年11月30日

クイズ

推論モデル

トランスフォーマーモデル