生成AIとは

生成AI（Generative AI）とは、大量のデータからパターンを学習し、テキスト・画像・音声・動画などの新しいデータを生成するAI技術の総称です。2022年以降、ChatGPTや画像生成AIの普及によって急速に社会への浸透が進み、現在は業務・教育・創作など多くの分野で活用されています。

対象読者: AIに興味を持ち始めたばかりの方、生成AIの全体像を把握したい方

学習時間の目安: 読了 15分

前提知識: 特になし

生成AIと従来のAI（識別AI）の違い

AIには大きく2つの種類があります。識別AI（Discriminative AI）と生成AI（Generative AI）です。

識別AIとは、入力されたデータを分類・識別するAIです。「この画像は猫か犬か」「このメールはスパムか否か」といった判断を行います。

生成AIとは、学習したパターンをもとに新しいデータを作り出すAIです。「猫の画像を新しく作る」「メールの文章を自動で書く」といった生成を行います。

比較項目	識別AI	生成AI
目的	データを分類・判別する	新しいデータを生成する
出力	ラベル・確率・スコア	テキスト・画像・音声・動画
代表例	画像分類・スパムフィルタ・顔認識	ChatGPT・DALL-E・Stable Diffusion
学習方法	正解ラベル付きデータで学習	パターンの分布を学習
主な用途	品質管理・医療診断・検索	文章作成・画像生成・コード補完

生成AIでできること

生成AIは複数のモダリティ（データの種類）にわたって活用されています。

テキスト生成

テキスト生成AIとは、入力されたプロンプト（指示文）に基づいて文章を生成するAIです。

文章の作成・要約・翻訳
コードの自動生成・デバッグ支援
対話形式での情報提供（チャットボット）

代表例: ChatGPT（OpenAI）、Claude（Anthropic）、Gemini（Google）

画像生成

画像生成AIとは、テキストによる説明（プロンプト）や参照画像から新しい画像を生成するAIです。

テキストから画像を生成（Text-to-Image）
既存画像のスタイル変換
画像の修正・補完（インペインティング）

代表例: DALL-E（OpenAI）、Stable Diffusion（Stability AI）、Midjourney

音楽・音声生成

音楽生成AIとは、テキストや音楽的な指示から楽曲・音声を生成するAIです。

テキストから楽曲を生成
声質のクローニング・変換
音声合成（Text-to-Speech）

代表例: Suno、Udio、ElevenLabs

動画生成

動画生成AIとは、テキストや画像から動画コンテンツを生成するAIです。

テキストから短い動画を生成（Text-to-Video）
静止画から動画への変換
動画の編集・補完

代表例: Sora（OpenAI）、Runway、Pika

生成AIの歴史

生成AIの発展は、アルゴリズム・データ・計算資源の三つの要素が揃うことで加速しました。

timeline
    title 生成AIの主要マイルストーン
    2014 : GAN登場（Ian Goodfellow）
    2017 : Transformer論文「Attention Is All You Need」
    2018 : BERT（Google）/ GPT-1（OpenAI）
    2019 : GPT-2
    2020 : GPT-3（1750億パラメータ）
    2021 : DALL-E / Codex
    2022 : ChatGPT / Stable Diffusion / Midjourney
    2023 : GPT-4 / Claude 2 / Llama 2
    2024 : Claude 3 / GPT-4o / Gemini 1.5
    2025 : Claude 3.5/4 / GPT-o3 / 推論モデルの台頭
    2026 : AIエージェントの実用化フェーズ

主要マイルストーン

年	出来事	意義
2014年	GAN（Generative Adversarial Network）— Ian Goodfellow	2つのネットワークが競争することで高品質な生成を実現
2017年	Transformer論文「Attention Is All You Need」— Vaswani et al.	並列学習可能なアーキテクチャが登場し、大規模モデルの基盤となる
2018年	BERT（Google）、GPT-1（OpenAI）	事前学習＋ファインチューニングのパラダイムが確立
2019年	GPT-2	高品質なテキスト生成能力が初めて広く認知される
2020年	GPT-3（1750億パラメータ）	少量サンプルで多様なタスクに対応できる汎用性を示す
2021年	DALL-E、Codex	テキストから画像・コードを生成する能力が実証される
2022年	ChatGPT、Stable Diffusion、Midjourney	一般ユーザーが生成AIを日常的に利用できる時代へ
2023年	GPT-4、Claude 2、Llama 2	能力の飛躍的向上とオープンソースモデルの台頭
2024年	Claude 3、GPT-4o、Gemini 1.5	マルチモーダル（テキスト・画像・音声の統合）が主流に
2025年	Claude 3.5/4、GPT-o3、推論モデルの台頭	「考えてから答える」推論モデルが複雑問題解決に活用
2026年	AIエージェントの実用化フェーズ	複数のAIが連携して複雑な業務を自律的に実行

なぜ今、生成AIが急速に発展しているのか

生成AIの急速な発展は、次の三つの要素が同時に揃ったことによります。

graph TD
    A["算力（Computing Power）\nGPU・TPUの進化\nクラウドインフラの整備"] --> D["生成AIの急速な発展"]
    B["データ（Data）\nインターネット上の\n膨大なテキスト・画像"] --> D
    C["アルゴリズム（Algorithm）\nTransformerの登場\nRLHFによる品質向上"] --> D

算力（Computing Power）: GPU・TPUの性能向上とクラウドインフラの整備により、数千億パラメータのモデルを学習できるようになりました。

データ（Data）: インターネット上に蓄積された膨大なテキスト・画像・音声データが、学習の素材として利用できるようになりました。

アルゴリズム（Algorithm）: Transformerアーキテクチャの登場と、人間のフィードバックによる強化学習（RLHF）の普及により、実用的な品質の生成が可能になりました。

まとめ

生成AIは、データのパターンを学習して新しいコンテンツを生成するAI技術の総称
識別AIが「分類・判別」を行うのに対し、生成AIは「新しいデータを作り出す」
テキスト・画像・音楽・動画と、対応するモダリティが急拡大している
2017年のTransformer論文を起点に、算力・データ・アルゴリズムの三位一体で急速に発展

よくある質問

Q: 生成AIと「普通のAI」は何が違うのですか?

A: 「普通のAI」として広く使われていたのは、データを分類・予測する識別AIです。生成AIは識別AIとは異なり、学習したパターンから新しいデータ（テキスト・画像など）を生成します。どちらもAIの一種ですが、目的と出力が根本的に異なります。

Q: 生成AIを使うのに専門知識は必要ですか?

A: ChatGPTやClaude、Midjourneyなどの製品は、専門知識なしでブラウザから利用できます。API経由での開発や、独自モデルのファインチューニングには技術的な知識が必要ですが、利用するだけであれば特別なスキルは不要です。

Q: 生成AIはどのようにして「新しいものを作れる」のですか?

A: 生成AIは大量のデータから統計的なパターンを学習し、そのパターンに沿った新しいデータを確率的に生成します。完全に「独創的」なものを生み出すわけではなく、学習データの分布をもとに新しい組み合わせを生成しています。

Q: GANとLLMの違いは何ですか?

A: GAN（Generative Adversarial Network）は、生成ネットワークと識別ネットワークが競い合うことで高品質な画像などを生成する手法です。LLM（Large Language Model）はTransformerをベースとした大規模な言語モデルで、テキストの生成・理解に特化しています。どちらも生成AIの一形態ですが、アーキテクチャと得意なタスクが異なります。

次のステップ: トランスフォーマーモデル

このページへのリンク（英語）: What Is Generative AI?