コンテンツにスキップ
X

生成AIとは

生成AI(Generative AI)とは、大量のデータからパターンを学習し、テキスト・画像・音声・動画などの新しいデータを生成するAI技術の総称です。2022年以降、ChatGPTや画像生成AIの普及によって急速に社会への浸透が進み、現在は業務・教育・創作など多くの分野で活用されています。

対象読者: AIに興味を持ち始めたばかりの方、生成AIの全体像を把握したい方

学習時間の目安: 読了 15分

前提知識: 特になし

生成AIと従来のAI(識別AI)の違い

Section titled “生成AIと従来のAI(識別AI)の違い”

AIには大きく2つの種類があります。識別AI(Discriminative AI)と生成AI(Generative AI)です。

識別AIとは、入力されたデータを分類・識別するAIです。「この画像は猫か犬か」「このメールはスパムか否か」といった判断を行います。

生成AIとは、学習したパターンをもとに新しいデータを作り出すAIです。「猫の画像を新しく作る」「メールの文章を自動で書く」といった生成を行います。

比較項目識別AI生成AI
目的データを分類・判別する新しいデータを生成する
出力ラベル・確率・スコアテキスト・画像・音声・動画
代表例画像分類・スパムフィルタ・顔認識ChatGPT・DALL-E・Stable Diffusion
学習方法正解ラベル付きデータで学習パターンの分布を学習
主な用途品質管理・医療診断・検索文章作成・画像生成・コード補完

生成AIは複数のモダリティ(データの種類)にわたって活用されています。

テキスト生成AIとは、入力されたプロンプト(指示文)に基づいて文章を生成するAIです。

  • 文章の作成・要約・翻訳
  • コードの自動生成・デバッグ支援
  • 対話形式での情報提供(チャットボット)

代表例: ChatGPT(OpenAI)、Claude(Anthropic)、Gemini(Google)

画像生成AIとは、テキストによる説明(プロンプト)や参照画像から新しい画像を生成するAIです。

  • テキストから画像を生成(Text-to-Image)
  • 既存画像のスタイル変換
  • 画像の修正・補完(インペインティング)

代表例: DALL-E(OpenAI)、Stable Diffusion(Stability AI)、Midjourney

音楽生成AIとは、テキストや音楽的な指示から楽曲・音声を生成するAIです。

  • テキストから楽曲を生成
  • 声質のクローニング・変換
  • 音声合成(Text-to-Speech)

代表例: Suno、Udio、ElevenLabs

動画生成AIとは、テキストや画像から動画コンテンツを生成するAIです。

  • テキストから短い動画を生成(Text-to-Video)
  • 静止画から動画への変換
  • 動画の編集・補完

代表例: Sora(OpenAI)、Runway、Pika

生成AIの発展は、アルゴリズム・データ・計算資源の三つの要素が揃うことで加速しました。

timeline
    title 生成AIの主要マイルストーン
    2014 : GAN登場(Ian Goodfellow)
    2017 : Transformer論文「Attention Is All You Need」
    2018 : BERT(Google)/ GPT-1(OpenAI)
    2019 : GPT-2
    2020 : GPT-3(1750億パラメータ)
    2021 : DALL-E / Codex
    2022 : ChatGPT / Stable Diffusion / Midjourney
    2023 : GPT-4 / Claude 2 / Llama 2
    2024 : Claude 3 / GPT-4o / Gemini 1.5
    2025 : Claude 3.5/4 / GPT-o3 / 推論モデルの台頭
    2026 : AIエージェントの実用化フェーズ
出来事意義
2014年GAN(Generative Adversarial Network)— Ian Goodfellow2つのネットワークが競争することで高品質な生成を実現
2017年Transformer論文「Attention Is All You Need」— Vaswani et al.並列学習可能なアーキテクチャが登場し、大規模モデルの基盤となる
2018年BERT(Google)、GPT-1(OpenAI)事前学習+ファインチューニングのパラダイムが確立
2019年GPT-2高品質なテキスト生成能力が初めて広く認知される
2020年GPT-3(1750億パラメータ)少量サンプルで多様なタスクに対応できる汎用性を示す
2021年DALL-E、Codexテキストから画像・コードを生成する能力が実証される
2022年ChatGPT、Stable Diffusion、Midjourney一般ユーザーが生成AIを日常的に利用できる時代へ
2023年GPT-4、Claude 2、Llama 2能力の飛躍的向上とオープンソースモデルの台頭
2024年Claude 3、GPT-4o、Gemini 1.5マルチモーダル(テキスト・画像・音声の統合)が主流に
2025年Claude 3.5/4、GPT-o3、推論モデルの台頭「考えてから答える」推論モデルが複雑問題解決に活用
2026年AIエージェントの実用化フェーズ複数のAIが連携して複雑な業務を自律的に実行

なぜ今、生成AIが急速に発展しているのか

Section titled “なぜ今、生成AIが急速に発展しているのか”

生成AIの急速な発展は、次の三つの要素が同時に揃ったことによります。

graph TD
    A["算力(Computing Power)\nGPU・TPUの進化\nクラウドインフラの整備"] --> D["生成AIの急速な発展"]
    B["データ(Data)\nインターネット上の\n膨大なテキスト・画像"] --> D
    C["アルゴリズム(Algorithm)\nTransformerの登場\nRLHFによる品質向上"] --> D

算力(Computing Power): GPU・TPUの性能向上とクラウドインフラの整備により、数千億パラメータのモデルを学習できるようになりました。

データ(Data): インターネット上に蓄積された膨大なテキスト・画像・音声データが、学習の素材として利用できるようになりました。

アルゴリズム(Algorithm): Transformerアーキテクチャの登場と、人間のフィードバックによる強化学習(RLHF)の普及により、実用的な品質の生成が可能になりました。

  • 生成AIは、データのパターンを学習して新しいコンテンツを生成するAI技術の総称
  • 識別AIが「分類・判別」を行うのに対し、生成AIは「新しいデータを作り出す」
  • テキスト・画像・音楽・動画と、対応するモダリティが急拡大している
  • 2017年のTransformer論文を起点に、算力・データ・アルゴリズムの三位一体で急速に発展

Q: 生成AIと「普通のAI」は何が違うのですか?

A: 「普通のAI」として広く使われていたのは、データを分類・予測する識別AIです。生成AIは識別AIとは異なり、学習したパターンから新しいデータ(テキスト・画像など)を生成します。どちらもAIの一種ですが、目的と出力が根本的に異なります。

Q: 生成AIを使うのに専門知識は必要ですか?

A: ChatGPTやClaude、Midjourneyなどの製品は、専門知識なしでブラウザから利用できます。API経由での開発や、独自モデルのファインチューニングには技術的な知識が必要ですが、利用するだけであれば特別なスキルは不要です。

Q: 生成AIはどのようにして「新しいものを作れる」のですか?

A: 生成AIは大量のデータから統計的なパターンを学習し、そのパターンに沿った新しいデータを確率的に生成します。完全に「独創的」なものを生み出すわけではなく、学習データの分布をもとに新しい組み合わせを生成しています。

Q: GANとLLMの違いは何ですか?

A: GAN(Generative Adversarial Network)は、生成ネットワークと識別ネットワークが競い合うことで高品質な画像などを生成する手法です。LLM(Large Language Model)はTransformerをベースとした大規模な言語モデルで、テキストの生成・理解に特化しています。どちらも生成AIの一形態ですが、アーキテクチャと得意なタスクが異なります。


次のステップ: トランスフォーマーモデル

このページへのリンク(英語): What Is Generative AI?