生成AIとは

約10分

AIに興味を持ち始めたばかりの方、生成AIの全体像を把握したい方

特になし

生成AI（Generative AI）とは、大量のデータからパターンを学習し、テキスト・画像・音声・動画などの新しいデータを生成するAI技術の総称です。OpenAI API のような生成AIサービスでは、テキスト生成や画像生成などのモデル機能をアプリケーションから利用できます。[1]

生成AIと従来のAI（識別AI）の違い

AIには大きく2つの種類があります。識別AI（Discriminative AI）と生成AI（Generative AI）です。

識別AIとは、入力されたデータを分類・識別するAIです。「この画像は猫か犬か」「このメールはスパムか否か」といった判断を行います。

生成AIとは、学習したパターンをもとに新しいデータを作り出すAIです。「猫の画像を新しく作る」「メールの文章を自動で書く」といった生成を行います。

比較項目	識別AI	生成AI
目的	データを分類・判別する	新しいデータを生成する
出力	ラベル・確率・スコア	テキスト・画像・音声・動画
代表例	画像分類・スパムフィルタ・顔認識	テキスト生成・画像生成・音声生成
学習方法	正解ラベル付きデータで学習	パターンの分布を学習
主な用途	品質管理・医療診断・検索	文章作成・画像生成・コード補完

生成AIでできること

生成AIは複数のモダリティ（データの種類）にわたって活用されています。

テキスト生成

テキスト生成AIとは、入力されたプロンプト（指示文）に基づいて文章を生成するAIです。

文章の作成・要約・翻訳
コードの自動生成・デバッグ支援
対話形式での情報提供（チャットボット）

代表例: ChatGPT、Claude、Gemini など。現在のモデル名や仕様は各社の公式ドキュメントで確認します。[1][5][6]

画像生成

画像生成AIとは、テキストによる説明（プロンプト）や参照画像から新しい画像を生成するAIです。

テキストから画像を生成（Text-to-Image）
既存画像のスタイル変換
画像の修正・補完（インペインティング）

代表例: 画像生成API、Stable Diffusion 系ワークフロー、クリエイティブ向け画像生成ツールなど。技術的には拡散モデルが広く使われます。[3][4]

音楽・音声生成

音楽生成AIとは、テキストや音楽的な指示から楽曲・音声を生成するAIです。

テキストから楽曲を生成
声質のクローニング・変換
音声合成（Text-to-Speech）

代表例: 音楽生成、効果音生成、音声合成、声質変換など。商用利用条件はサービスごとの利用規約で確認します。

動画生成

動画生成AIとは、テキストや画像から動画コンテンツを生成するAIです。

テキストから短い動画を生成（Text-to-Video）
静止画から動画への変換
動画の編集・補完

代表例: Text-to-Video、Image-to-Video、動画編集・補完など。提供状況や動画長の上限は公式ドキュメントで確認します。

生成AIの歴史

生成AIの発展は、アルゴリズム・データ・計算資源の三つの要素が揃うことで加速しました。

timeline
    title 生成AIの主要マイルストーン
    2014 : GAN登場（Ian Goodfellow）
    2017 : Transformer論文「Attention Is All You Need」
    2018 : BERT / GPT 系の初期研究
    2020 : GPT-3 が少数ショット学習を実証
    2020 : Denoising Diffusion Probabilistic Models
    2021 : DALL-E がテキストから画像生成を示す
    2022 : ChatGPT が一般公開
    2020年代 : マルチモーダル化と推論用途が拡大

主要マイルストーン

年	出来事	意義
2014年	GAN（Generative Adversarial Network）— Ian Goodfellow	2つのネットワークが競争することで高品質な生成を実現
2017年	Transformer論文「Attention Is All You Need」— Vaswani et al.	並列学習可能なアーキテクチャが登場し、大規模モデルの基盤となる
2018年	BERT、GPT 系の初期研究	Transformer ベースの言語モデル研究が広がる
2020年	GPT-3	少数ショット学習の能力を示す
2020年	Denoising Diffusion Probabilistic Models	拡散モデルによる生成の代表的手法を整理
2021年以降	Text-to-Image の発展	テキスト入力から画像を生成する製品・研究が広がる
2022年	ChatGPT 一般公開	対話型生成AIが一般ユーザーに広く届く契機になる
2020年代	マルチモーダル化と推論用途の拡大	テキスト以外の入力や複雑な問題解決への応用が進む

なぜ今、生成AIが急速に発展しているのか

生成AIの急速な発展は、次の三つの要素が同時に揃ったことによります。

graph TD
    A["算力（Computing Power）\nGPU・TPUの進化\nクラウドインフラの整備"] --> D["生成AIの急速な発展"]
    B["データ（Data）\nインターネット上の\n膨大なテキスト・画像"] --> D
    C["アルゴリズム（Algorithm）\nTransformerの登場\nRLHFによる品質向上"] --> D

算力（Computing Power）: GPU・TPUの性能向上とクラウドインフラの整備により、大規模モデルの学習と推論が現実的になりました。

データ（Data）: テキスト・画像・音声などの大規模データが、学習の素材として使われるようになりました。

アルゴリズム（Algorithm）: Transformerアーキテクチャ、拡散モデル、人間のフィードバックによる強化学習（RLHF）などが、実用的な品質の生成に貢献しました。[2][3][7]

まとめ

生成AIは、データのパターンを学習して新しいコンテンツを生成するAI技術の総称
識別AIが「分類・判別」を行うのに対し、生成AIは「新しいデータを作り出す」
テキスト・画像・音楽・動画と、対応するモダリティが急拡大している
2017年のTransformer論文を起点に、算力・データ・アルゴリズムの三位一体で急速に発展

よくある質問

Q: 生成AIと「普通のAI」は何が違うのですか?

A: 「普通のAI」として広く使われていたのは、データを分類・予測する識別AIです。生成AIは識別AIとは異なり、学習したパターンから新しいデータ（テキスト・画像など）を生成します。どちらもAIの一種ですが、目的と出力が根本的に異なります。

Q: 生成AIを使うのに専門知識は必要ですか?

A: 多くの生成AI製品はブラウザから利用できます。API経由での開発や独自モデルのファインチューニングには技術的な知識が必要ですが、利用するだけであれば特別なスキルを求めないサービスもあります。

Q: 生成AIはどのようにして「新しいものを作れる」のですか?

A: 生成AIは大量のデータから統計的なパターンを学習し、そのパターンに沿った新しいデータを確率的に生成します。完全に「独創的」なものを生み出すわけではなく、学習データの分布をもとに新しい組み合わせを生成しています。

Q: GANとLLMの違いは何ですか?

A: GAN（Generative Adversarial Network）は、生成ネットワークと識別ネットワークが競い合うことで高品質な画像などを生成する手法です。LLM（Large Language Model）はTransformerをベースとした大規模な言語モデルで、テキストの生成・理解に特化しています。どちらも生成AIの一形態ですが、アーキテクチャと得意なタスクが異なります。

このセクションのページ一覧

ページ	内容
LLMとは？	大規模言語モデルの仕組みと歴史
生成AIモデルと知能指標	モデルの種類・IQ風スコア・実務で見るべき能力
プロンプトエンジニアリング	指示文を設計して回答品質を安定させる基本
コンテキストエンジニアリング	必要な資料・履歴・制約をAIに渡す設計
ハーネスエンジニアリング	ツール・権限・検証まで含めてAIを実務に接続する設計
テキスト生成の仕組み	トークン予測・サンプリング・プロンプト設計
画像生成の仕組み	拡散モデル・テキスト条件付け・権利注意
動画生成の仕組み	Video Diffusion・DiT・時間的一貫性
音楽生成の仕組み	トークンベース生成・ニューラル音声コーデック・権利注意
トランスフォーマーモデル	Self-Attention・Multi-Head Attention の仕組み
BERTとGPTの違い	Encoder-Only vs Decoder-Only の設計思想
推論モデル	Chain-of-Thought・強化学習・推論向けモデルの選び方

参考文献

OpenAI, Models
Ashish Vaswani et al., Attention Is All You Need, 2017年6月12日
Jonathan Ho et al., Denoising Diffusion Probabilistic Models, 2020年6月19日
Robin Rombach et al., High-Resolution Image Synthesis with Latent Diffusion Models, 2021年12月20日
Anthropic, Claude models overview
Google AI for Developers, Gemini models
Long Ouyang et al., Training language models to follow instructions with human feedback, 2022年3月4日

クイズ

LLMとは？大規模言語モデルの仕組みと歴史

学習パラダイム