コンテンツにスキップ
LinkedInX

生成AIとは

約10分

対象読者: AIに興味を持ち始めたばかりの方、生成AIの全体像を把握したい方
前提知識: 特になし

生成AI(Generative AI)とは、大量のデータからパターンを学習し、テキスト・画像・音声・動画などの新しいデータを生成するAI技術の総称です。OpenAI API のような生成AIサービスでは、テキスト生成や画像生成などのモデル機能をアプリケーションから利用できます。[1]

生成AIと従来のAI(識別AI)の違い

Section titled “生成AIと従来のAI(識別AI)の違い”

AIには大きく2つの種類があります。識別AI(Discriminative AI)と生成AI(Generative AI)です。

識別AIとは、入力されたデータを分類・識別するAIです。「この画像は猫か犬か」「このメールはスパムか否か」といった判断を行います。

生成AIとは、学習したパターンをもとに新しいデータを作り出すAIです。「猫の画像を新しく作る」「メールの文章を自動で書く」といった生成を行います。

比較項目識別AI生成AI
目的データを分類・判別する新しいデータを生成する
出力ラベル・確率・スコアテキスト・画像・音声・動画
代表例画像分類・スパムフィルタ・顔認識テキスト生成・画像生成・音声生成
学習方法正解ラベル付きデータで学習パターンの分布を学習
主な用途品質管理・医療診断・検索文章作成・画像生成・コード補完

生成AIは複数のモダリティ(データの種類)にわたって活用されています。

テキスト生成AIとは、入力されたプロンプト(指示文)に基づいて文章を生成するAIです。

  • 文章の作成・要約・翻訳
  • コードの自動生成・デバッグ支援
  • 対話形式での情報提供(チャットボット)

代表例: ChatGPT、Claude、Gemini など。現在のモデル名や仕様は各社の公式ドキュメントで確認します。[1][5][6]

画像生成AIとは、テキストによる説明(プロンプト)や参照画像から新しい画像を生成するAIです。

  • テキストから画像を生成(Text-to-Image)
  • 既存画像のスタイル変換
  • 画像の修正・補完(インペインティング)

代表例: 画像生成API、Stable Diffusion 系ワークフロー、クリエイティブ向け画像生成ツールなど。技術的には拡散モデルが広く使われます。[3][4]

音楽生成AIとは、テキストや音楽的な指示から楽曲・音声を生成するAIです。

  • テキストから楽曲を生成
  • 声質のクローニング・変換
  • 音声合成(Text-to-Speech)

代表例: 音楽生成、効果音生成、音声合成、声質変換など。商用利用条件はサービスごとの利用規約で確認します。

動画生成AIとは、テキストや画像から動画コンテンツを生成するAIです。

  • テキストから短い動画を生成(Text-to-Video)
  • 静止画から動画への変換
  • 動画の編集・補完

代表例: Text-to-Video、Image-to-Video、動画編集・補完など。提供状況や動画長の上限は公式ドキュメントで確認します。

生成AIの発展は、アルゴリズム・データ・計算資源の三つの要素が揃うことで加速しました。

timeline
    title 生成AIの主要マイルストーン
    2014 : GAN登場(Ian Goodfellow)
    2017 : Transformer論文「Attention Is All You Need」
    2018 : BERT / GPT 系の初期研究
    2020 : GPT-3 が少数ショット学習を実証
    2020 : Denoising Diffusion Probabilistic Models
    2021 : DALL-E がテキストから画像生成を示す
    2022 : ChatGPT が一般公開
    2020年代 : マルチモーダル化と推論用途が拡大
出来事意義
2014年GAN(Generative Adversarial Network)— Ian Goodfellow2つのネットワークが競争することで高品質な生成を実現
2017年Transformer論文「Attention Is All You Need」— Vaswani et al.並列学習可能なアーキテクチャが登場し、大規模モデルの基盤となる
2018年BERT、GPT 系の初期研究Transformer ベースの言語モデル研究が広がる
2020年GPT-3少数ショット学習の能力を示す
2020年Denoising Diffusion Probabilistic Models拡散モデルによる生成の代表的手法を整理
2021年以降Text-to-Image の発展テキスト入力から画像を生成する製品・研究が広がる
2022年ChatGPT 一般公開対話型生成AIが一般ユーザーに広く届く契機になる
2020年代マルチモーダル化と推論用途の拡大テキスト以外の入力や複雑な問題解決への応用が進む

なぜ今、生成AIが急速に発展しているのか

Section titled “なぜ今、生成AIが急速に発展しているのか”

生成AIの急速な発展は、次の三つの要素が同時に揃ったことによります。

graph TD
    A["算力(Computing Power)\nGPU・TPUの進化\nクラウドインフラの整備"] --> D["生成AIの急速な発展"]
    B["データ(Data)\nインターネット上の\n膨大なテキスト・画像"] --> D
    C["アルゴリズム(Algorithm)\nTransformerの登場\nRLHFによる品質向上"] --> D

算力(Computing Power): GPU・TPUの性能向上とクラウドインフラの整備により、大規模モデルの学習と推論が現実的になりました。

データ(Data): テキスト・画像・音声などの大規模データが、学習の素材として使われるようになりました。

アルゴリズム(Algorithm): Transformerアーキテクチャ、拡散モデル、人間のフィードバックによる強化学習(RLHF)などが、実用的な品質の生成に貢献しました。[2][3][7]

  • 生成AIは、データのパターンを学習して新しいコンテンツを生成するAI技術の総称
  • 識別AIが「分類・判別」を行うのに対し、生成AIは「新しいデータを作り出す」
  • テキスト・画像・音楽・動画と、対応するモダリティが急拡大している
  • 2017年のTransformer論文を起点に、算力・データ・アルゴリズムの三位一体で急速に発展

Q: 生成AIと「普通のAI」は何が違うのですか?

A: 「普通のAI」として広く使われていたのは、データを分類・予測する識別AIです。生成AIは識別AIとは異なり、学習したパターンから新しいデータ(テキスト・画像など)を生成します。どちらもAIの一種ですが、目的と出力が根本的に異なります。

Q: 生成AIを使うのに専門知識は必要ですか?

A: 多くの生成AI製品はブラウザから利用できます。API経由での開発や独自モデルのファインチューニングには技術的な知識が必要ですが、利用するだけであれば特別なスキルを求めないサービスもあります。

Q: 生成AIはどのようにして「新しいものを作れる」のですか?

A: 生成AIは大量のデータから統計的なパターンを学習し、そのパターンに沿った新しいデータを確率的に生成します。完全に「独創的」なものを生み出すわけではなく、学習データの分布をもとに新しい組み合わせを生成しています。

Q: GANとLLMの違いは何ですか?

A: GAN(Generative Adversarial Network)は、生成ネットワークと識別ネットワークが競い合うことで高品質な画像などを生成する手法です。LLM(Large Language Model)はTransformerをベースとした大規模な言語モデルで、テキストの生成・理解に特化しています。どちらも生成AIの一形態ですが、アーキテクチャと得意なタスクが異なります。


ページ内容
LLMとは?大規模言語モデルの仕組みと歴史
生成AIモデルと知能指標モデルの種類・IQ風スコア・実務で見るべき能力
プロンプトエンジニアリング指示文を設計して回答品質を安定させる基本
コンテキストエンジニアリング必要な資料・履歴・制約をAIに渡す設計
ハーネスエンジニアリングツール・権限・検証まで含めてAIを実務に接続する設計
テキスト生成の仕組みトークン予測・サンプリング・プロンプト設計
画像生成の仕組み拡散モデル・テキスト条件付け・権利注意
動画生成の仕組みVideo Diffusion・DiT・時間的一貫性
音楽生成の仕組みトークンベース生成・ニューラル音声コーデック・権利注意
トランスフォーマーモデルSelf-Attention・Multi-Head Attention の仕組み
BERTとGPTの違いEncoder-Only vs Decoder-Only の設計思想
推論モデルChain-of-Thought・強化学習・推論向けモデルの選び方
  1. OpenAI, Models
  2. Ashish Vaswani et al., Attention Is All You Need, 2017年6月12日
  3. Jonathan Ho et al., Denoising Diffusion Probabilistic Models, 2020年6月19日
  4. Robin Rombach et al., High-Resolution Image Synthesis with Latent Diffusion Models, 2021年12月20日
  5. Anthropic, Claude models overview
  6. Google AI for Developers, Gemini models
  7. Long Ouyang et al., Training language models to follow instructions with human feedback, 2022年3月4日
クイズ