画像生成の仕組み

約5分

画像生成AIを使ったことがある方、「なぜプロンプトで画像が作れるのか」を知りたい方

生成AIとはを読んでいること

「文章を入力するだけで写真のような画像が生成される」——これを実現しているのが画像生成AIです。OpenAI の画像生成APIなど、テキスト入力から画像を生成する機能はAPIや製品として利用されています。[1] このページでは、画像生成AIの核心技術である「拡散モデル」の仕組みをわかりやすく解説します。

画像生成AIの技術的な変遷

現在主流の画像生成AIが使っている技術（拡散モデル）が登場するまでに、GAN、Transformer、拡散モデルなど深層学習アーキテクチャの発展がありました。[2][3][4]

timeline
    title 画像生成技術の変遷
    2014 : GAN（敵対的生成ネットワーク）登場
    2020 : Denoising Diffusion Probabilistic Models が代表的な拡散手法を整理
    2021 : DALL-E がテキストから画像生成を示す
    2022 : Latent Diffusion / Stable Diffusion が潜在空間での生成を普及
    2020年代 : Text-to-Image API とクリエイティブツールが広がる

拡散モデル（Diffusion Model）とは

現代の画像生成AIの多くは拡散モデル（Diffusion Model）という技術を使っています。Denoising Diffusion Probabilistic Models は逆向きのノイズ除去過程を学習する考え方を示し、Latent Diffusion は圧縮された潜在空間で拡散を行うことで高解像度画像生成を効率化しました。[3][4]

直感的な説明

拡散モデルは**「ノイズを除去する」プロセスを学習する**ことで画像を生成します。

graph LR
    subgraph Forward["学習時: ノイズを加えていく（順方向）"]
        I["きれいな画像"] --> N1["少しノイズを加えた画像"] --> N2["もっとノイズが多い画像"] --> N3["完全なノイズ（ランダム）"]
    end
    subgraph Reverse["生成時: ノイズを除去していく（逆方向）"]
        R3["完全なノイズ（ランダム）"] --> R2["少しノイズが減った画像"] --> R1["さらに鮮明になった画像"] --> R0["完成した画像"]
    end

学習フェーズ（順方向）: 大量の画像に段階的にノイズを加え、「どのようにノイズが加わるか」を学習
生成フェーズ（逆方向）: ランダムなノイズから少しずつノイズを除去し、画像を合成する

「砂嵐のテレビから少しずつ映像が浮かび上がる」イメージに近いです。

なぜこれがテキストから画像を生成できるのか

テキスト（プロンプト）はテキストエンコーダでベクトル（数値）に変換されます。このベクトルが「どの方向にノイズを除去するか」を条件として与えられることで、テキストの内容に合った画像が生成されます。[4]

graph TD
    Text["「青い空と白い雲の風景」"] --> CLIP["CLIP / テキストエンコーダー\n（テキストをベクトルに変換）"]
    Noise["ランダムノイズ"] --> Diffusion["拡散モデル\n（U-Net）\nテキストベクトルで条件付け"]
    CLIP --> Diffusion
    Diffusion --> Image["完成した画像"]

画像生成ツールを比較するときの観点

OpenAI の画像生成、Midjourney、Stable Diffusion 系ワークフロー、Adobe Firefly、Google の画像生成製品などは、モデル名、UI、利用規約、出力上限が更新されます。現行仕様や商業利用条件は、利用前に各社の公式ドキュメントと利用規約を確認します。[1]

観点	確認する内容
入力モード	Text-to-Image、Image-to-Image、Inpainting、Outpainting
出力制御	アスペクト比、スタイル制御、seed、編集機能
権利と規約	商業利用、学習データに関する説明、コンテンツポリシー
ワークフロー	API、デスクトップアプリ、ブラウザ、ローカル実行、チームレビュー

画像生成AIの主な機能

Text-to-Image（テキストから画像）

テキストプロンプトから画像を生成します。最も基本的な機能です。

Image-to-Image（画像から画像）

参照画像とプロンプトを組み合わせて、既存画像のスタイルや内容を変換します。

Inpainting（インペインティング）

画像の特定の部分だけを書き換えます。「空の部分だけ夕焼けに変えたい」といった部分編集ができます。

Outpainting（アウトペインティング）

画像の外側に内容を拡張します。縦長の写真を横長に拡張する場合などに使います。

ControlNet

骨格・エッジ・深度マップなどの条件を使って画像のポーズや構図を制御します。一部の拡散モデルワークフローで追加条件として使われます。

プロンプト設計のコツ

良いプロンプトの構成

[被写体の説明] + [スタイル指定] + [構図] + [照明] + [出力条件]

例:
「サイバーパンク都市の夜景、ネオン照明、雨、俯瞰視点、
フォトリアリスティック、シネマチックライティング」

ネガティブプロンプト

「含めたくない要素」を指定することで品質を向上させます。Flux や ComfyUI ベースのモデルで有効です。

ネガティブプロンプト例:
「ぼやけた、低品質、歪み、テキスト、透かし、余分な指、不自然な肌」

倫理・著作権上の注意点

画像生成AIを使う際は以下の点に注意が必要です。

著作権: 生成画像の商業利用可否はサービスの利用規約によって異なるため、商用利用前に最新の利用規約を確認します
学習データの問題: モデルの学習データに著作権のある作品が含まれることへの議論が続いています
フェイク画像: リアルな人物の偽画像を生成することは倫理的・法的に問題になる場合があります
著作物性: 米国著作権局は、著作権保護には十分な人間の著作者性が必要であり、機械だけで生成された素材には著作物性の問題があると整理しています。[5]

まとめ

画像生成AIの多くは、逆向きのノイズ除去過程を学習する拡散モデルを使っている
テキストプロンプトはテキストエンコーダでベクトル化され、生成方向を制御する
製品名、モデルバージョン、出力上限、商業利用条件は公式情報で確認する
商業利用・著作権・フェイク画像には注意が必要

よくある質問

Q: プロンプトに「高品質」や解像度っぽい語を書くと本当に画質が上がりますか?

A: 学習済みのテキストと画像の対応関係に影響するため、スタイルには効く場合があります。ただし実際の出力解像度はモデルや製品設定で決まり、プロンプトだけで変わるわけではありません。

Q: AIが生成した画像の著作権は誰のものですか?

A: 国・地域と人間の創作関与の程度によって扱いが変わります。米国著作権局は、著作権保護には十分な人間の著作者性が必要であり、機械だけで生成された素材には著作物性の問題があると整理しています。[5] 商業利用の際は、対象国の法律とサービスの利用規約を確認してください。

Q: 画像生成AIで人物の顔を生成するとなぜ指の数がおかしくなることがあるのですか?

A: 拡散モデルは画像の統計的なパターンを学習しています。手や指の構造は複雑で、姿勢や角度のバリエーションも多いため、特に不自然な構図では正確な形状の生成が難しい場合があります。

参考文献

OpenAI, Images and vision
Ashish Vaswani et al., Attention Is All You Need, 2017年6月12日
Jonathan Ho et al., Denoising Diffusion Probabilistic Models, 2020年6月19日
Robin Rombach et al., High-Resolution Image Synthesis with Latent Diffusion Models, 2021年12月20日
U.S. Copyright Office, Copyright and Artificial Intelligence, Part 2: Copyrightability, 2025年1月

クイズ

動画生成の仕組み

テキスト生成の仕組み