コンテンツにスキップ
LinkedInX

動画生成の仕組み

約5分

対象読者: 画像生成AIを使ったことがある方、動画生成AIがどう動くか知りたい方
前提知識: 画像生成の仕組み を読んでいること

「文章を入力するだけで短い動画が生成される」——これを実現しているのが動画生成AIです。動画生成は画像生成技術を時間方向へ拡張する領域です。OpenAI の Sora 技術報告は、動画生成に diffusion transformer を使うアプローチを示しましたが、現在の提供状況は各社の公式ドキュメントで確認する必要があります。[1][2]

画像生成と比べて動画生成がはるかに難しい理由は、「時間的一貫性」の問題です。

課題内容
時間的一貫性同じ人物・物体・背景がフレームをまたいで一貫していなければならない
物理法則の遵守水の流れ・炎の揺れ・重力に従う動きが自然に見える必要がある
計算コスト短い動画でも多数のフレームを時間的に整合させて生成する必要がある
データ不足高品質なキャプション付き動画データは画像データより圧倒的に少ない

Video Diffusion Model(ビデオ拡散モデル)

Section titled “Video Diffusion Model(ビデオ拡散モデル)”

動画生成AIの代表的なアプローチのひとつは、拡散モデル(Diffusion Model)を時系列に拡張するものです。[1][3]

graph LR
    subgraph 画像生成["画像生成(2D)"]
        N2D["ランダムノイズ\n(1枚)"] --> D2D["ノイズ除去"] --> I2D["1枚の画像"]
    end
    subgraph 動画生成["動画生成(3D)"]
        N3D["ランダムノイズ\n(複数フレーム)"] --> D3D["時空間ノイズ除去\n(フレーム間の整合性も考慮)"] --> V3D["連続した動画フレーム"]
    end

時空間表現に対してノイズ除去を行い、フレーム間の動きと一貫性を同時に学習します。[1]

DiT(Diffusion Transformer)アーキテクチャ

Section titled “DiT(Diffusion Transformer)アーキテクチャ”

一部の動画生成システムでは、Transformer ベースの拡散アーキテクチャが使われます。DiT は Transformer ブロックを使う拡散モデルを提案し、OpenAI は Sora を時空間パッチを扱う diffusion transformer と説明しています。[1][4]

graph TD
    Text["テキストプロンプト"] --> TextEnc["テキストエンコーダー"]
    Noise["ランダム時空間ノイズ\n(T × H × W)"] --> Patchify["パッチ化\n(動画をトークン列に変換)"]
    TextEnc --> DiT["Diffusion Transformer\n(時空間的 Attention)"]
    Patchify --> DiT
    DiT --> Video["生成動画"]

動画を「時空間パッチ」(小さな動画ブロック)に分割してトークン列として扱い、Transformer の Self-Attention で全フレーム間の関係を学習します。

動画生成ツールを比較するときの観点

Section titled “動画生成ツールを比較するときの観点”

動画生成ツールやAPIは、モデル名、最大動画長、入力形式、料金、商業利用条件が更新されます。Google は Veo の提供状況を公式モデルドキュメントで案内しており、OpenAI は Sora のWeb/App/API提供終了案内も公開しています。[2][5] あるモデルを現在利用できるものとして扱う前に、必ず公式ドキュメントを確認します。

観点確認する内容
入力Text-to-Video、Image-to-Video、Video-to-Video、編集/Inpainting
出力制限動画長、解像度、アスペクト比、透かし、レート制限
制御カメラモーション、キャラクター一貫性、参照画像、音声
権利と安全性商業利用、実在人物の制限、AI生成表示

テキストから動画へ — プロンプト設計

Section titled “テキストから動画へ — プロンプト設計”

動画生成のプロンプトは、画像生成より「動き・カメラ・時間」の要素が重要です。

効果的なプロンプトの構成要素

Section titled “効果的なプロンプトの構成要素”
[シーンの説明] + [カメラの動き] + [照明・雰囲気] + [時間的変化] + [スタイル]

例:
「満開の桜の木の下を歩く女性、
カメラが後ろからゆっくり追いかける、
春の柔らかな日差し、花びらが風に舞い散る、
映画のような映像スタイル」
指定意味
Pan left/right水平方向にカメラを動かす
Zoom in/out被写体に近づく/離れる
Tracking shot被写体を追いながら移動
Aerial view俯瞰・空撮視点
Slow motionスローモーション

静止画像やテキスト説明から商品紹介動画のコンセプトを生成し、人間がレビューしながら改善します。

「細胞分裂の様子」「歴史的な建物の変遷」など、撮影が不可能または困難な場面を動画で表現できます。

ゲームのカットシーンのコンセプト映像や、映画のプリビズ(事前可視化)を素早く制作するために使われます。

静止画の写真を自然に「動かした」短い動画をSNSに投稿する用途も急速に普及しています。

動画生成AIはまだ発展途上であり、以下の課題があります。

文字表示の不正確さ: 動画内のテキスト(看板・字幕など)が歪んだり読めなくなることが多い

長尺でのコヒーレンス: 動画が長くなるほど人物・背景の一貫性が崩れやすい

計算コスト: 動画は多数のフレームを一貫して生成するため、1枚の画像生成より計算負荷が高い

倫理・フェイク映像: リアルな人物の偽動画(ディープフェイク)の悪用防止が社会的課題

  • 動画生成AIは「時空間ノイズ除去」により、フレーム間の一貫性を保ちながら動画を生成
  • 一部のシステムでは Transformer ベースの拡散アーキテクチャが使われる
  • 物理法則の遵守・時間的一貫性が画像生成より難しい技術課題
  • 製品の提供状況、最大動画長、商業利用条件は公式情報で確認する
  • 広告・教育・ゲーム制作など多様な用途への実用化が進んでいる

Q: 動画生成AIは映画監督の仕事を奪いますか?

A: 補助ツールとしての活用が主流になっています。コンセプト動画や初稿制作の効率化には使われていますが、ストーリー・演出・人間の感情表現など創造的な判断は人間が担っています。

Q: 生成した動画は商業利用できますか?

A: サービス、プラン、契約によって利用規約が異なります。商業利用する前に、必ず各サービスの最新利用規約を確認してください。

Q: 自分の映像をAIで編集(Inpainting)することはできますか?

A: 一部の動画生成・編集ツールでは、既存動画の一部を書き換える編集や Inpainting 的なワークフローを提供しています。ただし、対応範囲と制限は製品によって変わります。

Q: 「ディープフェイク」と動画生成AIの違いは何ですか?

A: 厳密な技術的定義はないですが、「ディープフェイク」は特定の人物の顔や声を別の映像に重ねる技術を指すことが多いです。動画生成AIはゼロから動画を生成しますが、技術的には重なる部分もあります。特定個人の許可なく偽映像を作成することは、多くの地域で法的・倫理的に問題になります。

  1. OpenAI, Video generation models as world simulators, 2024年2月15日
  2. Google Cloud, Video generation overview
  3. Jonathan Ho et al., Denoising Diffusion Probabilistic Models, 2020年6月19日
  4. William Peebles and Saining Xie, Scalable Diffusion Models with Transformers, 2022年12月19日
  5. OpenAI Help Center, What to know about the Sora discontinuation
クイズ