コンテンツにスキップ
LinkedInX

Codex Level 0〜10:11段階の定義

約10分

対象読者: Codex の現在地を判断し、次に整備すべき能力・ルール・検証方法を知りたい開発者やチーム
前提知識: Codex レベルの使い方 を読んでいること

Codex の活用度は、使った機能の数だけでは判断できません。重要なのは、どこまで作業を委任でき、その委任を文脈・検証・権限・レビューで支えられるかです。

このページでは Codex の成熟度を Level 0 から Level 10 まで定義します。Level 0 を含むため、全体は11段階です。すべてのプロジェクトが Level 10 を目指す必要はなく、変更のリスク、チーム規模、運用頻度に合うレベルを選びます。

各レベルの具体例は、Next.js 個人ポートフォリオサイトの構築と運営を共通テーマにします。プロジェクトカードの小さな修正から、プロジェクト追加、スキルページ更新、公開ワークフローまで、同じ題材で委任範囲の広がりを比較できます。

レベル称号中心となる能力代表的な成果物
Level 0Chat Advisorコード相談回答、サンプルコード
Level 1Repository Readerリポジトリ理解関連ファイル一覧、調査結果
Level 2Focused Editor限定された編集単一責務の差分
Level 3Verified Implementer検証付き実装小さな機能、テスト結果
Level 4Context Engineer継続的な文脈設定AGENTS.md、共有ルール
Level 5GitHub CollaboratorIssue・PR 協業ブランチ、PR、レビュー記録
Level 6Harness Builder安全な作業環境権限、承認、検証、禁止事項
Level 7Tool Operator外部ツール操作ブラウザ検証、MCP・コネクタ操作
Level 8Parallel Orchestrator並列タスク管理分割計画、worktree、サブエージェント結果
Level 9Workflow Operator定常運用CI、定期実行、トリアージフロー
Level 10Agent Platform Architect組織的な基盤設計エージェント群、評価、監査、改善ループ

状態:コードや設計について質問し、回答を人間が手作業で利用します。Codex は対象リポジトリを読まず、ファイル編集やコマンド実行も行いません。

典型例:エラー文の意味を質問する、関数のサンプルを生成する、設計案を比較する。

限界:回答が実際の依存関係、規約、既存実装と一致する保証はありません。

次へ進む条件:Codex にリポジトリを読ませ、実在するファイルを根拠に説明させます。

状態:Codex が作業ツリーを読み、コード構造、関連ファイル、原因候補を説明できます。調査が中心で、編集はまだ必須ではありません。

典型例:認証処理の入口を特定する、バグの再現経路を調べる、変更に必要なテストを列挙する。

到達基準:回答にファイルパスとコード上の根拠があり、人間が調査結果を確認できます。

次へ進む条件:対象と非対象を明示し、小さな編集を任せます。

状態:単一ファイルまたは単一責務に限定した変更を Codex が実行します。人間は差分を読み、意図しない変更がないか確認します。

典型例:バリデーションを1つ追加する、文言を修正する、既存パターンに沿った小さなリファクタリングを行う。

到達基準:変更範囲、変更禁止範囲、期待する結果を依頼に含められます。

次へ進む条件:編集だけでなく、テストや lint を同じ完了条件に含めます。

状態:関連する複数ファイルを変更し、小さな機能や不具合修正を検証まで完了します。

典型例:フォーム、バリデーション、テストをまとめて更新し、対象テストを実行する。

到達基準:完了報告に変更ファイル、実行コマンド、成功・失敗、未検証事項が含まれます。

次へ進む条件:毎回繰り返す規約やコマンドをリポジトリの指示ファイルへ移します。

状態AGENTS.md などで、技術スタック、編集方針、検証コマンド、禁止事項を継続的に Codex へ伝えます。

典型例:ルートの AGENTS.md を入口にし、領域別の詳細ルールやスキルへ案内する。

到達基準:新しいスレッドでも同じ作業規約が適用され、プロンプトに毎回規約を書き直す必要がありません。

次へ進む条件:ローカル作業だけでなく、Issue、ブランチ、PR、レビューへ作業範囲を広げます。

状態:Codex が GitHub の Issue や PR を読み、ブランチ作成、実装、PR 作成、レビュー対応を支援します。

典型例:Issue から受け入れ条件を抽出する、PR の変更概要を作る、レビューコメントを修正する。

到達基準:コミット範囲、ブランチ方針、レビュー責任、マージ権限が明確です。

次へ進む条件:個別の指示だけでなく、権限・承認・安全検証を体系化します。

状態:Codex が安定して作業するためのハーネスを設計します。ハーネスには、ルール、スキル、検証コマンド、権限、承認条件、禁止事項、失敗時の手順が含まれます。

典型例:本番ビルドは承認制にする、保護フォルダを定義する、変更後に決まった検証を実行する、共有ルールを自動検査する。

到達基準:危険な操作は止まり、通常の変更は再現可能な手順で完了し、違反は検証で検出されます。

次へ進む条件:ファイルとシェル以外のツールを、用途と権限を限定して接続します。

状態:Codex がブラウザ、MCP、コネクタ、画像、ドキュメントなどの外部ツールを使い、コード外の証拠も確認します。

典型例:記事一覧をブラウザで確認する、GitHub や CMS の記事データをコネクタで読む、スクリーンショットから UI の差異を調べる。

到達基準:各ツールの読み取り・書き込み権限、機密情報の境界、確認が必要な操作が定義されています。

次へ進む条件:独立した作業を分割し、競合しない単位で並列実行します。

状態:複数のスレッド、worktree、クラウドタスク、サブエージェントを使い、独立した作業を並列化します。

典型例:実装、テスト追加、ドキュメント更新を別担当に分け、最後に統合検証する。

到達基準:担当ファイル、依存関係、統合順序、競合時の責任者が明確です。同じファイルを複数作業が同時編集しません。

次へ進む条件:並列作業を単発で終わらせず、定期実行やイベント駆動の運用へ組み込みます。

状態:Codex を CI、定期実行、Issue トリアージ、依存関係調査、ドキュメント同期などの定常ワークフローに組み込みます。

典型例:失敗した CI の一次調査、低カバレッジ領域の候補抽出、定期的なドキュメント整合性チェックを行う。

到達基準:開始条件、停止条件、タイムアウト、通知、再実行、監査ログ、人間へ戻す条件が定義されています。

次へ進む条件:個別ワークフローを共通基盤として管理し、品質を継続評価します。

状態:複数のエージェント、ツール、ハーネス、評価、監査を組み合わせ、組織または複数プロジェクトで再利用できる基盤を設計します。

典型例:計画、実装、レビュー、セキュリティ確認を役割分担し、評価結果からルールやスキルを改善する仕組みを運用する。

到達基準:役割分離、最小権限、品質指標、コスト上限、監査証跡、障害時の停止手順、改善ループが存在します。

Level 10 は「人間を外す」段階ではありません。人間が仕様、権限、品質基準、例外処理を設計し、エージェント群の作業を統制できる段階です。

現在のレベルは「一度だけ成功した最高地点」ではなく、日常的に再現できる段階で判断します。

質問該当するレベル
リポジトリを読まず、回答を手作業で使っているかLevel 0
実在するコードを根拠に調査できるかLevel 1
範囲を限定した差分をレビューできるかLevel 2
テスト付きの小さな機能を完了できるかLevel 3
規約を AGENTS.md などで継続適用できるかLevel 4
Issue・PR・レビューまで一貫して扱えるかLevel 5
権限・承認・検証をハーネスとして管理できるかLevel 6
外部ツールを権限境界付きで使えるかLevel 7
競合を避けて複数作業を並列化できるかLevel 8
定常ワークフローとして監視・復旧できるかLevel 9
複数ワークフローを評価・監査・改善できるかLevel 10
  • Codex Level 0〜10 は、委任範囲を支える文脈・検証・権限・運用の成熟度です。
  • Level 0〜3 は相談から検証付き実装、Level 4〜6 は規約・GitHub・ハーネス、Level 7〜10 はツール・並列化・定常運用・基盤設計を扱います。
  • 最高レベルを目指すのではなく、プロジェクトのリスクと規模に合う段階を再現可能にすることが重要です。

このページの外部仕様・背景情報は、参考文献を参照してください。[1][2]

  1. OpenAI, Codex documentation
  2. OpenAI, OpenAI API documentation
クイズ