Codex Level 0〜10:11段階の定義
約10分
Codex の活用度は、使った機能の数だけでは判断できません。重要なのは、どこまで作業を委任でき、その委任を文脈・検証・権限・レビューで支えられるかです。
このページでは Codex の成熟度を Level 0 から Level 10 まで定義します。Level 0 を含むため、全体は11段階です。すべてのプロジェクトが Level 10 を目指す必要はなく、変更のリスク、チーム規模、運用頻度に合うレベルを選びます。
各レベルの具体例は、Next.js 個人ポートフォリオサイトの構築と運営を共通テーマにします。プロジェクトカードの小さな修正から、プロジェクト追加、スキルページ更新、公開ワークフローまで、同じ題材で委任範囲の広がりを比較できます。
11段階の全体像
Section titled “11段階の全体像”| レベル | 称号 | 中心となる能力 | 代表的な成果物 |
|---|---|---|---|
| Level 0 | Chat Advisor | コード相談 | 回答、サンプルコード |
| Level 1 | Repository Reader | リポジトリ理解 | 関連ファイル一覧、調査結果 |
| Level 2 | Focused Editor | 限定された編集 | 単一責務の差分 |
| Level 3 | Verified Implementer | 検証付き実装 | 小さな機能、テスト結果 |
| Level 4 | Context Engineer | 継続的な文脈設定 | AGENTS.md、共有ルール |
| Level 5 | GitHub Collaborator | Issue・PR 協業 | ブランチ、PR、レビュー記録 |
| Level 6 | Harness Builder | 安全な作業環境 | 権限、承認、検証、禁止事項 |
| Level 7 | Tool Operator | 外部ツール操作 | ブラウザ検証、MCP・コネクタ操作 |
| Level 8 | Parallel Orchestrator | 並列タスク管理 | 分割計画、worktree、サブエージェント結果 |
| Level 9 | Workflow Operator | 定常運用 | CI、定期実行、トリアージフロー |
| Level 10 | Agent Platform Architect | 組織的な基盤設計 | エージェント群、評価、監査、改善ループ |
Level 0:Chat Advisor
Section titled “Level 0:Chat Advisor”状態:コードや設計について質問し、回答を人間が手作業で利用します。Codex は対象リポジトリを読まず、ファイル編集やコマンド実行も行いません。
典型例:エラー文の意味を質問する、関数のサンプルを生成する、設計案を比較する。
限界:回答が実際の依存関係、規約、既存実装と一致する保証はありません。
次へ進む条件:Codex にリポジトリを読ませ、実在するファイルを根拠に説明させます。
Level 1:Repository Reader
Section titled “Level 1:Repository Reader”状態:Codex が作業ツリーを読み、コード構造、関連ファイル、原因候補を説明できます。調査が中心で、編集はまだ必須ではありません。
典型例:認証処理の入口を特定する、バグの再現経路を調べる、変更に必要なテストを列挙する。
到達基準:回答にファイルパスとコード上の根拠があり、人間が調査結果を確認できます。
次へ進む条件:対象と非対象を明示し、小さな編集を任せます。
Level 2:Focused Editor
Section titled “Level 2:Focused Editor”状態:単一ファイルまたは単一責務に限定した変更を Codex が実行します。人間は差分を読み、意図しない変更がないか確認します。
典型例:バリデーションを1つ追加する、文言を修正する、既存パターンに沿った小さなリファクタリングを行う。
到達基準:変更範囲、変更禁止範囲、期待する結果を依頼に含められます。
次へ進む条件:編集だけでなく、テストや lint を同じ完了条件に含めます。
Level 3:Verified Implementer
Section titled “Level 3:Verified Implementer”状態:関連する複数ファイルを変更し、小さな機能や不具合修正を検証まで完了します。
典型例:フォーム、バリデーション、テストをまとめて更新し、対象テストを実行する。
到達基準:完了報告に変更ファイル、実行コマンド、成功・失敗、未検証事項が含まれます。
次へ進む条件:毎回繰り返す規約やコマンドをリポジトリの指示ファイルへ移します。
Level 4:Context Engineer
Section titled “Level 4:Context Engineer”状態:AGENTS.md などで、技術スタック、編集方針、検証コマンド、禁止事項を継続的に Codex へ伝えます。
典型例:ルートの AGENTS.md を入口にし、領域別の詳細ルールやスキルへ案内する。
到達基準:新しいスレッドでも同じ作業規約が適用され、プロンプトに毎回規約を書き直す必要がありません。
次へ進む条件:ローカル作業だけでなく、Issue、ブランチ、PR、レビューへ作業範囲を広げます。
Level 5:GitHub Collaborator
Section titled “Level 5:GitHub Collaborator”状態:Codex が GitHub の Issue や PR を読み、ブランチ作成、実装、PR 作成、レビュー対応を支援します。
典型例:Issue から受け入れ条件を抽出する、PR の変更概要を作る、レビューコメントを修正する。
到達基準:コミット範囲、ブランチ方針、レビュー責任、マージ権限が明確です。
次へ進む条件:個別の指示だけでなく、権限・承認・安全検証を体系化します。
Level 6:Harness Builder
Section titled “Level 6:Harness Builder”状態:Codex が安定して作業するためのハーネスを設計します。ハーネスには、ルール、スキル、検証コマンド、権限、承認条件、禁止事項、失敗時の手順が含まれます。
典型例:本番ビルドは承認制にする、保護フォルダを定義する、変更後に決まった検証を実行する、共有ルールを自動検査する。
到達基準:危険な操作は止まり、通常の変更は再現可能な手順で完了し、違反は検証で検出されます。
次へ進む条件:ファイルとシェル以外のツールを、用途と権限を限定して接続します。
Level 7:Tool Operator
Section titled “Level 7:Tool Operator”状態:Codex がブラウザ、MCP、コネクタ、画像、ドキュメントなどの外部ツールを使い、コード外の証拠も確認します。
典型例:記事一覧をブラウザで確認する、GitHub や CMS の記事データをコネクタで読む、スクリーンショットから UI の差異を調べる。
到達基準:各ツールの読み取り・書き込み権限、機密情報の境界、確認が必要な操作が定義されています。
次へ進む条件:独立した作業を分割し、競合しない単位で並列実行します。
Level 8:Parallel Orchestrator
Section titled “Level 8:Parallel Orchestrator”状態:複数のスレッド、worktree、クラウドタスク、サブエージェントを使い、独立した作業を並列化します。
典型例:実装、テスト追加、ドキュメント更新を別担当に分け、最後に統合検証する。
到達基準:担当ファイル、依存関係、統合順序、競合時の責任者が明確です。同じファイルを複数作業が同時編集しません。
次へ進む条件:並列作業を単発で終わらせず、定期実行やイベント駆動の運用へ組み込みます。
Level 9:Workflow Operator
Section titled “Level 9:Workflow Operator”状態:Codex を CI、定期実行、Issue トリアージ、依存関係調査、ドキュメント同期などの定常ワークフローに組み込みます。
典型例:失敗した CI の一次調査、低カバレッジ領域の候補抽出、定期的なドキュメント整合性チェックを行う。
到達基準:開始条件、停止条件、タイムアウト、通知、再実行、監査ログ、人間へ戻す条件が定義されています。
次へ進む条件:個別ワークフローを共通基盤として管理し、品質を継続評価します。
Level 10:Agent Platform Architect
Section titled “Level 10:Agent Platform Architect”状態:複数のエージェント、ツール、ハーネス、評価、監査を組み合わせ、組織または複数プロジェクトで再利用できる基盤を設計します。
典型例:計画、実装、レビュー、セキュリティ確認を役割分担し、評価結果からルールやスキルを改善する仕組みを運用する。
到達基準:役割分離、最小権限、品質指標、コスト上限、監査証跡、障害時の停止手順、改善ループが存在します。
Level 10 は「人間を外す」段階ではありません。人間が仕様、権限、品質基準、例外処理を設計し、エージェント群の作業を統制できる段階です。
自分のレベルを判定する
Section titled “自分のレベルを判定する”現在のレベルは「一度だけ成功した最高地点」ではなく、日常的に再現できる段階で判断します。
| 質問 | 該当するレベル |
|---|---|
| リポジトリを読まず、回答を手作業で使っているか | Level 0 |
| 実在するコードを根拠に調査できるか | Level 1 |
| 範囲を限定した差分をレビューできるか | Level 2 |
| テスト付きの小さな機能を完了できるか | Level 3 |
規約を AGENTS.md などで継続適用できるか | Level 4 |
| Issue・PR・レビューまで一貫して扱えるか | Level 5 |
| 権限・承認・検証をハーネスとして管理できるか | Level 6 |
| 外部ツールを権限境界付きで使えるか | Level 7 |
| 競合を避けて複数作業を並列化できるか | Level 8 |
| 定常ワークフローとして監視・復旧できるか | Level 9 |
| 複数ワークフローを評価・監査・改善できるか | Level 10 |
- Codex Level 0〜10 は、委任範囲を支える文脈・検証・権限・運用の成熟度です。
- Level 0〜3 は相談から検証付き実装、Level 4〜6 は規約・GitHub・ハーネス、Level 7〜10 はツール・並列化・定常運用・基盤設計を扱います。
- 最高レベルを目指すのではなく、プロジェクトのリスクと規模に合う段階を再現可能にすることが重要です。
このページの外部仕様・背景情報は、参考文献を参照してください。[1][2]
- OpenAI, Codex documentation
- OpenAI, OpenAI API documentation