AI Prompt Hub - AI提示词知识库

实现Claude Code指导Codex连续8小时运行的原理与步骤

你提到的这个分享很可能源自X（Twitter）用户@dotey（宝玉）的帖子，他于2025年9月28日公开了一个创新方案：使用Claude Code作为“监工”（supervisor），通过子代理（sub-agent）机制来启动、监控并循环执行Codex CLI的任务，从而实现Codex的连续运行，而不会导致上下文窗口（context window）爆掉。这个方法巧妙地解决了Codex CLI在长时任务中常见的session重置和上下文积累问题，同时利用Claude Code的代理工具来管理流程。整个过程可以运行8小时以上，适用于复杂编程任务如重构、自动化脚本或全栈开发。

这个方案的核心是分离角色：Claude Code负责规划和监督，Codex CLI负责实际执行。Claude Code通过子代理隔离上下文，确保主会话保持简洁；Codex每次重启为新session，避免token积累。以下是详细实现步骤（基于原帖和相关社区实践，如Reddit r/ClaudeAI和Medium文章的优化）。

1. 环境准备

安装工具：
- Claude Code：Anthropic官方CLI工具，确保已安装并配置API密钥（Pro/Max计划）。命令：pip install claude-code 或从官网下载。
- Codex CLI：OpenAI的编码CLI工具（基于GPT-5-Codex模型）。命令：npm install -g @openai/codex-cli（需GPT Plus/Pro订阅，$20/月起）。
- 终端环境：支持macOS/Linux（推荐WSL for Windows）。确保tmux或screen已安装，用于后台监控。
项目设置：
- 在目标目录创建TODO.md：一个Markdown文件，列出任务清单（e.g., "1. 重构用户认证模块\n2. 添加测试覆盖\n3. 优化API性能"）。
- 创建AGENTS.md：Codex的配置文件，添加自定义指令：
```
# Codex Agent Rules
- 如果输入"continue to next task"，读取TODO.md，选择下一个未完成任务。
- 执行后，更新TODO.md标记完成，并输出进度日志。
- 优先使用高推理模式（--reasoning-effort high）。
```
- 测试：运行codex exec "生成一个TODO List for [你的项目描述]" 生成初始清单。

2. 核心实现：Claude Code作为监工启动Codex

启动主Claude Code会话：

运行claude进入交互模式。

输入初始提示，让Claude规划整体任务：

基于TODO.md，监督Codex CLI连续执行所有任务，直到完成或8小时超时。使用子代理（Task Tool）隔离每个Codex循环，避免主上下文过长。优先使用高推理模式，确保每个任务有测试和日志。

循环执行机制：
- 使用Claude Code的**子代理（sub-agent）**功能（Claude Code SDK支持），为每个Codex任务创建一个独立子会话。这防止主Claude的上下文膨胀（每个子代理只处理一个任务的输入/输出）。
- 核心命令（在Claude Code中执行）：
```
帮我在当前目录下，新开一个agent，使用 export TERM=xterm && codex exec "continue to next task" --full-auto --reasoning-effort high 命令开启一个 codex 进程。
注意观察任务执行情况，如果当前任务完成(任务运行时间较长，可以多等一会)，就结束进程（kill PID），然后重新开个agent运行相同指令让它继续下一个任务。
注意每次打开codex和监控它运行都调用一个新agent (Task Tool)来执行这个操作以避免主agent上下文太长。
```
  - --full-auto：Codex全自动模式，无需人工干预。
  - --reasoning-effort high：启用GPT-5的高推理，适合复杂任务（但会增加token消耗）。
- 监控逻辑：
  - Claude子代理运行tail -f codex.log或类似命令监控Codex输出。
  - 任务完成检测：Claude检查日志中是否有"Task completed"或TODO.md更新。如果是，杀进程（pkill codex）并循环。
  - 超时处理：添加脚本wrapper，每小时注入"Reflect and continue if needed"提示，防止Codex卡住。

3. 避免上下文爆掉的关键技巧

Codex侧：每次使用codex exec都是新session，只加载AGENTS.md和当前TODO项（<10k tokens）。不使用--continue避免历史积累。
Claude侧：子代理机制（Claude Code的"Task Tool"）将每个循环隔离，主会话只汇总结果（e.g., "Sub-agent 1 completed: API优化，时间: 45min"）。如果主上下文仍长，用/clear重置或--resume从摘要继续。
优化token：
- 限制日志输出：Codex只输出关键变更（diffs），Claude用--compact模式总结。
- 并行：Claude可同时启动2-3子代理处理分支任务（e.g., 前端/后端分离）。
成本控制：Claude Max ($200/月) 支持8+小时；Codex Pro ($20/月) 每周限额高，但高推理模式下1小时≈$5-10。总计8小时≈$40-80。

4. 运行效果与示例

预期输出：Claude主会话显示进度如：

Sub-agent 1: Codex启动，执行任务1 (认证重构)，耗时: 32min。完成，更新TODO.md。
Sub-agent 2: Codex启动，执行任务2 (测试)，耗时: 45min。无错误，继续。
... (循环8小时，覆盖10+任务)

实际案例（基于原帖截图）：用户用此法让Codex重构一个Python数据解析器，8小时内完成200TB级逻辑迁移，无崩溃。
扩展：集成GitHub Actions自动commit；用VPS（如AWS）后台运行，手机监控（via tmux attach）。

5. 潜在问题与优化

问题：Codex偶尔"思考过长"（10-30min/task），Claude监控需耐心。Gemini CLI也可试监工，但稳定性差。
优化（社区建议）：
- 添加"vibe engineering"：每循环注入"Reflect on edge cases, continue if incomplete"。
- 多模型协作：Claude规划，Codex执行，ChatGPT review（via MCP服务器）。
- 安全：用Docker容器隔离Codex，避免YOLO模式下的恶意执行。
替代方案：如果不爱CLI，用Cursor IDE集成Claude/Codex代理，类似效果但更可视化。