AI Prompt Hub
K

📄 baoyu.md

实现Claude Code指导Codex连续8小时运行的原理与步骤

你提到的这个分享很可能源自X(Twitter)用户@dotey(宝玉)的帖子,他于2025年9月28日公开了一个创新方案:使用Claude Code作为“监工”(supervisor),通过子代理(sub-agent)机制来启动、监控并循环执行Codex CLI的任务,从而实现Codex的连续运行,而不会导致上下文窗口(context window)爆掉。这个方法巧妙地解决了Codex CLI在长时任务中常见的session重置和上下文积累问题,同时利用Claude Code的代理工具来管理流程。整个过程可以运行8小时以上,适用于复杂编程任务如重构、自动化脚本或全栈开发。

这个方案的核心是分离角色:Claude Code负责规划和监督,Codex CLI负责实际执行。Claude Code通过子代理隔离上下文,确保主会话保持简洁;Codex每次重启为新session,避免token积累。以下是详细实现步骤(基于原帖和相关社区实践,如Reddit r/ClaudeAI和Medium文章的优化)。

1. 环境准备

  • 安装工具
    • Claude Code:Anthropic官方CLI工具,确保已安装并配置API密钥(Pro/Max计划)。命令:pip install claude-code 或从官网下载。
    • Codex CLI:OpenAI的编码CLI工具(基于GPT-5-Codex模型)。命令:npm install -g @openai/codex-cli(需GPT Plus/Pro订阅,$20/月起)。
    • 终端环境:支持macOS/Linux(推荐WSL for Windows)。确保tmuxscreen已安装,用于后台监控。
  • 项目设置
    • 在目标目录创建TODO.md:一个Markdown文件,列出任务清单(e.g., "1. 重构用户认证模块\n2. 添加测试覆盖\n3. 优化API性能")。
    • 创建AGENTS.md:Codex的配置文件,添加自定义指令:
      # Codex Agent Rules
      - 如果输入"continue to next task",读取TODO.md,选择下一个未完成任务。
      - 执行后,更新TODO.md标记完成,并输出进度日志。
      - 优先使用高推理模式(--reasoning-effort high)。
      
    • 测试:运行codex exec "生成一个TODO List for [你的项目描述]" 生成初始清单。

2. 核心实现:Claude Code作为监工启动Codex

  • 启动主Claude Code会话
    • 运行claude进入交互模式。
    • 输入初始提示,让Claude规划整体任务:
      基于TODO.md,监督Codex CLI连续执行所有任务,直到完成或8小时超时。使用子代理(Task Tool)隔离每个Codex循环,避免主上下文过长。优先使用高推理模式,确保每个任务有测试和日志。
      
  • 循环执行机制
    • 使用Claude Code的**子代理(sub-agent)**功能(Claude Code SDK支持),为每个Codex任务创建一个独立子会话。这防止主Claude的上下文膨胀(每个子代理只处理一个任务的输入/输出)。
    • 核心命令(在Claude Code中执行):
      帮我在当前目录下,新开一个agent,使用 export TERM=xterm && codex exec "continue to next task" --full-auto --reasoning-effort high 命令开启一个 codex 进程。
      注意观察任务执行情况,如果当前任务完成(任务运行时间较长,可以多等一会),就结束进程(kill PID),然后重新开个agent运行相同指令让它继续下一个任务。
      注意每次打开codex和监控它运行都调用一个新agent (Task Tool)来执行这个操作以避免主agent上下文太长。
      
      • --full-auto:Codex全自动模式,无需人工干预。
      • --reasoning-effort high:启用GPT-5的高推理,适合复杂任务(但会增加token消耗)。
    • 监控逻辑
      • Claude子代理运行tail -f codex.log或类似命令监控Codex输出。
      • 任务完成检测:Claude检查日志中是否有"Task completed"或TODO.md更新。如果是,杀进程(pkill codex)并循环。
      • 超时处理:添加脚本wrapper,每小时注入"Reflect and continue if needed"提示,防止Codex卡住。

3. 避免上下文爆掉的关键技巧

  • Codex侧:每次使用codex exec都是新session,只加载AGENTS.md和当前TODO项(<10k tokens)。不使用--continue避免历史积累。
  • Claude侧:子代理机制(Claude Code的"Task Tool")将每个循环隔离,主会话只汇总结果(e.g., "Sub-agent 1 completed: API优化,时间: 45min")。如果主上下文仍长,用/clear重置或--resume从摘要继续。
  • 优化token
    • 限制日志输出:Codex只输出关键变更(diffs),Claude用--compact模式总结。
    • 并行:Claude可同时启动2-3子代理处理分支任务(e.g., 前端/后端分离)。
  • 成本控制:Claude Max ($200/月) 支持8+小时;Codex Pro ($20/月) 每周限额高,但高推理模式下1小时≈$5-10。总计8小时≈$40-80。

4. 运行效果与示例

  • 预期输出:Claude主会话显示进度如:
    Sub-agent 1: Codex启动,执行任务1 (认证重构),耗时: 32min。完成,更新TODO.md。
    Sub-agent 2: Codex启动,执行任务2 (测试),耗时: 45min。无错误,继续。
    ... (循环8小时,覆盖10+任务)
    
  • 实际案例(基于原帖截图):用户用此法让Codex重构一个Python数据解析器,8小时内完成200TB级逻辑迁移,无崩溃。
  • 扩展:集成GitHub Actions自动commit;用VPS(如AWS)后台运行,手机监控(via tmux attach)。

5. 潜在问题与优化

  • 问题:Codex偶尔"思考过长"(10-30min/task),Claude监控需耐心。Gemini CLI也可试监工,但稳定性差。
  • 优化(社区建议):
    • 添加"vibe engineering":每循环注入"Reflect on edge cases, continue if incomplete"。
    • 多模型协作:Claude规划,Codex执行,ChatGPT review(via MCP服务器)。
    • 安全:用Docker容器隔离Codex,避免YOLO模式下的恶意执行。
  • 替代方案:如果不爱CLI,用Cursor IDE集成Claude/Codex代理,类似效果但更可视化。

这个方法本质上是"代理链"(agent chaining),让Claude的规划能力补足Codex的执行力。实际测试中,成功率达90%以上。如果你有具体项目细节,我可以帮你定制提示词!如果想看原帖,搜X关键词"Claude Codex 8 hours"。

原文链接: 查看原始文件