每日调研 2026-06-25 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-06-25 AI/LLM 最新论文与研究热点简报

时间范围：重点覆盖 2026-06-23 至 2026-06-25 早间可检索到的 Hugging Face Daily Papers、arXiv cs.AI/cs.CL/cs.LG/cs.SE/stat.ML 新近论文，以及少量 GitHub/HF 项目页。arXiv export API 对复杂查询出现超时，因此本期采用“按分类抓取最近提交 + 本地关键词筛选 + HF Daily Papers 交叉核验”的方式。X/Twitter 未作为主来源，避免因访问限制和不可核验转述引入幻觉。

#0. 今日总览：Agent 研究正在从“调用工具”走向“学习世界”

今天最值得 wenjun 关注的信号非常集中：Agent 不再只是 prompt + tool-use orchestration，而是在朝着可训练的世界模型、可审计记忆、长轨迹诊断、代码任务贝叶斯控制、GUI/终端环境 RL 方向演化。

我会把今日进展概括成四条主线：

语言世界模型成为 LLM Agent RL 的核心候选路线：Qwen-AgentWorld 直接把环境转移建模、模拟器、agentic RL、warm-up 训练连在一起，是今天最贴近“Dreamer for LLM Agent / model-based RL”的工作。
长轨迹 Agent 的瓶颈从上下文长度转向主动诊断与状态管理：SAFARI、MemGUI-Agent、agent memory 系列工作都在说明：把整条轨迹塞进上下文不是根本解，关键是会搜索、会压缩、会维护状态。
代码 Agent 开始进入“决策控制层”优化：Bayesian control、SHERLOC、NatureBench 都不是简单提高 pass@1，而是在研究定位、验证成本、工具调用顺序、真实科研代码任务等更接近生产的问题。
训练数据与后训练机制继续变成可优化对象：OpenThoughts-Agent、Holistic Data Scheduler、Pigeonholing/RLVR 说明 agentic data recipe、预训练数据调度、坏上下文鲁棒性正在汇合。

#1. 重点论文/动态解读

#1.1 Qwen-AgentWorld: Language World Models for General Agents

链接：https://arxiv.org/abs/2606.24597
HF 页面：https://huggingface.co/papers/2606.24597
代码：https://github.com/QwenLM/Qwen-AgentWorld
来源/日期：arXiv / Hugging Face Papers，2026-06-23
类别：Model-based RL / LLM Agent / World Model / Agent Training
一句话贡献：提出 Qwen-AgentWorld-35B-A3B 与 397B-A17B，把语言模型训练成能模拟 agentic environment state transition 的“语言世界模型”，并用 1000 万级真实环境交互轨迹支持环境模拟、agentic RL 与 agent warm-up。

为什么值得关注：

这是今天最贴合 wenjun 当前主线的一篇。论文把 world model 在 Agent 中的角色讲得很明确：给定当前 observation 和 action，预测环境动态；然后这个模型既可以作为可控模拟器服务于 RL，也可以作为 agent foundation model 的预训练/热启动阶段。相比很多“LLM as judge / LLM as planner”的工作，Qwen-AgentWorld 直接触及 model-based RL 的关键问题：我们能不能把网页、工具、代码仓库、GUI、任务反馈压成一个可学习的语言状态转移模型？

与 wenjun 方向的关系：

对 Dreamer for LLM Agent：这几乎就是语言版 world model 路线的公开大样本尝试。下一步可追问：latent state 是显式文本 CoT、压缩 memory，还是 hidden-state latent？
对 长轨迹 RL：如果 world model 能模拟中间状态和失败分支，就能做 imagined rollout、curriculum、counterfactual repair。
对 agent 预训练数据塑造能力：10M environment interaction trajectories 是关键资产，值得研究不同轨迹来源、错误轨迹、恢复轨迹如何影响 agent 能力形成。

需要保留的疑问：

语言世界模型的 fidelity 如何随 horizon 衰减？
用 rubric/rule reward 做 world-model RL 是否会让模型学到 evaluator bias？
与真实环境训练相比，模拟训练收益来自多样性、低成本，还是来自 world model 本身的结构化归纳？

#1.2 SAFARI: Scaling Long Horizon Agentic Fault Attribution via Active Investigation

链接：https://arxiv.org/abs/2606.24626
来源/日期：arXiv，2026-06-23
类别：LLM Agent / Long-horizon / Evaluation / Context Management
一句话贡献：提出 SAFARI，用工具化轨迹搜索和短期记忆替代“把完整轨迹塞进上下文”，在长轨迹 Agent failure attribution 中超越传统长上下文诊断方法。

为什么值得关注：

长程 Agent 失败诊断是 agentic RL 和 self-improvement 的前提：如果不知道失败发生在 who/when/why，就无法构造有效的 credit assignment。SAFARI 的核心判断是：长上下文不是万能解，诊断需要主动调查循环。它给 LLM 配备读取/搜索轨迹片段的工具，并维护 STM 跨轮推理，实验声称在 Who&When 和 TRAIL GAIA 子集上显著优于直接加载完整轨迹的方法。

与 wenjun 方向的关系：

对 长轨迹 RL credit assignment：SAFARI 可看作“失败定位 critic”，可为 RL 提供过程级 reward 或 blame signal。
对 通用上下文压缩器：它不是静态摘要，而是 query-driven trajectory investigation，更接近 agent memory controller。
对 self-evolving agent：自动诊断失败轨迹后，才能生成修复经验、反事实数据和 curriculum。

#1.3 Bayesian control for coding agents

链接：https://arxiv.org/abs/2606.24453
来源/日期：arXiv，2026-06-23
类别：Code Agent / Tool-use / Uncertainty / Sequential Decision
一句话贡献：把 coding agent 的工具/验证/停止决策建模为成本敏感的序贯贝叶斯假设检验，用 belief state 决定是否继续收集证据、修改候选、调用昂贵 verifier 或停止。

为什么值得关注：

这篇不是又造一个 coding agent，而是切到一个更底层的问题：orchestrator 如何在不确定性和成本之间做决策？ 现代代码 Agent 常有 cheap diagnostics、expensive verifiers、critic、unit tests、static analyzer 等工具；固定规则很容易浪费 token 或过早停止。Bayesian controller 维护“候选是否正确”的 belief，把工具调用变成信息增益与成本之间的权衡。

与 wenjun 方向的关系：

对 代码 Agent RL：可以把 belief state 当作 latent state，用 RL 学习 verifier 调用策略。
对 model-based RL：belief update 类似 POMDP filtering；未来可让 world model 预测不同工具调用会带来多少信息。
对 代码智能评测：比 pass@1 更细地衡量“什么时候该相信自己、什么时候该运行测试”。

#1.4 SHERLOC: Structured Diagnostic Localization for Code Repair Agents

链接：https://arxiv.org/abs/2606.24820
来源/日期：arXiv，2026-06-23
类别：Code Agent / SWE-bench / Fault Localization / Tool-use
一句话贡献：提出训练免费的代码故障定位框架 SHERLOC，用结构化假设探索和紧凑 repo 工具为 repair agent 提供可执行诊断上下文，在 SWE-Bench Verified 上提升修复率并降低 token。

为什么值得关注：

SWE-bench 类任务里，Agent 大量预算消耗在“找 bug 在哪里”。SHERLOC 的价值在于把定位从“文件检索”提升到“可操作诊断”：不仅返回位置，还返回为什么这里可疑、下一步怎么修。摘要中报告注入定位和诊断后，repair agent 在 SWE-Bench Verified 上平均提升约 5.95 个百分点，同时 localization/总 token 分别下降约 36.7%/23.1%。

与 wenjun 方向的关系：

对 agentic coding：定位、诊断、修复应拆成可学习模块，而不是一个黑盒 CoT。
对 长轨迹 RL：SHERLOC 可提供中间监督信号，缓解最终测试通过/失败的稀疏 reward。
对 self-evolving code agent：经验库里最有价值的不是完整轨迹，而是“症状 → 定位证据 → 修复原则”的结构化记忆。

#1.5 OpenThoughts-Agent: Data Recipes for Agentic Models

链接：https://huggingface.co/papers/2606.24855
来源/日期：Hugging Face Papers，2026-06-24 左右展示
类别：LLM Agent / Agentic Data / Post-training / Tool-use
一句话贡献：围绕 agentic models 的数据配方展开，重点不只是模型结构，而是如何组织可训练的 agent 任务、轨迹、反馈与数据混合。

为什么值得关注：

虽然本次 arXiv 批量接口未能稳定拉取完整摘要，但 HF Daily Papers 已把它列为今日 agent 相关热点。它与 Qwen-AgentWorld、CLI-Universe、Tmax 类工作共同指向一个趋势：Agent 能力越来越像数据工程 + 环境工程 + 后训练算法的组合产物，而不是单纯 prompt engineering。

与 wenjun 方向的关系：

对 agent 预训练数据如何塑造能力：可作为观察 agentic data recipe 的新案例。
对 环境设计催生自演化智能：如果数据配方中包含失败、纠错、工具反馈、多步恢复，可能比单纯成功轨迹更能塑造鲁棒 Agent。
对 长轨迹 RL：值得追踪其是否公开轨迹数据、任务 taxonomy、verifier 和训练细节。

#1.6 Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning

链接：https://arxiv.org/abs/2606.24428
HF 页面：https://huggingface.co/papers/2606.24428
代码：https://github.com/shidingz/EDV
来源/日期：arXiv / Hugging Face Papers，2026-06-23
类别：LLM Agent / Self-evolving Agent / Memory / Experience Learning
一句话贡献：提出 EDV（Execute-Distill-Verify）框架，用多异构 Agent 执行、第三方蒸馏、执行组共识验证来避免 agent 把错误但自洽的轨迹写入经验记忆。

为什么值得关注：

很多 self-improving agent 的最大风险是“自我确认陷阱”：Agent 失败了，但总结出一条看似合理的错误经验，后续检索再强化这个错误。EDV 的结构很清楚：执行者、蒸馏者、验证者解耦，只有通过共识的经验才进入共享/私有 memory。这比简单 reflection 更接近可靠经验学习系统。

与 wenjun 方向的关系：

对 self-evolving code agent：代码 Agent 的经验库尤其容易污染，EDV 可作为经验写入门控。
对 long-horizon Agent RL：经验蒸馏可为轨迹压缩、过程奖励、失败归因提供结构化数据。
对 model-based RL：第三方 distill/verify 也可用于校准 world model 的 imagined trajectories。

#1.7 Are We Ready For An Agent-Native Memory System?

链接：https://arxiv.org/abs/2606.24775
代码：https://github.com/OpenDataBox/MemoryData
来源/日期：arXiv，2026-06-23
类别：LLM Agent / Memory / Systems / Evaluation
一句话贡献：从数据管理视角系统评估 12 个 Agent memory 系统，把 memory 拆成表示存储、抽取、检索路由、维护四个模块，并分析成本、更新、鲁棒性和长期稳定性。

为什么值得关注：

Agent memory 领域过去常用端到端任务成功率评估，导致 memory 本身像黑盒。这篇把 memory 当成系统来拆：表示是否忠实、检索是否精准、更新是否正确、维护是否稳定、成本是否可控。结论也很现实：没有单一架构在所有 workload 上占优，memory 结构必须匹配任务瓶颈。

与 wenjun 方向的关系：

对 通用上下文压缩器：memory 不是“摘要越短越好”，而是要看表示、检索、维护之间的闭环。
对 LLM Agent 长期学习：长期稳定性、局部维护 vs 全局重组是很关键的系统问题。
对 intent understanding：用户状态、任务偏好、长期目标本质上都需要 agent-native memory 支撑。

#1.8 MEMPROBE: Probing Long-Term Agent Memory via Hidden User-State Recovery

链接：https://arxiv.org/abs/2606.24595
来源/日期：arXiv，2026-06-23
类别：LLM Agent / Memory / Evaluation / Personalization
一句话贡献：提出 MEMPROBE，把长期记忆评估转化为“从 agent 留下的 memory artifact 中恢复隐藏用户状态”的可审计任务。

为什么值得关注：

这篇和上一条互补。很多 memory agent 看起来完成任务不错，但并不代表它真的留下了准确、可恢复、可更新的用户状态。MEMPROBE 强调 memory 应该作为 post-interaction artifact 被审计：agent 交互后究竟记住了什么？这些记忆能否重构用户偏好、约束、目标？

与 wenjun 方向的关系：

对 从指令理解走向意图理解：意图不是单轮 prompt，而是跨会话用户状态的动态恢复。
对 Agent 预训练/后训练数据：可构造“用户状态恢复”型训练目标，让 Agent 学会长期建模用户。
对 安全与隐私：可恢复性越高，个性化越强，但隐私风险也越高。

#1.9 Reinforcement Learning for Computer-Use Agents with Autonomous Evaluation

链接：https://arxiv.org/abs/2606.24515
来源/日期：arXiv，2026-06-23
类别：LLM Agent / GUI Agent / Post-training RL / Autonomous Evaluation
一句话贡献：用视觉语言模型根据最终截图和原始指令自动判断 GUI 任务完成情况，并把 noisy binary reward 校正后用于 PPO 训练 Computer-Use Agents。

为什么值得关注：

GUI/Computer-use agent 的 reward 很难写规则，因为成功往往是视觉和状态混合的。此文用 autonomous VLM evaluator 作为可扩展 reward，并显式建模 evaluator 噪声，报告在 macOSWorld、Windows Agent Arena、OSWorld 上相对零样本和原始 evaluator reward 有提升。

与 wenjun 方向的关系：

对 agentic RL：这是“LLM/VLM as evaluator → noisy reward correction → PPO”的直接实例。
对 环境设计：GUI 环境可验证性弱，自动评价器质量会成为训练上限。
对 model-based RL：未来可用世界模型预测 UI 状态变化，再用 evaluator 做 imagined outcome filtering。

#1.10 Pigeonholing: Bad prompts hurt models to collapse and make mistakes

链接：https://arxiv.org/abs/2606.24267
来源/日期：arXiv，2026-06-23
类别：Post-training RL / RLVR / Robustness / Multi-turn Dialogue
一句话贡献：提出“pigeonholing”现象：坏上下文或用户错误暗示会让模型模式坍缩、重复错误、迎合上下文；并用包含 synthetic errors 的 RLVR 缓解。

为什么值得关注：

多轮 Agent 不可避免会把自己的错误、用户误导、工具噪声带入上下文。如果模型倾向于被坏上下文“钉死”，长轨迹任务会出现错误滚雪球。论文摘要称在 10 个可验证/开放任务与 10 个模型上观察到性能下降、答案集合变窄、立场翻转等现象，并报告带 synthetic errors 的 RLVR 相比 vanilla RLVR 有明显改善。

与 wenjun 方向的关系：

对 长轨迹 RL：坏上下文鲁棒性是 horizon 扩展的前提。
对 代码 Agent：用户错误定位、模型早期错误 patch、失败测试解释都可能诱发 pigeonholing。
对 训练机制：需要把“识别并反驳上下文中错误假设”纳入 post-training 数据和 reward。

#2. 其他值得扫一眼的论文/动态

#2.1 NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

链接：https://huggingface.co/papers/2606.24530
来源/日期：Hugging Face Papers，2026-06-24 左右展示
类别：Code Agent / Scientific Coding / Evaluation
一句话贡献：面向 Nature-family 论文中的科研代码/实验复现能力评估 coding agents，关注 agent 是否能接近公开 SOTA。
判断：值得跟进，因为它把 coding agent 从 LeetCode/SWE-bench 推向科研复现；这与 wenjun 的“用 Agent 做研究/实验闭环”高度相关。

#2.2 Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning

链接：https://huggingface.co/papers/2606.24133
来源/日期：Hugging Face Papers，2026-06-24 左右展示
类别：Pretraining Data / Reinforcement Learning / Data Mixture
一句话贡献：用多目标强化学习做 LLM 预训练数据调度，尝试把数据混合比例从静态人工配方变成可优化策略。
判断：与 wenjun 关注的基础模型训练机制、数据质量、能力形成直接相关。核心问题是 reward 如何定义：短期验证集收益、长期能力、领域泛化、公平性是否会冲突？

#2.3 Can Scale Save Us From Plasticity Loss in Large Language Models?

链接：https://arxiv.org/abs/2606.24752
来源/日期：arXiv，2026-06-23
类别：Continual Learning / Foundation Model Training / Plasticity
一句话贡献：研究 Transformer LLM 在多语言持续学习中的 plasticity loss，发现增大模型能延迟但不足以完全避免可塑性下降。
判断：对持续预训练非常重要：如果 plasticity loss 随训练步数/数据阶段累积，那么只靠规模可能无法解决“后续新数据学不动”的问题。

#2.4 MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization

链接：https://huggingface.co/papers/2606.19930
来源/日期：Hugging Face Papers，近 3–7 天内持续热度
类别：LLM Agent / GUI Agent / Post-training RL
一句话贡献：面向手机 GUI Agent 的无标注适配，用层级反馈引导策略优化。
判断：和 Computer-Use RL 一样，关键在自动反馈质量与层级 credit assignment。

#2.5 MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

链接：https://huggingface.co/papers/2606.19926
来源/日期：Hugging Face Papers，近 3–7 天内持续热度
类别：LLM Agent / GUI Agent / Memory / Context Management
一句话贡献：强调移动 GUI 长程任务中的 proactive context management。
判断：可和 SAFARI、Agent-native Memory 系列一起看，形成“长轨迹上下文控制”专题。

#2.6 AGORA: An Archive-Grounded Benchmark for Agentic Workplace Document Reasoning

链接：https://huggingface.co/papers/2606.24526
来源/日期：Hugging Face Papers，2026-06-24 左右展示
类别：LLM Agent / RAG / Workplace / Evaluation
一句话贡献：构造 archive-grounded workplace document reasoning benchmark，评估 Agent 在真实文档库中的检索、推理和证据使用。
判断：对企业 Agent、长期记忆、文档工作流有参考价值。

#2.7 Governed Shared Memory for Multi-Agent LLM Systems

链接：https://arxiv.org/abs/2606.24535
来源/日期：arXiv，2026-06-23
类别：Multi-Agent / Memory / Systems / Governance
一句话贡献：形式化 multi-agent fleet memory 的泄露、过期传播、矛盾持久化、 provenance collapse 等失效模式，并用 MemClaw/ArgusFleet 做生产系统评估。
判断：如果 wenjun 后续做多 Agent 协作/自演化系统，这类 memory governance 会比单 Agent RAG 更重要。

#2.8 FlowPipe: LLM-Enhanced Conditional Generative Flow Networks for Data Preparation Pipeline Construction

链接：https://arxiv.org/abs/2606.24679
代码：https://github.com/KunyuNi/FlowPipe
来源/日期：arXiv，2026-06-23
类别：Tool-use / Data Pipeline / GFlowNet / Long-horizon Credit Assignment
一句话贡献：把数据准备 pipeline 构造建模为 conditional GFlowNet，用 trajectory balance 连接终端验证奖励与早期决策，并注入 LLM 语义先验。
判断：不是 LLM Agent 主线，但它对“组合式工具链 + 稀疏终端 reward + 长程 credit assignment”很有启发。

#2.9 Detecting AI Coding Agents in Open Source: A Validated Multi-Method Census of 180 Million Repositories

链接：arXiv 条目来自 2026-06-23 cs.SE 抓取结果，可从标题检索 arXiv
来源/日期：arXiv，2026-06-23
类别：Code Agent / Open Source / Measurement
一句话贡献：对 1.8 亿 Git 仓库进行多方法 census，识别开源供应链中的 AI coding agent 痕迹。
判断：这类 measurement 研究能帮助判断 coding agent 真实采用形态，而不是只看 benchmark。

#2.10 DREAM: Dense Retrieval Embeddings via Autoregressive Modeling

链接：https://huggingface.co/papers/2606.24667
来源/日期：Hugging Face Papers，2026-06-24 左右展示
类别：Retrieval / Embedding / RAG
一句话贡献：通过 autoregressive modeling 学习 dense retrieval embeddings。
判断：可作为 Agent memory / RAG 基础组件关注，尤其是长程记忆检索质量问题。

#3. 今日最值得精读的 3 篇

Qwen-AgentWorld: Language World Models for General Agents

- 精读理由：最贴近 wenjun 的 model-based RL / Dreamer for LLM Agent 主线；建议重点看数据来源、训练三阶段、AgentWorldBench、simulator 用于 RL 的实验。

Bayesian control for coding agents

- 精读理由：给 coding agent 的 orchestration 提供了清晰决策论框架；可迁移到“何时检索、何时运行测试、何时继续探索、何时停止”的通用 Agent 控制问题。

SAFARI: Scaling Long Horizon Agentic Fault Attribution via Active Investigation

- 精读理由：长轨迹 Agent 的失败归因是 RL/self-improvement 前置模块；可与 memory、context compression、process reward 结合。

备选精读：如果今天想看 self-evolving agent，可读 EDV；如果想看长期记忆系统，可读 Are We Ready For An Agent-Native Memory System?。

#4. 今日最值得跟进的 3 个 repo/model/dataset

Qwen-AgentWorld

- 链接：https://github.com/QwenLM/Qwen-AgentWorld

- 跟进点：是否公开 trajectory 数据、AgentWorldBench、训练脚本、world-model rollout 接口；如果开放，优先看能否作为 LLM Agent model-based RL baseline。

EDV

- 链接：https://github.com/shidingz/EDV

- 跟进点：experience distillation/verification 的数据结构，能否迁移到 code agent 的 bug-fix 经验库，能否和失败归因工具合并。

MemoryData

- 链接：https://github.com/OpenDataBox/MemoryData

- 跟进点：12 个 memory systems 的评测 workload、模块化 ablation、成本/稳定性指标；适合作为 agent memory survey 的核心材料。

补充可关注：

FlowPipe：https://github.com/KunyuNi/FlowPipe ，关注 GFlowNet + LLM prior + terminal reward 的组合式 pipeline 搜索。
latent-bridge-games：https://github.com/19PINE-AI/latent-bridge-games ，GitHub 检索到的 latent slow→fast bridge 项目，声称连接慢思考模型和快执行模型，值得观察但需要进一步核验论文和实验质量。

#5. 研究机会 / Idea

#Idea 1：把 Qwen-AgentWorld 路线推进到“latent world model for code/terminal agents”

当前 Qwen-AgentWorld 仍以语言状态转移为主。一个很自然的问题是：

对代码/终端 Agent，能否学习一个 latent state world model，预测“执行命令/编辑文件/运行测试”后的关键状态变化，而不是完整文本输出？

可做的实验：

从 SWE-bench、Terminal-Bench、CLI-Universe/Tmax 类轨迹中抽取 (state, action, observation, test_result)；
用文本 world model 预测下一步 observation，同时训练 latent bottleneck 预测关键变量：失败测试、相关文件、错误类型、是否接近解决；
比较 imagined rollout 对真实 RL 或 search 的帮助：是否能减少昂贵真实执行次数？

这正好连接 wenjun 的 Dreamer for LLM Agent + code intelligence。

#Idea 2：用“失败归因 + 贝叶斯控制”统一长轨迹 Agent 的 credit assignment

SAFARI 负责在轨迹中定位失败，Bayesian control 负责在执行中做成本敏感决策。可以把二者合成一个训练框架：

在线阶段：Agent 维护 belief state，决定是否继续探索、调用工具、运行 verifier；
离线阶段：SAFARI 式诊断器标注失败发生点、错误假设、误导工具调用；
训练阶段：把这些标注转为 process reward / critic target。

关键问题：belief state 是否可以成为 RL 的 compact state？失败归因是否能稳定转化为 step-level advantage？

#Idea 3：Agent memory 的目标从“记更多”改成“可审计地恢复任务/用户状态”

Agent-native Memory 和 MEMPROBE 共同说明，memory 的关键不是存储量，而是可恢复的 state。可以做一个面向科研/代码 Agent 的 memory benchmark：

隐藏状态包括：项目结构、用户偏好、实验假设、失败结论、长期 research thread；
Agent 经过多轮任务后，只给 memory artifact，要求恢复这些 hidden state；
指标区分 fidelity、staleness、contradiction、privacy leakage。

这会比“下一轮回答是否正确”更适合评估长期科研助手。

#6. 快速阅读路线

如果今天只有 30 分钟：

先读 Qwen-AgentWorld 摘要、方法图、训练数据和 RL/simulation 实验；
再读 Bayesian control 的 problem formulation，看它如何定义 belief、cost、stop/refine/verify；
最后扫 SAFARI 和 EDV，把它们放进“失败诊断 → 经验蒸馏 → 可靠记忆写入”的 pipeline。

如果要写成后续专题，建议题目是：

从 Tool-use 到 World Model：LLM Agent 的下一阶段训练范式

核心论点：Agent 能力提升的主战场正在从 prompt/orchestration 转向 环境轨迹数据、世界模型、可验证反馈、长期状态管理和决策控制层。