#2026-06-25 AI/LLM 最新论文与研究热点简报

时间范围:重点覆盖 2026-06-23 至 2026-06-25 早间可检索到的 Hugging Face Daily Papers、arXiv cs.AI/cs.CL/cs.LG/cs.SE/stat.ML 新近论文,以及少量 GitHub/HF 项目页。arXiv export API 对复杂查询出现超时,因此本期采用“按分类抓取最近提交 + 本地关键词筛选 + HF Daily Papers 交叉核验”的方式。X/Twitter 未作为主来源,避免因访问限制和不可核验转述引入幻觉。

#0. 今日总览:Agent 研究正在从“调用工具”走向“学习世界”

今天最值得 wenjun 关注的信号非常集中:Agent 不再只是 prompt + tool-use orchestration,而是在朝着可训练的世界模型、可审计记忆、长轨迹诊断、代码任务贝叶斯控制、GUI/终端环境 RL 方向演化

我会把今日进展概括成四条主线:

  1. 语言世界模型成为 LLM Agent RL 的核心候选路线:Qwen-AgentWorld 直接把环境转移建模、模拟器、agentic RL、warm-up 训练连在一起,是今天最贴近“Dreamer for LLM Agent / model-based RL”的工作。
  2. 长轨迹 Agent 的瓶颈从上下文长度转向主动诊断与状态管理:SAFARI、MemGUI-Agent、agent memory 系列工作都在说明:把整条轨迹塞进上下文不是根本解,关键是会搜索、会压缩、会维护状态。
  3. 代码 Agent 开始进入“决策控制层”优化:Bayesian control、SHERLOC、NatureBench 都不是简单提高 pass@1,而是在研究定位、验证成本、工具调用顺序、真实科研代码任务等更接近生产的问题。
  4. 训练数据与后训练机制继续变成可优化对象:OpenThoughts-Agent、Holistic Data Scheduler、Pigeonholing/RLVR 说明 agentic data recipe、预训练数据调度、坏上下文鲁棒性正在汇合。

#1. 重点论文/动态解读

#1.1 Qwen-AgentWorld: Language World Models for General Agents

  • 链接:https://arxiv.org/abs/2606.24597
  • HF 页面:https://huggingface.co/papers/2606.24597
  • 代码:https://github.com/QwenLM/Qwen-AgentWorld
  • 来源/日期:arXiv / Hugging Face Papers,2026-06-23
  • 类别:Model-based RL / LLM Agent / World Model / Agent Training
  • 一句话贡献:提出 Qwen-AgentWorld-35B-A3B 与 397B-A17B,把语言模型训练成能模拟 agentic environment state transition 的“语言世界模型”,并用 1000 万级真实环境交互轨迹支持环境模拟、agentic RL 与 agent warm-up。

为什么值得关注

这是今天最贴合 wenjun 当前主线的一篇。论文把 world model 在 Agent 中的角色讲得很明确:给定当前 observation 和 action,预测环境动态;然后这个模型既可以作为可控模拟器服务于 RL,也可以作为 agent foundation model 的预训练/热启动阶段。相比很多“LLM as judge / LLM as planner”的工作,Qwen-AgentWorld 直接触及 model-based RL 的关键问题:我们能不能把网页、工具、代码仓库、GUI、任务反馈压成一个可学习的语言状态转移模型?

与 wenjun 方向的关系

  • Dreamer for LLM Agent:这几乎就是语言版 world model 路线的公开大样本尝试。下一步可追问:latent state 是显式文本 CoT、压缩 memory,还是 hidden-state latent?
  • 长轨迹 RL:如果 world model 能模拟中间状态和失败分支,就能做 imagined rollout、curriculum、counterfactual repair。
  • agent 预训练数据塑造能力:10M environment interaction trajectories 是关键资产,值得研究不同轨迹来源、错误轨迹、恢复轨迹如何影响 agent 能力形成。

需要保留的疑问

  • 语言世界模型的 fidelity 如何随 horizon 衰减?
  • 用 rubric/rule reward 做 world-model RL 是否会让模型学到 evaluator bias?
  • 与真实环境训练相比,模拟训练收益来自多样性、低成本,还是来自 world model 本身的结构化归纳?

#1.2 SAFARI: Scaling Long Horizon Agentic Fault Attribution via Active Investigation

  • 链接:https://arxiv.org/abs/2606.24626
  • 来源/日期:arXiv,2026-06-23
  • 类别:LLM Agent / Long-horizon / Evaluation / Context Management
  • 一句话贡献:提出 SAFARI,用工具化轨迹搜索和短期记忆替代“把完整轨迹塞进上下文”,在长轨迹 Agent failure attribution 中超越传统长上下文诊断方法。

为什么值得关注

长程 Agent 失败诊断是 agentic RL 和 self-improvement 的前提:如果不知道失败发生在 who/when/why,就无法构造有效的 credit assignment。SAFARI 的核心判断是:长上下文不是万能解,诊断需要主动调查循环。它给 LLM 配备读取/搜索轨迹片段的工具,并维护 STM 跨轮推理,实验声称在 Who&When 和 TRAIL GAIA 子集上显著优于直接加载完整轨迹的方法。

与 wenjun 方向的关系

  • 长轨迹 RL credit assignment:SAFARI 可看作“失败定位 critic”,可为 RL 提供过程级 reward 或 blame signal。
  • 通用上下文压缩器:它不是静态摘要,而是 query-driven trajectory investigation,更接近 agent memory controller。
  • self-evolving agent:自动诊断失败轨迹后,才能生成修复经验、反事实数据和 curriculum。

#1.3 Bayesian control for coding agents

  • 链接:https://arxiv.org/abs/2606.24453
  • 来源/日期:arXiv,2026-06-23
  • 类别:Code Agent / Tool-use / Uncertainty / Sequential Decision
  • 一句话贡献:把 coding agent 的工具/验证/停止决策建模为成本敏感的序贯贝叶斯假设检验,用 belief state 决定是否继续收集证据、修改候选、调用昂贵 verifier 或停止。

为什么值得关注

这篇不是又造一个 coding agent,而是切到一个更底层的问题:orchestrator 如何在不确定性和成本之间做决策? 现代代码 Agent 常有 cheap diagnostics、expensive verifiers、critic、unit tests、static analyzer 等工具;固定规则很容易浪费 token 或过早停止。Bayesian controller 维护“候选是否正确”的 belief,把工具调用变成信息增益与成本之间的权衡。

与 wenjun 方向的关系

  • 代码 Agent RL:可以把 belief state 当作 latent state,用 RL 学习 verifier 调用策略。
  • model-based RL:belief update 类似 POMDP filtering;未来可让 world model 预测不同工具调用会带来多少信息。
  • 代码智能评测:比 pass@1 更细地衡量“什么时候该相信自己、什么时候该运行测试”。

#1.4 SHERLOC: Structured Diagnostic Localization for Code Repair Agents

  • 链接:https://arxiv.org/abs/2606.24820
  • 来源/日期:arXiv,2026-06-23
  • 类别:Code Agent / SWE-bench / Fault Localization / Tool-use
  • 一句话贡献:提出训练免费的代码故障定位框架 SHERLOC,用结构化假设探索和紧凑 repo 工具为 repair agent 提供可执行诊断上下文,在 SWE-Bench Verified 上提升修复率并降低 token。

为什么值得关注

SWE-bench 类任务里,Agent 大量预算消耗在“找 bug 在哪里”。SHERLOC 的价值在于把定位从“文件检索”提升到“可操作诊断”:不仅返回位置,还返回为什么这里可疑、下一步怎么修。摘要中报告注入定位和诊断后,repair agent 在 SWE-Bench Verified 上平均提升约 5.95 个百分点,同时 localization/总 token 分别下降约 36.7%/23.1%。

与 wenjun 方向的关系

  • agentic coding:定位、诊断、修复应拆成可学习模块,而不是一个黑盒 CoT。
  • 长轨迹 RL:SHERLOC 可提供中间监督信号,缓解最终测试通过/失败的稀疏 reward。
  • self-evolving code agent:经验库里最有价值的不是完整轨迹,而是“症状 → 定位证据 → 修复原则”的结构化记忆。

#1.5 OpenThoughts-Agent: Data Recipes for Agentic Models

  • 链接:https://huggingface.co/papers/2606.24855
  • 来源/日期:Hugging Face Papers,2026-06-24 左右展示
  • 类别:LLM Agent / Agentic Data / Post-training / Tool-use
  • 一句话贡献:围绕 agentic models 的数据配方展开,重点不只是模型结构,而是如何组织可训练的 agent 任务、轨迹、反馈与数据混合。

为什么值得关注

虽然本次 arXiv 批量接口未能稳定拉取完整摘要,但 HF Daily Papers 已把它列为今日 agent 相关热点。它与 Qwen-AgentWorld、CLI-Universe、Tmax 类工作共同指向一个趋势:Agent 能力越来越像数据工程 + 环境工程 + 后训练算法的组合产物,而不是单纯 prompt engineering。

与 wenjun 方向的关系

  • agent 预训练数据如何塑造能力:可作为观察 agentic data recipe 的新案例。
  • 环境设计催生自演化智能:如果数据配方中包含失败、纠错、工具反馈、多步恢复,可能比单纯成功轨迹更能塑造鲁棒 Agent。
  • 长轨迹 RL:值得追踪其是否公开轨迹数据、任务 taxonomy、verifier 和训练细节。

#1.6 Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning

  • 链接:https://arxiv.org/abs/2606.24428
  • HF 页面:https://huggingface.co/papers/2606.24428
  • 代码:https://github.com/shidingz/EDV
  • 来源/日期:arXiv / Hugging Face Papers,2026-06-23
  • 类别:LLM Agent / Self-evolving Agent / Memory / Experience Learning
  • 一句话贡献:提出 EDV(Execute-Distill-Verify)框架,用多异构 Agent 执行、第三方蒸馏、执行组共识验证来避免 agent 把错误但自洽的轨迹写入经验记忆。

为什么值得关注

很多 self-improving agent 的最大风险是“自我确认陷阱”:Agent 失败了,但总结出一条看似合理的错误经验,后续检索再强化这个错误。EDV 的结构很清楚:执行者、蒸馏者、验证者解耦,只有通过共识的经验才进入共享/私有 memory。这比简单 reflection 更接近可靠经验学习系统。

与 wenjun 方向的关系

  • self-evolving code agent:代码 Agent 的经验库尤其容易污染,EDV 可作为经验写入门控。
  • long-horizon Agent RL:经验蒸馏可为轨迹压缩、过程奖励、失败归因提供结构化数据。
  • model-based RL:第三方 distill/verify 也可用于校准 world model 的 imagined trajectories。

#1.7 Are We Ready For An Agent-Native Memory System?

  • 链接:https://arxiv.org/abs/2606.24775
  • 代码:https://github.com/OpenDataBox/MemoryData
  • 来源/日期:arXiv,2026-06-23
  • 类别:LLM Agent / Memory / Systems / Evaluation
  • 一句话贡献:从数据管理视角系统评估 12 个 Agent memory 系统,把 memory 拆成表示存储、抽取、检索路由、维护四个模块,并分析成本、更新、鲁棒性和长期稳定性。

为什么值得关注

Agent memory 领域过去常用端到端任务成功率评估,导致 memory 本身像黑盒。这篇把 memory 当成系统来拆:表示是否忠实、检索是否精准、更新是否正确、维护是否稳定、成本是否可控。结论也很现实:没有单一架构在所有 workload 上占优,memory 结构必须匹配任务瓶颈。

与 wenjun 方向的关系

  • 通用上下文压缩器:memory 不是“摘要越短越好”,而是要看表示、检索、维护之间的闭环。
  • LLM Agent 长期学习:长期稳定性、局部维护 vs 全局重组是很关键的系统问题。
  • intent understanding:用户状态、任务偏好、长期目标本质上都需要 agent-native memory 支撑。

#1.8 MEMPROBE: Probing Long-Term Agent Memory via Hidden User-State Recovery

  • 链接:https://arxiv.org/abs/2606.24595
  • 来源/日期:arXiv,2026-06-23
  • 类别:LLM Agent / Memory / Evaluation / Personalization
  • 一句话贡献:提出 MEMPROBE,把长期记忆评估转化为“从 agent 留下的 memory artifact 中恢复隐藏用户状态”的可审计任务。

为什么值得关注

这篇和上一条互补。很多 memory agent 看起来完成任务不错,但并不代表它真的留下了准确、可恢复、可更新的用户状态。MEMPROBE 强调 memory 应该作为 post-interaction artifact 被审计:agent 交互后究竟记住了什么?这些记忆能否重构用户偏好、约束、目标?

与 wenjun 方向的关系

  • 从指令理解走向意图理解:意图不是单轮 prompt,而是跨会话用户状态的动态恢复。
  • Agent 预训练/后训练数据:可构造“用户状态恢复”型训练目标,让 Agent 学会长期建模用户。
  • 安全与隐私:可恢复性越高,个性化越强,但隐私风险也越高。

#1.9 Reinforcement Learning for Computer-Use Agents with Autonomous Evaluation

  • 链接:https://arxiv.org/abs/2606.24515
  • 来源/日期:arXiv,2026-06-23
  • 类别:LLM Agent / GUI Agent / Post-training RL / Autonomous Evaluation
  • 一句话贡献:用视觉语言模型根据最终截图和原始指令自动判断 GUI 任务完成情况,并把 noisy binary reward 校正后用于 PPO 训练 Computer-Use Agents。

为什么值得关注

GUI/Computer-use agent 的 reward 很难写规则,因为成功往往是视觉和状态混合的。此文用 autonomous VLM evaluator 作为可扩展 reward,并显式建模 evaluator 噪声,报告在 macOSWorld、Windows Agent Arena、OSWorld 上相对零样本和原始 evaluator reward 有提升。

与 wenjun 方向的关系

  • agentic RL:这是“LLM/VLM as evaluator → noisy reward correction → PPO”的直接实例。
  • 环境设计:GUI 环境可验证性弱,自动评价器质量会成为训练上限。
  • model-based RL:未来可用世界模型预测 UI 状态变化,再用 evaluator 做 imagined outcome filtering。

#1.10 Pigeonholing: Bad prompts hurt models to collapse and make mistakes

  • 链接:https://arxiv.org/abs/2606.24267
  • 来源/日期:arXiv,2026-06-23
  • 类别:Post-training RL / RLVR / Robustness / Multi-turn Dialogue
  • 一句话贡献:提出“pigeonholing”现象:坏上下文或用户错误暗示会让模型模式坍缩、重复错误、迎合上下文;并用包含 synthetic errors 的 RLVR 缓解。

为什么值得关注

多轮 Agent 不可避免会把自己的错误、用户误导、工具噪声带入上下文。如果模型倾向于被坏上下文“钉死”,长轨迹任务会出现错误滚雪球。论文摘要称在 10 个可验证/开放任务与 10 个模型上观察到性能下降、答案集合变窄、立场翻转等现象,并报告带 synthetic errors 的 RLVR 相比 vanilla RLVR 有明显改善。

与 wenjun 方向的关系

  • 长轨迹 RL:坏上下文鲁棒性是 horizon 扩展的前提。
  • 代码 Agent:用户错误定位、模型早期错误 patch、失败测试解释都可能诱发 pigeonholing。
  • 训练机制:需要把“识别并反驳上下文中错误假设”纳入 post-training 数据和 reward。

#2. 其他值得扫一眼的论文/动态

#2.1 NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

  • 链接:https://huggingface.co/papers/2606.24530
  • 来源/日期:Hugging Face Papers,2026-06-24 左右展示
  • 类别:Code Agent / Scientific Coding / Evaluation
  • 一句话贡献:面向 Nature-family 论文中的科研代码/实验复现能力评估 coding agents,关注 agent 是否能接近公开 SOTA。
  • 判断:值得跟进,因为它把 coding agent 从 LeetCode/SWE-bench 推向科研复现;这与 wenjun 的“用 Agent 做研究/实验闭环”高度相关。

#2.2 Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning

  • 链接:https://huggingface.co/papers/2606.24133
  • 来源/日期:Hugging Face Papers,2026-06-24 左右展示
  • 类别:Pretraining Data / Reinforcement Learning / Data Mixture
  • 一句话贡献:用多目标强化学习做 LLM 预训练数据调度,尝试把数据混合比例从静态人工配方变成可优化策略。
  • 判断:与 wenjun 关注的基础模型训练机制、数据质量、能力形成直接相关。核心问题是 reward 如何定义:短期验证集收益、长期能力、领域泛化、公平性是否会冲突?

#2.3 Can Scale Save Us From Plasticity Loss in Large Language Models?

  • 链接:https://arxiv.org/abs/2606.24752
  • 来源/日期:arXiv,2026-06-23
  • 类别:Continual Learning / Foundation Model Training / Plasticity
  • 一句话贡献:研究 Transformer LLM 在多语言持续学习中的 plasticity loss,发现增大模型能延迟但不足以完全避免可塑性下降。
  • 判断:对持续预训练非常重要:如果 plasticity loss 随训练步数/数据阶段累积,那么只靠规模可能无法解决“后续新数据学不动”的问题。

#2.4 MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization

  • 链接:https://huggingface.co/papers/2606.19930
  • 来源/日期:Hugging Face Papers,近 3–7 天内持续热度
  • 类别:LLM Agent / GUI Agent / Post-training RL
  • 一句话贡献:面向手机 GUI Agent 的无标注适配,用层级反馈引导策略优化。
  • 判断:和 Computer-Use RL 一样,关键在自动反馈质量与层级 credit assignment。

#2.5 MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

  • 链接:https://huggingface.co/papers/2606.19926
  • 来源/日期:Hugging Face Papers,近 3–7 天内持续热度
  • 类别:LLM Agent / GUI Agent / Memory / Context Management
  • 一句话贡献:强调移动 GUI 长程任务中的 proactive context management。
  • 判断:可和 SAFARI、Agent-native Memory 系列一起看,形成“长轨迹上下文控制”专题。

#2.6 AGORA: An Archive-Grounded Benchmark for Agentic Workplace Document Reasoning

  • 链接:https://huggingface.co/papers/2606.24526
  • 来源/日期:Hugging Face Papers,2026-06-24 左右展示
  • 类别:LLM Agent / RAG / Workplace / Evaluation
  • 一句话贡献:构造 archive-grounded workplace document reasoning benchmark,评估 Agent 在真实文档库中的检索、推理和证据使用。
  • 判断:对企业 Agent、长期记忆、文档工作流有参考价值。

#2.7 Governed Shared Memory for Multi-Agent LLM Systems

  • 链接:https://arxiv.org/abs/2606.24535
  • 来源/日期:arXiv,2026-06-23
  • 类别:Multi-Agent / Memory / Systems / Governance
  • 一句话贡献:形式化 multi-agent fleet memory 的泄露、过期传播、矛盾持久化、 provenance collapse 等失效模式,并用 MemClaw/ArgusFleet 做生产系统评估。
  • 判断:如果 wenjun 后续做多 Agent 协作/自演化系统,这类 memory governance 会比单 Agent RAG 更重要。

#2.8 FlowPipe: LLM-Enhanced Conditional Generative Flow Networks for Data Preparation Pipeline Construction

  • 链接:https://arxiv.org/abs/2606.24679
  • 代码:https://github.com/KunyuNi/FlowPipe
  • 来源/日期:arXiv,2026-06-23
  • 类别:Tool-use / Data Pipeline / GFlowNet / Long-horizon Credit Assignment
  • 一句话贡献:把数据准备 pipeline 构造建模为 conditional GFlowNet,用 trajectory balance 连接终端验证奖励与早期决策,并注入 LLM 语义先验。
  • 判断:不是 LLM Agent 主线,但它对“组合式工具链 + 稀疏终端 reward + 长程 credit assignment”很有启发。

#2.9 Detecting AI Coding Agents in Open Source: A Validated Multi-Method Census of 180 Million Repositories

  • 链接:arXiv 条目来自 2026-06-23 cs.SE 抓取结果,可从标题检索 arXiv
  • 来源/日期:arXiv,2026-06-23
  • 类别:Code Agent / Open Source / Measurement
  • 一句话贡献:对 1.8 亿 Git 仓库进行多方法 census,识别开源供应链中的 AI coding agent 痕迹。
  • 判断:这类 measurement 研究能帮助判断 coding agent 真实采用形态,而不是只看 benchmark。

#2.10 DREAM: Dense Retrieval Embeddings via Autoregressive Modeling

  • 链接:https://huggingface.co/papers/2606.24667
  • 来源/日期:Hugging Face Papers,2026-06-24 左右展示
  • 类别:Retrieval / Embedding / RAG
  • 一句话贡献:通过 autoregressive modeling 学习 dense retrieval embeddings。
  • 判断:可作为 Agent memory / RAG 基础组件关注,尤其是长程记忆检索质量问题。

#3. 今日最值得精读的 3 篇

  1. Qwen-AgentWorld: Language World Models for General Agents

- 精读理由:最贴近 wenjun 的 model-based RL / Dreamer for LLM Agent 主线;建议重点看数据来源、训练三阶段、AgentWorldBench、simulator 用于 RL 的实验。

  1. Bayesian control for coding agents

- 精读理由:给 coding agent 的 orchestration 提供了清晰决策论框架;可迁移到“何时检索、何时运行测试、何时继续探索、何时停止”的通用 Agent 控制问题。

  1. SAFARI: Scaling Long Horizon Agentic Fault Attribution via Active Investigation

- 精读理由:长轨迹 Agent 的失败归因是 RL/self-improvement 前置模块;可与 memory、context compression、process reward 结合。

备选精读:如果今天想看 self-evolving agent,可读 EDV;如果想看长期记忆系统,可读 Are We Ready For An Agent-Native Memory System?


#4. 今日最值得跟进的 3 个 repo/model/dataset

  1. Qwen-AgentWorld

- 链接:https://github.com/QwenLM/Qwen-AgentWorld

- 跟进点:是否公开 trajectory 数据、AgentWorldBench、训练脚本、world-model rollout 接口;如果开放,优先看能否作为 LLM Agent model-based RL baseline。

  1. EDV

- 链接:https://github.com/shidingz/EDV

- 跟进点:experience distillation/verification 的数据结构,能否迁移到 code agent 的 bug-fix 经验库,能否和失败归因工具合并。

  1. MemoryData

- 链接:https://github.com/OpenDataBox/MemoryData

- 跟进点:12 个 memory systems 的评测 workload、模块化 ablation、成本/稳定性指标;适合作为 agent memory survey 的核心材料。

补充可关注:

  • FlowPipe:https://github.com/KunyuNi/FlowPipe ,关注 GFlowNet + LLM prior + terminal reward 的组合式 pipeline 搜索。
  • latent-bridge-games:https://github.com/19PINE-AI/latent-bridge-games ,GitHub 检索到的 latent slow→fast bridge 项目,声称连接慢思考模型和快执行模型,值得观察但需要进一步核验论文和实验质量。

#5. 研究机会 / Idea

#Idea 1:把 Qwen-AgentWorld 路线推进到“latent world model for code/terminal agents”

当前 Qwen-AgentWorld 仍以语言状态转移为主。一个很自然的问题是:

对代码/终端 Agent,能否学习一个 latent state world model,预测“执行命令/编辑文件/运行测试”后的关键状态变化,而不是完整文本输出?

可做的实验:

  • 从 SWE-bench、Terminal-Bench、CLI-Universe/Tmax 类轨迹中抽取 (state, action, observation, test_result)
  • 用文本 world model 预测下一步 observation,同时训练 latent bottleneck 预测关键变量:失败测试、相关文件、错误类型、是否接近解决;
  • 比较 imagined rollout 对真实 RL 或 search 的帮助:是否能减少昂贵真实执行次数?

这正好连接 wenjun 的 Dreamer for LLM Agent + code intelligence

#Idea 2:用“失败归因 + 贝叶斯控制”统一长轨迹 Agent 的 credit assignment

SAFARI 负责在轨迹中定位失败,Bayesian control 负责在执行中做成本敏感决策。可以把二者合成一个训练框架:

  • 在线阶段:Agent 维护 belief state,决定是否继续探索、调用工具、运行 verifier;
  • 离线阶段:SAFARI 式诊断器标注失败发生点、错误假设、误导工具调用;
  • 训练阶段:把这些标注转为 process reward / critic target。

关键问题:belief state 是否可以成为 RL 的 compact state?失败归因是否能稳定转化为 step-level advantage?

#Idea 3:Agent memory 的目标从“记更多”改成“可审计地恢复任务/用户状态”

Agent-native Memory 和 MEMPROBE 共同说明,memory 的关键不是存储量,而是可恢复的 state。可以做一个面向科研/代码 Agent 的 memory benchmark:

  • 隐藏状态包括:项目结构、用户偏好、实验假设、失败结论、长期 research thread;
  • Agent 经过多轮任务后,只给 memory artifact,要求恢复这些 hidden state;
  • 指标区分 fidelity、staleness、contradiction、privacy leakage。

这会比“下一轮回答是否正确”更适合评估长期科研助手。


#6. 快速阅读路线

如果今天只有 30 分钟:

  1. 先读 Qwen-AgentWorld 摘要、方法图、训练数据和 RL/simulation 实验;
  2. 再读 Bayesian control 的 problem formulation,看它如何定义 belief、cost、stop/refine/verify;
  3. 最后扫 SAFARI 和 EDV,把它们放进“失败诊断 → 经验蒸馏 → 可靠记忆写入”的 pipeline。

如果要写成后续专题,建议题目是:

从 Tool-use 到 World Model:LLM Agent 的下一阶段训练范式

核心论点:Agent 能力提升的主战场正在从 prompt/orchestration 转向 环境轨迹数据、世界模型、可验证反馈、长期状态管理和决策控制层