#2026-05-29 AI/LLM 最新论文与研究热点简报

时间范围:主要覆盖 Hugging Face Daily Papers 在 2026-05-28 收录、论文发布日期集中在 2026-05-27 左右的工作;少数高相关条目扩展到 2026-05-23—05-26。

检索来源:Hugging Face Daily Papers、论文 arXiv 页面、项目页 / GitHub / Hugging Face datasets API。arXiv export API 本次访问触发 429 限流,因此以 HF Daily Papers 抽取的元数据与论文链接为主;X/Twitter 网页可打开但缺少稳定无需登录的结构化检索接口,本次未把 X 作为主来源。

#一句话总览

今天最值得关注的主线不是“又一个单点 benchmark SOTA”,而是 Agent 能力形成的训练闭环:多智能体 world model、工具使用 RL、失败轨迹自举、自演化搜索、GUI/Computer-use 中训练、记忆系统错误归因、研究 Agent 可验证性等工作同时出现,说明社区正在把 Agent 从 prompt/scaffold 工程推进到“可训练、可诊断、可复用环境反馈”的阶段。


#重点论文与动态筛选

#1. Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

  • 类别:Model-based RL / World Model / LLM Agent / Multi-agent
  • 来源与日期:Hugging Face Daily Papers;论文发布日期 2026-05-27,HF Daily 收录 2026-05-28
  • 链接HF / arXiv / 项目页
  • 一句话核心贡献:提出面向多智能体交互视频模拟的 generative world model,用 Simplex Rotary Agent Encoding 保持 agent 身份的置换对称性,用 Sparse Hub Attention 将跨 agent 注意力从二次降到线性,并通过 diffusion teacher → causal student 蒸馏实现 24 FPS action-responsive rollout。

为什么值得关注

这篇非常贴近 wenjun 关注的 “LLM model-based RL / Dreamer for LLM Agent” 方向。虽然论文对象是视觉/虚拟环境 world model,不是纯文本 LLM Agent,但它回答了一个 model-based agent 共同难题:当多个 agent 同时行动时,世界模型如何既区分 agent 身份,又不把身份顺序硬编码进模型?Simplex RoPE 的设计很像把 agent identity 放进连续相位空间,同时保持 permutation-equivalence;Sparse Hub Attention 则把多 agent 交互建模从 dense all-to-all 改成 hub-mediated message passing。

与 wenjun 方向关系

  • 如果把 “视频帧 token” 替换成 “环境状态 / observation / tool trace token”,这套设计可迁移到多 LLM Agent 的 learned simulator:agent identity encoding、共享 hub state、低成本跨 agent communication。
  • 对长轨迹 RL 来说,teacher world model distillation 成 causal rollout model 的路径,类似为 agent RL 准备可并行 rollout 的 dynamics model。
  • 可思考:LLM Agent 的 world model 是否也需要 permutation-symmetric identity encoding?例如多代码 agent 协作、research agent peer review、multi-agent debate。

#2. Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

  • 类别:LLM Agent / Tool-use / Post-training RL / Multimodal Reasoning
  • 来源与日期:Hugging Face Daily Papers;论文发布日期 2026-05-27,HF Daily 收录 2026-05-28
  • 链接HF / arXiv / 项目页
  • 一句话核心贡献:提出 AXPO,针对 agentic reasoning 中 “thinking 默认、tool-use 高方差” 的 Thinking-Acting Gap,在工具调用子组全错时固定思考前缀并重采样工具调用与后续轨迹,提高工具使用探索与 RL 信号质量。

为什么值得关注

论文指出标准 GRPO 在工具使用场景的两个症状:tool use rollout 只约 30%,并且工具使用组约 40% 问题全错,导致最需要学习的 tool-call 位置反而没有有效相对优势信号。AXPO 的关键不是单纯提高采样数,而是 在不改 thinking prefix 的情况下重采样 acting 部分,把探索预算集中到“工具决策”这个高方差瓶颈。

与 wenjun 方向关系

  • 对 Code Agent RL / long-horizon agentic RL 很直接:代码 agent 的关键错误往往发生在工具选择、命令参数、文件定位、测试解释,而不是自然语言 reasoning 本身。
  • 可作为 “agentic RL 的 credit assignment” 设计参考:把 trajectory 分为 thinking prefix、tool action、environment continuation,对失败子树局部重采样。
  • 如果结合 model-based RL,可让 learned world model 只对 acting branch 做 counterfactual rollout,从而降低真实环境调用成本。

  • 类别:Self-improving LLM / Search / Post-training / Agent
  • 来源与日期:Hugging Face Daily Papers;论文发布日期 2026-05-27,HF Daily 收录 2026-05-28
  • 链接HF / arXiv / 项目页 / GitHub
  • 一句话核心贡献:提出 Bidirectional Evolutionary Search(BES),将 forward candidate evolution 与 backward goal decomposition 结合,缓解 best-of-N / tree search 受稀疏验证与自回归概率壳限制的问题。

为什么值得关注

BES 的核心判断是:仅靠 autoregressive expansion,候选会被限制在模型高概率区域;而真正自改进需要能跳出当前模型分布。它用 evolution operators 重组 partial trajectories,并用 backward decomposition 产生可验证子目标,给 forward search 更密的 feedback。

与 wenjun 方向关系

  • 这和 “self-evolving code agent” 很相关:代码修复、实验设计、agent skill evolution 都可能受限于单模型 rollout 的局部搜索。
  • backward goal decomposition 可以转化为代码 Agent 的“测试目标 / 子规格 / proof obligation”生成器。
  • 与 latent-space reasoning 的关系:BES 仍在文本/trajectory 空间做演化,但它提出的“逃离 entropy shell”问题,正是 latent search 可能想解决的动机。

#4. DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

  • 类别:Post-training RL / RLVR / Reasoning / Self-correction
  • 来源与日期:Hugging Face Daily Papers;论文发布日期 2026-05-27,HF Daily 收录 2026-05-28
  • 链接HF / arXiv
  • 一句话核心贡献:提出 DenoiseRL,从弱模型错误推理轨迹中构造 recovery-oriented RL 信号,让模型学习从 noisy prefix 中恢复,而不是依赖更强 teacher 或高度筛选难题。

为什么值得关注

这篇把失败轨迹当作训练资源,而不是过滤掉。对 reasoning model 来说,错误前缀本身提供了探索分布;若模型能从错误状态恢复,就可能形成更强的 self-correction / backtracking 能力。

与 wenjun 方向关系

  • Code Agent 的失败轨迹极多:错误 patch、失败测试、错误定位、环境命令失败。DenoiseRL 的 recovery objective 可迁移为 “从坏 workspace state 中恢复”。
  • 对长轨迹 RL,noisy prefix recovery 比终局 reward 更贴近实际 credit assignment:agent 经常中途犯错但仍有机会修正。
  • 可结合 AXPO:一个解决工具行为探索,一个解决失败前缀恢复。

#5. MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems

  • 类别:LLM Agent / Memory / Evaluation / Debugging
  • 来源与日期:Hugging Face Daily Papers;论文发布日期 2026-05-27,HF Daily 收录 2026-05-28
  • 链接HF / arXiv / 论文摘要中声明代码将发布:GitHub
  • 一句话核心贡献:把 memory pipeline 转换为可执行的 memory evolution graph,对 Long-Context、RAG、Mem0、EverMemOS 等系统中的 memory failure 做细粒度 tracing 与 attribution,并用归因信号自动优化 prompt。

为什么值得关注

Agent memory 不是“存进去再取出来”这么简单,信息会在压缩、抽取、合并、检索、注入中逐步损坏。MemTrace 将这些操作显式图化,定位 information loss、retrieval misalignment 等 operation-level 根因。

与 wenjun 方向关系

  • 对长轨迹 Agent,memory failure 往往是隐藏瓶颈:不是模型不会,而是历史状态被压缩坏了或取错了。
  • 对通用上下文压缩器研究,MemTrace 提供了一个评估范式:不仅看最终答案,还要看信息在哪个压缩/检索操作中损失。
  • 可用于代码 Agent:trace “issue description → repo summary → file memory → patch context” 的信息流。

#其他高相关条目

#6. Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents

  • 类别:Computer-use Agent / Agent Training / Data Synthesis
  • 日期:2026-05-27 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv / 项目页
  • 核心贡献:提出 LearnWeak,用强 reference agent 自动识别小型 computer-use agent 在目标域的弱点,合成针对性任务,并用 error-aware objective 区分 planning 与 execution error;在 OSWorld 八个域上相对 EvoCUA-8B / OpenCUA-7B 提升约 11 个百分点。
  • 判断:这比“无脑合成大量轨迹”更有价值,强调 student-aware data generation。对小模型 agent specialization、GUI/OS agent 训练很值得跟进。

#7. GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection

  • 类别:GUI Agent / Mid-training / Pretraining Data / World Knowledge
  • 日期:2026-05-27 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv / GitHub
  • 核心贡献:将 GUI 轨迹中的静态规划知识和动态因果知识蒸馏成文本,通过 density-aware exemplar reselection 过滤冗余,再用于 mid-training 内化 GUI world knowledge。
  • 判断:这说明 GUI Agent 的知识不一定只靠 post-training reward 学,也可以在 mid-training 阶段显式注入“操作因果模型”。这对 agent 预训练数据如何塑造能力非常相关。

#8. Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders

  • 类别:Post-training RL / Mechanistic Interpretability / Data Engineering
  • 日期:2026-05-26 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv
  • 核心贡献:提出 SAERL,用 Sparse Autoencoder 从模型内部表征中抽取 diversity、difficulty、quality 信号,指导 GRPO/RL 数据混合、curriculum 与过滤;在 Qwen2.5-Math-1.5B 上平均提升 3%,并减少约 20% 训练步数。
  • 判断:这是 “mechanistic interpretability → training data engineering” 的实用化路线。对基础模型训练机制、数据质量、RLVR 数据选择都值得精读。

#9. LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

  • 类别:Search Agent / Evaluation / Tool-use
  • 日期:2026-05-27 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv / Dataset
  • 核心贡献:指出静态 BrowseComp 容易奖励模型的 intrinsic knowledge verification,而不是真正搜索;提出 LiveBrowseComp,335 个依赖近 90 天新事实的人写问题,closed-book 准确率低于 2%,search-augmented 分数相对 BrowseComp 大幅下降。
  • 判断:对 wenjun 的 Agent 评测很重要:很多“会搜索”的 Agent 可能只是在验证已有知识。动态、时间敏感、低显著性事实是更真实的搜索能力检验。

#10. VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

  • 类别:LLM Agent / Long-horizon Search / Intent Understanding / Evaluation
  • 日期:2026-05-27 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv / 项目页
  • 核心贡献:提出 VibeSearchBench,200 个中英双语、多领域、用户意图模糊且需要多轮澄清的搜索任务,用 progressive-disclosure user simulator 与 schema-free knowledge graph matching 评估;最佳 F1 仅约 30.30。
  • 判断:非常贴近“从指令理解走向意图理解”。它把搜索从单轮 query-answer 变成“和用户共同澄清 vague intent”。

#11. ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

  • 类别:Research Agent / Scientific Agent / Verifiability
  • 日期:2026-05-25 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv / 项目页
  • 核心贡献:提出 Chain-of-Evidence(CoE)框架,要求 research agent 的每个 claim 可追溯到 evidence source;CoE Audit 检查 score verification、spec violation、reference verification、method-code alignment。
  • 判断:Research Agent 的关键瓶颈正从“能不能写出 paper-like artifact”转向“claim 是否可验证、结果是否可复现、代码与方法是否一致”。

#12. AI Research Agents Narrow Scientific Exploration

  • 类别:Research Agent / Evaluation / Scientific Discovery
  • 日期:2026-05-27 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv
  • 核心贡献:用 4 个 AI research-agent framework 和 6 个 LLM,从共享 seed literature 生成 37,802 个 idea,发现 AI idea 比同领域人类论文更集中、更贴近起始文献,差异主要来自技术重组而非提出新研究问题。
  • 判断:这是对当前 research agent 的重要冷水:它们擅长 local elaboration,不一定能拓宽 scientific exploration。和 ScientistOne 放在一起看,形成“可验证性提升 vs 探索多样性不足”的张力。

#13. SkillGrad: Optimizing Agent Skills Like Gradient Descent

  • 类别:LLM Agent / Skill Evolution / Self-improving Agent
  • 日期:2026-05-26 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv
  • 核心贡献:把 agent skill package 视为结构化参数,用任务轨迹 loss evidence 生成 text-based gradients,再由 patcher 进行层次化编辑;momentum agent 累积诊断模式。
  • 判断:这非常像“非参数化 agent 能力更新”的优化框架,对 OpenAI/Claude-style skill file、工具说明、workflow prompt 的持续进化有参考价值。

#14. Less is More: Early Stopping Rollout for On-Policy Distillation

  • 类别:Post-training / Distillation / Training Mechanism
  • 日期:2026-05-26 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv
  • 核心贡献:指出 on-policy distillation 存在 Off-policy Teacher Decay:学生早期轨迹让后续上下文偏离 teacher 分布,teacher 后段评分退化;提出 Early Stopping Rollout,只训练前若干 response tokens,提高稳定性和效率。
  • 判断:对 long trajectory distillation 很关键:并非 roll out 越完整越好,后段 teacher signal 可能更脏。

#15. Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration

  • 类别:RLVR / Training Mechanism / Multi-token Prediction
  • 日期:2026-05-27 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv
  • 核心贡献:分析 RLVR 与 Multi-Token Prediction 联合训练为何常退化,将 MTP 对 RL objective 的影响分解为一阶相关项和二阶扰动惩罚,并提出在线 Optimal Coefficient Calibration。
  • 判断:值得关注,因为 MTP 是预训练常用模块,而 reasoning RL 阶段是否保留/联合更新 MTP 会影响训练稳定性。

#16. AgensFlow: A Coordination-Policy Substrate for Multi-Agent Systems

  • 类别:Multi-agent / Coordination Policy / Online Learning
  • 日期:2026-05-26 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv
  • 核心贡献:把 multi-agent coordination 的技能协议、角色、模型绑定、拓扑、是否检索/验证等选择视为 partial observability 下的 online policy-learning 问题,而不是固定 pipeline。
  • 判断:这和 “agent 系统设计空间可学习化” 很契合,尤其适合复杂工作流中自动学习 routing / topology compression。

#17. AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

  • 类别:Scientific Agent / Long-running Agent / Multi-agent
  • 日期:2026-05-27 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv / 项目页
  • 核心贡献:提出去中心化 self-organizing agent teams,围绕实验状态自组织成团队、批判 proposal、共享成功与失败,减少重复探索;在 biomedical ML、LM training optimization、protein fitness 任务上超越 prior agents。
  • 判断:很适合与 “AI Research Agents Narrow Scientific Exploration” 对照:多团队长期实验能否缓解单 agent 研究 idea 集中化?

#18. Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

  • 类别:Code Agent / Formal Verification / Evaluation
  • 日期:2026-05-26 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv / 项目页 / GitHub
  • 核心贡献:提出 Verus-SpecBench / Verus-SpecGym,评估 LLM agents 能否把非形式化编程题转为忠实 Verus formal specification,并用可执行 spec + Codeforces tests/hacks 发现 LLM judge 漏判 26% 失败。
  • 判断:这对代码智能很重要:从“生成能过测试的代码”推进到“生成符合用户意图的规格”。也提醒 LLM-as-judge 对 spec 错误不可靠。

#19. AgentFugue: Agent Scaling for Long-Horizon Tasks through Collective Reasoning

  • 类别:LLM Agent / Long-horizon / Collective Reasoning
  • 日期:2026-05-23 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv
  • 核心贡献:提出共享 reasoning hub,让多个 peer agents 并行探索长任务时记录已证实、已尝试、已排除的信息,并选择性复用彼此中间推理;hub 通过 SFT 和端到端 RL 训练。
  • 判断:与 Gamma-World/AgensFlow 一起看,multi-agent 的关键从“角色分工 prompt”转向“共享状态、通信拓扑、可训练协调”。

#20. AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions

  • 类别:Computer-use Agent / Robustness / Evaluation
  • 日期:2026-05-25 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv / 项目页
  • 核心贡献:构造 9 类常见环境扰动,如弹窗、分辨率变化、竞争应用等,评估 computer-use agent 在非理想真实环境中的鲁棒性,并提出带 onlooker 的 AgentHijack-Agent。
  • 判断:Agent 环境设计不应只含 clean task,也应含自然 corruptions;这对“通过环境设计催生自演化智能”有启发。

#21. Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets

  • 类别:Code Intelligence / Code Data / Provenance / Legal Risk
  • 日期:2026-05-27 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv
  • 核心贡献:提出 SOURCETRACKER encoder 与 HybridSourceTracker:先向量检索缩小候选,再用 Winnowing 指纹重排,实现面向大规模代码训练集的 LLM 生成代码来源追踪。
  • 判断:对代码模型数据质量、去重、license compliance 有直接价值,也可反过来用于分析模型记忆训练代码的程度。

#22. Revealing Algorithmic Deductive Circuits for Logical Reasoning

  • 类别:Mechanistic Interpretability / Reasoning / Latent Mechanism
  • 日期:2026-05-27 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv
  • 核心贡献:在 symbolic-aided CoT 设置下,用 causal mediation 定位负责局部推理步骤的 attention heads,发现约 3% heads 负责事实/规则检索,高层更多负责整合形成全局 graph traversal strategy。
  • 判断:虽不是 latent-space reasoning 方法论文,但对“推理能力在模型内部如何组织”有参考价值,可和 SAE/RL data engineering 结合。

#23. ResearchMath-14K: Scaling Research-Level Mathematics via Agents

  • 类别:Agentic Data Generation / Reasoning Dataset / Math
  • 日期:2026-05-27 发布,2026-05-28 HF Daily 收录
  • 链接HF / arXiv / Dataset
  • 核心贡献:用 multi-agent pipeline 从学术来源收集 14,056 个 research-level math problems,并生成 220K teacher trajectories;发现新模型更会产生引用也更会造假引用,经 agentic filtering 后微调 Qwen3 4B—30B 平均提升 9.2 分。
  • 判断:对“开放问题尝试轨迹是否能作为训练信号”很有启发,尤其是即便轨迹不完全正确,过滤后仍能监督模型。

#今日最值得精读的 3 篇

  1. Gamma-World:如果 wenjun 要推进 LLM Agent world model / Dreamer-like 方向,这篇是今天最接近“多 agent world model 架构设计”的工作。重点看 Simplex Rotary Agent Encoding、Sparse Hub Attention、causal student rollout。
  2. AXPO:工具使用 RL 的 credit assignment 非常关键。重点看 Thinking-Acting Gap 的诊断、all-wrong tool subgroup 的局部重采样策略,以及是否能迁移到代码 agent。
  3. SAERL: Guiding LLM Post-training Data Engineering with SAE Internals:把模型内部表征用于 RL 数据工程,是基础模型训练机制与后训练工程之间很好的桥。重点看 diversity/difficulty/quality 三类 SAE 信号如何定义。

备选精读:DenoiseRL(失败轨迹恢复)、BES(自演化搜索)、MemTrace(agent memory 调试)。


#今日最值得跟进的 3 个 repo / model / dataset

  1. BES GitHub:<https://github.com/Embodied-Minds-Lab/BES>

- 用于观察 self-improving search / evolutionary trajectory recombination 的可复现实装。

  1. LiveBrowseComp Dataset:<https://huggingface.co/datasets/Forival/LiveBrowseComp>

- 动态搜索 Agent 评测数据,适合检验“真搜索”而不是“记忆验证”。HF API 显示 lastModified 为 2026-05-28。

  1. ResearchMath-14k Dataset:<https://huggingface.co/datasets/amphora/ResearchMath-14k>

- 大规模 research-level math problems 与 agentic filtering 思路,HF API 显示 lastModified 为 2026-05-28。

可额外关注:

  • GUI-CIDER:<https://github.com/Wuzheng02/GUI-CIDER>,GUI Agent 中训练数据合成与因果知识内化。
  • Verus-SpecGym:<https://github.com/formal-verif-is-cool/verus-spec-gym>,代码 agent + formal spec 环境。
  • Gamma-World 项目页:<https://research.nvidia.com/labs/sil/projects/gamma-world/>,多智能体 world model demo 与方法细节。

#研究机会 / idea

#Idea 1:面向 Code Agent 的 “Thinking-Acting Gap” 诊断与 AXPO-style 局部重采样

今天 AXPO 的 insight 可直接搬到代码 Agent:将轨迹分成 reasoning prefix → tool/action call → environment feedback → patch/test continuation。先统计:

  • agent 是否过度依赖内部猜测而少用工具?
  • 工具调用组是否经常 all-wrong,导致 GRPO/relative advantage 没信号?
  • 错误主要来自 planning、execution、observation interpretation,还是 patch synthesis?

然后做局部重采样:固定 reasoning prefix,只 resample 命令、文件读取、测试选择或 patch action。这可能比全轨迹重采样更省环境预算,也更适合长 horizon repo tasks。

#Idea 2:LLM Agent 的 learned memory / context compression debugger

把 MemTrace 的 memory evolution graph 用到代码/研究 agent:

raw task → issue summary → repo map → retrieved files → compressed context → patch rationale → final answer

每个节点记录 source span 与 transformation,再用失败测试 / 事实校验回溯哪一步丢失了关键信息。这样可以把“上下文压缩器好不好”从 end-task score 拆成 operation-level attribution:是 summary 丢了 edge case,还是 retrieval 取错文件,还是 compression 合并了冲突事实?

#Idea 3:多 Agent world model / coordination policy 的文本环境版本

Gamma-World、AgensFlow、AgentFugue 都指向同一件事:多 agent 系统需要可学习的共享状态与通信拓扑,而不只是人工 prompt workflow。可以做一个文本/代码环境版本:

  • 用 hub token / shared notebook 表示多 agent 共享 latent state;
  • agent identity 使用 permutation-symmetric encoding 或 role-agnostic slots;
  • 用 offline traces 学一个 coordination policy,决定何时让 reviewer、coder、tester、retriever 介入;
  • reward 来自最终任务成功、环境调用成本、重复探索惩罚、claim/evidence consistency。

这会把 “multi-agent scaffold” 变成 “可训练的 coordination substrate”,很适合作为 LLM Agent 博士课题的一条支线。


#今天的总体判断

  1. Agent RL 正在从终局 reward 转向局部可诊断结构:AXPO 诊断 tool-use 的 all-wrong subgroup,DenoiseRL 用失败前缀恢复,SAERL 用内部表征选择 RL 数据,ESR 重新审视 rollout token 位置。
  2. Agent 评测开始攻击旧 benchmark 的捷径:LiveBrowseComp 发现搜索 Agent 可能只是在验证已知知识;VibeSearchBench 将 intent elicitation 放进评测;Verus-SpecGym 发现 LLM judge 漏判 spec 错误。
  3. 多 Agent 与 Research Agent 的核心问题正在变成“可验证、可协调、可长期探索”:ScientistOne 强调 evidence chain,AI Research Agents Narrow Scientific Exploration 警告 idea 集中化,AutoScientists/AgentFugue/AgensFlow 则尝试用团队、hub、policy learning 扩展探索能力。
  4. 对 wenjun 最有价值的交叉点model-based rollout + agentic RL + memory/context compression attribution + code/tool environment。今天多篇论文都可作为这个组合的模块参考。