#2026-05-07 AI/LLM 最新论文与研究热点简报

检索时间:2026-05-07 08:00(Asia/Shanghai)。本期主要覆盖 arXiv 2026-05-06 recent 列表与 Hugging Face Daily Papers 2026-05-06 收录内容;arXiv API 在检索时触发 429 限流,因此改用 arXiv recent HTML 页面与单篇摘要页交叉补充。X/Twitter 未作为主依据,避免把不可稳定访问的信息当作事实;热点 repo/model/dataset 使用 GitHub Trending 与 Hugging Face Trending 页面作为替代来源。

#0. 今日总览:Agent RL 的焦点正在从“单次回答正确”转向“轨迹、记忆、检索、子代理协作”

过去 24-48 小时最值得 wenjun 注意的信号非常集中:

  1. Search Agent / Deep Research Agent 的开源复现门槛在下降:OpenSeeker-v2 声称只用 10.6k 高信息、高难度轨迹 + SFT,就能在 BrowseComp、HLE、xbench 等指标上接近/超过重型工业 pipeline。这对“agent 预训练/后训练数据如何塑造能力”很关键。
  2. LLM Agent RL 正在把优化对象从 token/答案扩展到 orchestration trace:多代理系统的 spawn、delegate、communicate、aggregate、stop 都可成为可学习决策;其中 stopping decision 仍是明显空白。
  3. Reasoning RL 的训练信号更细粒度化:TraceLift 强调 executor-grounded reward,rollout survey 提供 Generate-Filter-Control-Replay 分类,说明未来做长轨迹 RL 不能只看 final answer reward。
  4. Agent 基础设施方向出现多个“可实验化”问题:Workspace-Bench、MEMTIER、QKVShare 分别指向真实工作区依赖、长期记忆、KV-cache handoff,适合从系统/训练机制结合角度切入。
  5. 潜空间/世界模型相关进展仍主要来自 embodied/video/world model,而非纯 LLM latent reasoning:iWorld-Bench、Predictive Latents 等更偏视觉世界模型,但其“action-conditioned latent state + memory”对 Dreamer-style LLM Agent 仍有启发。

#1. 重点论文与动态筛选

#1. OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

  • 链接:https://arxiv.org/abs/2605.04036 | HF: https://huggingface.co/papers/2605.04036
  • 来源/日期:arXiv / Hugging Face Daily Papers;published 2026-05-05,HF daily 2026-05-06
  • 类别:LLM Agent / Tool-use / Post-training Data / Search Agent
  • 一句话贡献:提出用高信息、高难度搜索轨迹训练 search agent,声称仅 10.6k SFT 数据即可在 BrowseComp、BrowseComp-ZH、Humanity's Last Exam、xbench 上达到 30B ReAct search agent 的强结果。

为什么值得关注

这篇最直接击中 wenjun 近期关注的“agent 预训练/后训练数据如何塑造能力”。它的核心不是发明复杂 RL 算法,而是指出:若轨迹足够 informative、difficulty 足够高、工具集和知识图探索足够丰富,那么纯 SFT 就能逼近很多重型 CPT+SFT+RL pipeline 的效果。文中提到三类数据合成修改:扩大知识图规模、扩大工具集、严格 low-step filtering。这里的 low-step filtering 尤其值得细读,因为它可能不是简单“越短越好”,而是在筛掉低效搜索轨迹、提高单位 token 中的决策密度。

与 wenjun 方向的关系

  • Code Agent / Search Agent 的 agentic RL:可以把“高难度、高信息轨迹”迁移到代码环境,比如只保留能跨文件定位、能最小化 terminal/tool 调用、能正确回滚错误假设的轨迹。
  • model-based RL / Dreamer for LLM Agent:OpenSeeker-v2 没有显式 world model,但它把搜索过程压缩为高质量轨迹,等价于给后续 model-based agent 提供可学习的 transition/action prior。
  • 意图理解:deep search agent 的关键常常不是指令跟随,而是把模糊问题拆成可验证的查询/证据链;这可作为“从 instruction following 到 intent execution”的实验场。

#2. Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

  • 链接:https://arxiv.org/abs/2605.02801 | HF: https://huggingface.co/papers/2605.02801 | artifact: https://github.com/xxzcc/awesome-llm-mas-rl
  • 来源/日期:arXiv / Hugging Face Daily Papers;published 2026-05-04,HF daily 2026-05-06
  • 类别:LLM Agent / Model-based RL / Post-training RL / Multi-Agent / Evaluation
  • 一句话贡献:把 LLM 多代理 RL 的优化对象定义为 orchestration traces,即包含子代理生成、委派、通信、工具使用、返回、聚合、停止等事件的时序交互图。

为什么值得关注

这篇是今天最适合 wenjun 精读的综述/框架型文章之一。它明确指出:当 agent 从单体 tool user 变成多代理团队时,RL 不能只优化“单个 agent 的 token action”,还要优化组织层面的决策。文章将 reward design、credit assignment、orchestration learning 拆成多个层次,并指出一个很有价值的空白:截至 2026-05-04,公开池中几乎没有显式针对 stopping decision 的 RL 训练方法。

与 wenjun 方向的关系

  • 长轨迹 RL:orchestration trace 是天然的长轨迹数据结构,适合定义 return、subgoal、option、termination。
  • model-based RL for Agent:可把 orchestration graph 当作抽象状态转移,把“spawn/delegate/stop”当作 high-level action,学习一个 planning model 或 value model。
  • Code Agent:代码任务中的子代理往往负责 search/debug/test/doc,最难的是何时停止、何时回退、何时并行;这篇的 schema 可直接迁移到 coding traces。

#3. Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

  • 链接:https://arxiv.org/abs/2605.02913 | HF: https://huggingface.co/papers/2605.02913
  • 来源/日期:arXiv / Hugging Face Daily Papers;paper dated 2026-04-08,HF daily 2026-05-06
  • 类别:Post-training RL / RLVR / Long-horizon Agent / Evaluation
  • 一句话贡献:提出 Generate-Filter-Control-Replay(GFCR)分类法,系统整理 LLM RL 中 rollout 生成、过滤、控制和重放的策略。

为什么值得关注

这篇虽然论文日期不是最近 48 小时,但被 HF Daily Papers 收录在 05-06,且与 wenjun 的 RL 主线高度相关。它的价值在于把 rollout 作为 LLM RL 的核心对象,而不再把 rollout 当成“采样若干回答”的实现细节。GFCR 四个阶段非常适合用来诊断长轨迹 agent:

  • Generate:轨迹拓扑怎么生成?线性、树状、并行、多代理?
  • Filter:verifier/judge/critic 如何给中间状态赋信号?
  • Control:预算、分支、继续/停止如何决策?
  • Replay:历史轨迹、失败片段、工具调用结果如何复用?

与 wenjun 方向的关系

如果要做 Dreamer-style LLM Agent,GFCR 可以变成实验框架:先生成 environment rollouts,再过滤成可学习片段,用 control 学预算分配,用 replay 构建自演化 curriculum。尤其值得把 GFCR 与上面的 orchestration trace 合并:一个管“轨迹生命周期”,一个管“多代理事件结构”。


#4. Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards

  • 链接:https://arxiv.org/abs/2605.03862
  • 来源/日期:arXiv recent cs.AI;2026-05-06
  • 类别:Post-training RL / Reasoning / Agent Planning / Evaluation
  • 一句话贡献:提出 TraceLift,用 frozen executor 消费 planner 产生的 tagged reasoning,再用 executor-grounded reward 训练 planner,避免只用 final answer correctness 奖励“对但理由错”的轨迹。

为什么值得关注

这篇抓住 RLVR 的一个核心漏洞:最终答案正确不代表中间推理真实、可复用、对执行器有帮助。在 agent 场景里,中间 reasoning 不只是解释文本,而是后续工具调用、代码修改、检索动作的输入。如果 reward 只看最终 pass/fail,就可能奖励不可执行的伪推理。

与 wenjun 方向的关系

  • Code Agent RL:可把 executor 替换为 test runner / static analyzer / patch applier,让 planner 的 reasoning 只有在能帮助 executor 产出正确 patch 时才得高 reward。
  • latent-space reasoning:这篇仍是文本 trace,但思想可迁移:latent plan 的好坏不由可读性决定,而由 downstream executor 的行为改善决定。
  • 长轨迹 RL:中间 trace 的可消费性可作为过程奖励,比单纯 outcome reward 更稳定。

#5. HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

  • 链接:https://arxiv.org/abs/2605.02396 | HF: https://huggingface.co/papers/2605.02396
  • 来源/日期:arXiv / Hugging Face Daily Papers;published 2026-05-04,HF daily 2026-05-06
  • 类别:LLM Agent / Reasoning / Post-training RL / Self-evolving Agent
  • 一句话贡献:把 agentic harness 中真正起作用的能力解释为模型内部的“heavy thinking skill”,即并行推理再汇总,并指出其深度和宽度可通过 RL 继续扩展。

为什么值得关注

当前很多 agent harness 把能力提升归因于复杂编排、memory、tool、multi-agent;HeavySkill 反过来问:是不是底层模型学会了一种可内化的“重思考技能”?如果成立,这对 agent 研究很重要:与其不断堆外部 orchestration,不如研究如何把一部分外部搜索/并行/汇总能力蒸馏进模型参数。

与 wenjun 方向的关系

  • agent 预训练数据如何塑造能力 强相关:多分支思考+汇总的轨迹能否作为预训练/后训练数据,形成模型内化 skill?
  • self-evolving code agent 相关:代码 agent 的多候选 patch、并行定位 bug、汇总测试证据,本质上就是 heavy thinking 的代码版本。
  • latent reasoning 相关:如果 heavy thinking 被内化,外部多分支文本轨迹可能会逐步压缩成隐式/潜空间计算。

#6. Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

  • 链接:https://arxiv.org/abs/2605.03596 | HF: https://huggingface.co/papers/2605.03596
  • 来源/日期:arXiv / Hugging Face Daily Papers;published 2026-05-05,HF daily 2026-05-06
  • 类别:LLM Agent / Code Agent / Evaluation / Tool-use
  • 一句话贡献:构建含 20,476 个文件、74 种文件类型、388 个任务和 7,399 个 rubrics 的真实工作区 agent benchmark,评估 agent 对大规模文件依赖的理解与操作。

为什么值得关注

这篇对代码智能/办公 agent 很实用。现有 benchmark 常给定少量合成文件,无法测试真实工作区中的隐式依赖、跨文件检索、上下文更新、长期状态维护。Workspace-Bench 的结果显示,当前最好 agent 约 68.7%,人类约 80.7%,平均 agent 仅 47.4%,说明差距仍大。

与 wenjun 方向的关系

对 Code Agent 来说,真实难点不是“单文件补全”,而是 workspace-level dependency reasoning。这个 benchmark 可作为:

  • context compression 方法的评测场;
  • agent memory/retrieval 的真实压力测试;
  • 训练“文件依赖图预测 + 修改计划”的数据来源。

#7. QKVShare: Quantized KV-Cache Handoff for Multi-Agent On-Device LLMs

  • 链接:https://arxiv.org/abs/2605.03884
  • 来源/日期:arXiv recent cs.AI;2026-05-06
  • 类别:Systems / Multi-Agent / Context Compression / Efficient Inference
  • 一句话贡献:提出多代理间量化 KV-cache handoff 机制,用 mixed-precision allocation、CacheCard 表示和 HF-compatible cache injection 降低重复 prefill 成本。

为什么值得关注

多代理系统常常有大量共享上下文:主 agent 给子 agent 派发任务,子 agent 需要继承背景;当前要么重新 prefill,要么传 full-precision KV,成本都高。QKVShare 将“agent 间上下文传递”从文本层压缩推进到 KV-cache 层,是很具体的系统优化方向。

与 wenjun 方向的关系

  • 通用上下文压缩器:它提供了非文本摘要式压缩的路线,即保留可注入的 latent/KV state。
  • long-horizon agent:如果子任务间可低成本传递上下文,agent 更容易扩展到长工作流。
  • latent-space reasoning:KV handoff 可看作一种工程化的 latent state transfer,但需要研究可解释性、污染、跨模型兼容性。

#8. MEMTIER: Tiered Memory Architecture and Retrieval Bottleneck Analysis for Long-Running Autonomous AI Agents

  • 链接:https://arxiv.org/abs/2605.03675
  • 来源/日期:arXiv recent cs.AI;2026-05-06
  • 类别:LLM Agent / Memory / Long-horizon Agent / Evaluation
  • 一句话贡献:提出长期运行 agent 的分层记忆架构:episodic JSONL、五信号检索、attention-attributed cognitive weight、异步 consolidation 以及可用 PPO 调整检索权重的框架。

为什么值得关注

长期 agent 的瓶颈常常不是模型单步能力,而是 72 小时甚至更长运行中的记忆一致性退化。MEMTIER 把记忆系统拆成 episodic/semantic 层,并把检索权重适配建模为可学习策略。摘要中也谨慎标注了“infrastructure validated; performance gains pending camera-ready”,因此应关注方法而不是过早相信最终效果。

与 wenjun 方向的关系

这与 LLM Agent 长轨迹 RL环境设计催生自演化智能 直接相关:如果记忆检索策略能通过 PPO/RL 自动适配,记忆不再只是工程模块,而成为 agent policy 的一部分。


#9. A Benchmark for Interactive World Models with a Unified Action Generation Framework

  • 链接:https://arxiv.org/abs/2605.03941 | HF: https://huggingface.co/papers/2605.03941 | project: https://iWorld-Bench.com
  • 来源/日期:arXiv / Hugging Face Daily Papers;published 2026-05-05,HF daily 2026-05-06
  • 类别:Model-based RL / World Model / Evaluation / Embodied Agent
  • 一句话贡献:提出 iWorld-Bench,用 330k 视频 clips 与 4.9k 测试样本评估 world model 的交互相关能力,如距离感知、轨迹跟随和记忆。

为什么值得关注

虽然它偏视觉/embodied world model,但对 Dreamer-style LLM Agent 有结构启发:world model 不是只生成未来观测,还要接受 action、保持 memory、支持 trajectory following。当前 LLM Agent 的“世界模型”往往是文本化 simulator 或 self-imagination,缺少统一 action generation framework 和交互评估。

与 wenjun 方向的关系

可以借鉴它的 benchmark 设计,为文本/代码环境构造 interactive world model benchmark:给定 action history,预测 workspace state、test outcome、bug location 或用户意图变化。


#10. Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

  • 链接:https://arxiv.org/abs/2605.04018
  • 来源/日期:arXiv recent cs.CL;2026-05-06
  • 类别:LLM Agent / Retrieval / Tool-use / Evaluation
  • 一句话贡献:提出面向 agentic search 的 reasoning-intensive retrieval 评测与训练,强调检索器应提供支持下游推理的互补证据组合,而不只是语义相似 passage。

为什么值得关注

Agentic search 的检索器不是传统 RAG 中的“找最相关文档”,而是要为多步推理提供证据 portfolio。这与 OpenSeeker-v2 的 search trajectory 训练形成呼应:一个强调 agent 轨迹,一个强调 retriever 训练/评测。

与 wenjun 方向的关系

在 Code Agent 中,retrieval 也应从“找相似代码片段”转向“找能证明/反驳当前 hypothesis 的证据集合”:相关 issue、测试失败日志、调用链、历史 patch 都可能是 complementary evidence。


#11. EvoLM: Self-Evolving Language Models through Co-Evolved Discriminative Rubrics

  • 链接:https://arxiv.org/abs/2605.03871
  • 来源/日期:arXiv recent cs.AI;2026-05-06
  • 类别:Post-training RL / Self-evolving LLM / Evaluation
  • 一句话贡献:利用模型自身从预训练中获得的 evaluative knowledge,演化出 discriminative rubrics 作为训练信号,减少对人类标注、闭源 API 或固定可验证奖励的依赖。

简评

这篇适合关注“自演化智能”的 wenjun 跟进。关键问题在于:自生成 rubric 会不会形成 reward hacking / self-confirmation loop?如果能设计环境让 rubric 必须经外部执行验证,就可能成为代码 agent self-evolution 的一条路线。


#12. Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

  • 链接:https://arxiv.org/abs/2605.03195
  • 来源/日期:arXiv recent cs.AI;2026-05-06
  • 类别:Code Agent / Agentic Execution / Post-training RL / Systems
  • 一句话贡献:研究用 SFT + rubric-based LLM-as-judge RL 后训练的 4B 小模型,是否能替代 frontier model 承担 coding agent 中的 terminal execution 子代理角色。

简评

这与实际 coding agent 系统非常相关:主模型负责高层规划,低成本子模型负责 search/debug/terminal execution,能降低长任务成本并保持主上下文干净。值得关注它的数据构造、rubric 设计和失败模式。


#13. Experience-RAG Skill: An Agent-Oriented Pluggable Experience-RAG Skill for Experience-Driven Retrieval Strategy Orchestration

  • 链接:https://arxiv.org/abs/2605.03989
  • 来源/日期:arXiv recent cs.AI;2026-05-06
  • 类别:LLM Agent / Retrieval / Tool-use / Memory
  • 一句话贡献:提出一个位于 agent 与 retriever pool 之间的可插拔检索编排 skill,根据场景和经验记忆选择检索策略并返回结构化证据。

简评

它把 retrieval strategy selection 作为 agent skill,而不是固定 pipeline。这对长轨迹 agent 很自然:agent 应学会“什么时候 BM25、什么时候 dense、什么时候 multi-hop、什么时候 scientific verification”。代码 agent 中也可对应不同 search tool / AST tool / grep / semantic index 的选择策略。


#14. Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours

  • 链接:https://arxiv.org/abs/2605.04019
  • 来源/日期:arXiv recent cs.AI;2026-05-06
  • 类别:LLM Agent / Safety / Evaluation / Tool-use
  • 一句话贡献:基于 Dreadnode SDK 构建 red-teaming agent,自动组合 45+ adversarial attacks、450+ transforms 和 130+ scorers,将手工红队 workflow 自动化。

简评

它说明 safety evaluation 也在 agent 化。对 wenjun 的启发是:环境中如果有丰富 scorer/attack/transform,agent 可以自动探索失败模式;这与“通过环境设计催生自演化智能”相关。


#15. ELAS: Efficient Pre-Training of Low-Rank Large Language Models via 2:4 Activation Sparsity

  • 链接:https://arxiv.org/abs/2605.03667
  • 来源/日期:arXiv recent cs.LG;2026-05-06
  • 类别:Foundation Model Training / Systems / Efficient Pretraining
  • 一句话贡献:研究低秩 LLM 预训练中 activation 矩阵仍占主要内存的问题,结合 2:4 activation sparsity 提升训练内存和吞吐效率。

简评

这不是 agent 论文,但与基础模型训练机制相关。值得关注其对低秩训练、结构化稀疏、训练吞吐和性能退化之间 trade-off 的实证。


#2. 今日最值得精读的 3 篇

  1. OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

https://arxiv.org/abs/2605.04036

精读理由:最直接对应“agent 能力由什么数据塑造”;如果结果可靠,它给 academic search agent 提供了低成本强 baseline。

  1. Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

https://arxiv.org/abs/2605.02801

精读理由:把多代理 RL 的优化对象形式化为 trace/graph,可直接迁移到 code agent、long-horizon agent 和 model-based RL。

  1. Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards

https://arxiv.org/abs/2605.03862

精读理由:从 final answer reward 走向 executor-grounded process reward,是 code agent RL 和可靠长推理训练的核心问题。

备选精读:Generate, Filter, Control, Replay(https://arxiv.org/abs/2605.02913),适合作为搭建 LLM RL rollout 实验框架的 taxonomy。


#3. 今日最值得跟进的 3 个 repo / model / dataset

  1. awesome-llm-mas-rl

- 链接:https://github.com/xxzcc/awesome-llm-mas-rl

- 来源:论文 Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces artifact

- 价值:包含 84-entry tagged paper pool、exclusion log 和 orchestration trace schema;适合快速建立多代理 RL 文献地图。

  1. open-thoughts/AgentTrove(HF Trending Dataset)

- 链接:https://huggingface.co/datasets/open-thoughts/AgentTrove

- 来源:Hugging Face datasets trending(2026-05-07 检索)

- 价值:名称显示为 agent 相关数据集,值得检查其轨迹格式、任务覆盖和是否可用于 agent SFT/RL 数据分析。

  1. Terminus-4B / 小模型 agentic terminal execution 路线

- 论文链接:https://arxiv.org/abs/2605.03195

- 来源:arXiv recent cs.AI 2026-05-06

- 价值:coding agent 降成本的现实路线:用后训练小模型承担 terminal/search/debug 子代理,而非所有子任务都调用 frontier model。

补充可看:GitHub daily trending 中出现 addyosmani/agent-skillsLearningCircuit/local-deep-researchbytedance/deer-flow 等 agent/search workflow 相关项目,但本次未进一步验证其论文关联和质量,建议仅作为工程动态观察。


#4. 研究机会 / Idea

#Idea 1:把 orchestration trace + GFCR 合并成 Code Agent RL 的统一数据结构

当前多代理 RL 论文强调 orchestration trace,rollout survey 强调 Generate-Filter-Control-Replay。一个可做的问题是:

对 coding agent,把每次任务记录为事件图:文件检索、假设生成、patch、test、rollback、subagent delegation、stop;再按 GFCR 标注每段轨迹属于生成、过滤、控制还是重放,训练一个能预测下一步 high-level action 和 termination 的策略。

潜在贡献:

  • 比 token-level RL 更适合长任务;
  • 可显式研究 stopping decision;
  • 可用 SWE-bench / Workspace-Bench / terminal execution 数据做离线分析。

#Idea 2:Executor-grounded reward for latent / hidden planning

TraceLift 仍然训练文本 reasoning planner。wenjun 可进一步问:

如果 planner 产生的是不可完全展开的 latent state / compressed plan,如何用 executor 的行为反馈训练它?

具体实验:

  • planner 输出短 plan 或 latent memory token;
  • executor 执行代码修改/检索/测试;
  • reward 不看 plan 可读性,而看 executor 成功率、调用成本、回滚次数;
  • 对比 full CoT、summary plan、latent token、KV handoff 四种中间表示。

这会连接 latent-space reasoningcontext compressionagent RL

#Idea 3:Search Agent 的“高信息轨迹”能否迁移到 Code Agent?

OpenSeeker-v2 的核心假设是:少量高质量、高难度、高信息密度轨迹胜过大规模普通轨迹。可迁移为:

为 code agent 构造 high-information debugging trajectories:每一步必须减少候选 bug space、产生可验证证据或修改依赖图;过滤掉冗长但无信息增益的 terminal/search 动作。

可研究指标:

  • 每次 tool call 的 information gain;
  • patch 前后 test failure entropy 下降;
  • 文件依赖图定位精度;
  • low-step filtering 是否会牺牲探索鲁棒性。

#5. 快速结论

今天最强主线是:LLM Agent 后训练正在从“回答级 RLVR”进入“轨迹级、执行器 grounded、多代理 orchestration、记忆/检索系统可学习”的阶段。对 wenjun 来说,最值得抓住的是两条交叉线:

  1. 数据线:什么样的 agent trajectory 真正塑造 search/code/long-horizon 能力?OpenSeeker-v2、GFCR、Workspace-Bench 给了很好的入口。
  2. RL 线:如何把 long-horizon trace 中的 spawn/delegate/search/patch/test/stop 变成可学习、可 credit assignment 的对象?orchestration trace、TraceLift、MEMTIER 都在指向这个问题。