#2026-05-07 AI/LLM 最新论文与研究热点简报
检索时间:2026-05-07 08:00(Asia/Shanghai)。本期主要覆盖 arXiv 2026-05-06 recent 列表与 Hugging Face Daily Papers 2026-05-06 收录内容;arXiv API 在检索时触发 429 限流,因此改用 arXiv recent HTML 页面与单篇摘要页交叉补充。X/Twitter 未作为主依据,避免把不可稳定访问的信息当作事实;热点 repo/model/dataset 使用 GitHub Trending 与 Hugging Face Trending 页面作为替代来源。
#0. 今日总览:Agent RL 的焦点正在从“单次回答正确”转向“轨迹、记忆、检索、子代理协作”
过去 24-48 小时最值得 wenjun 注意的信号非常集中:
- Search Agent / Deep Research Agent 的开源复现门槛在下降:OpenSeeker-v2 声称只用 10.6k 高信息、高难度轨迹 + SFT,就能在 BrowseComp、HLE、xbench 等指标上接近/超过重型工业 pipeline。这对“agent 预训练/后训练数据如何塑造能力”很关键。
- LLM Agent RL 正在把优化对象从 token/答案扩展到 orchestration trace:多代理系统的 spawn、delegate、communicate、aggregate、stop 都可成为可学习决策;其中 stopping decision 仍是明显空白。
- Reasoning RL 的训练信号更细粒度化:TraceLift 强调 executor-grounded reward,rollout survey 提供 Generate-Filter-Control-Replay 分类,说明未来做长轨迹 RL 不能只看 final answer reward。
- Agent 基础设施方向出现多个“可实验化”问题:Workspace-Bench、MEMTIER、QKVShare 分别指向真实工作区依赖、长期记忆、KV-cache handoff,适合从系统/训练机制结合角度切入。
- 潜空间/世界模型相关进展仍主要来自 embodied/video/world model,而非纯 LLM latent reasoning:iWorld-Bench、Predictive Latents 等更偏视觉世界模型,但其“action-conditioned latent state + memory”对 Dreamer-style LLM Agent 仍有启发。
#1. 重点论文与动态筛选
#1. OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
- 链接:https://arxiv.org/abs/2605.04036 | HF: https://huggingface.co/papers/2605.04036
- 来源/日期:arXiv / Hugging Face Daily Papers;published 2026-05-05,HF daily 2026-05-06
- 类别:LLM Agent / Tool-use / Post-training Data / Search Agent
- 一句话贡献:提出用高信息、高难度搜索轨迹训练 search agent,声称仅 10.6k SFT 数据即可在 BrowseComp、BrowseComp-ZH、Humanity's Last Exam、xbench 上达到 30B ReAct search agent 的强结果。
为什么值得关注:
这篇最直接击中 wenjun 近期关注的“agent 预训练/后训练数据如何塑造能力”。它的核心不是发明复杂 RL 算法,而是指出:若轨迹足够 informative、difficulty 足够高、工具集和知识图探索足够丰富,那么纯 SFT 就能逼近很多重型 CPT+SFT+RL pipeline 的效果。文中提到三类数据合成修改:扩大知识图规模、扩大工具集、严格 low-step filtering。这里的 low-step filtering 尤其值得细读,因为它可能不是简单“越短越好”,而是在筛掉低效搜索轨迹、提高单位 token 中的决策密度。
与 wenjun 方向的关系:
- 对 Code Agent / Search Agent 的 agentic RL:可以把“高难度、高信息轨迹”迁移到代码环境,比如只保留能跨文件定位、能最小化 terminal/tool 调用、能正确回滚错误假设的轨迹。
- 对 model-based RL / Dreamer for LLM Agent:OpenSeeker-v2 没有显式 world model,但它把搜索过程压缩为高质量轨迹,等价于给后续 model-based agent 提供可学习的 transition/action prior。
- 对 意图理解:deep search agent 的关键常常不是指令跟随,而是把模糊问题拆成可验证的查询/证据链;这可作为“从 instruction following 到 intent execution”的实验场。
#2. Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
- 链接:https://arxiv.org/abs/2605.02801 | HF: https://huggingface.co/papers/2605.02801 | artifact: https://github.com/xxzcc/awesome-llm-mas-rl
- 来源/日期:arXiv / Hugging Face Daily Papers;published 2026-05-04,HF daily 2026-05-06
- 类别:LLM Agent / Model-based RL / Post-training RL / Multi-Agent / Evaluation
- 一句话贡献:把 LLM 多代理 RL 的优化对象定义为 orchestration traces,即包含子代理生成、委派、通信、工具使用、返回、聚合、停止等事件的时序交互图。
为什么值得关注:
这篇是今天最适合 wenjun 精读的综述/框架型文章之一。它明确指出:当 agent 从单体 tool user 变成多代理团队时,RL 不能只优化“单个 agent 的 token action”,还要优化组织层面的决策。文章将 reward design、credit assignment、orchestration learning 拆成多个层次,并指出一个很有价值的空白:截至 2026-05-04,公开池中几乎没有显式针对 stopping decision 的 RL 训练方法。
与 wenjun 方向的关系:
- 长轨迹 RL:orchestration trace 是天然的长轨迹数据结构,适合定义 return、subgoal、option、termination。
- model-based RL for Agent:可把 orchestration graph 当作抽象状态转移,把“spawn/delegate/stop”当作 high-level action,学习一个 planning model 或 value model。
- Code Agent:代码任务中的子代理往往负责 search/debug/test/doc,最难的是何时停止、何时回退、何时并行;这篇的 schema 可直接迁移到 coding traces。
#3. Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning
- 链接:https://arxiv.org/abs/2605.02913 | HF: https://huggingface.co/papers/2605.02913
- 来源/日期:arXiv / Hugging Face Daily Papers;paper dated 2026-04-08,HF daily 2026-05-06
- 类别:Post-training RL / RLVR / Long-horizon Agent / Evaluation
- 一句话贡献:提出 Generate-Filter-Control-Replay(GFCR)分类法,系统整理 LLM RL 中 rollout 生成、过滤、控制和重放的策略。
为什么值得关注:
这篇虽然论文日期不是最近 48 小时,但被 HF Daily Papers 收录在 05-06,且与 wenjun 的 RL 主线高度相关。它的价值在于把 rollout 作为 LLM RL 的核心对象,而不再把 rollout 当成“采样若干回答”的实现细节。GFCR 四个阶段非常适合用来诊断长轨迹 agent:
- Generate:轨迹拓扑怎么生成?线性、树状、并行、多代理?
- Filter:verifier/judge/critic 如何给中间状态赋信号?
- Control:预算、分支、继续/停止如何决策?
- Replay:历史轨迹、失败片段、工具调用结果如何复用?
与 wenjun 方向的关系:
如果要做 Dreamer-style LLM Agent,GFCR 可以变成实验框架:先生成 environment rollouts,再过滤成可学习片段,用 control 学预算分配,用 replay 构建自演化 curriculum。尤其值得把 GFCR 与上面的 orchestration trace 合并:一个管“轨迹生命周期”,一个管“多代理事件结构”。
#4. Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards
- 链接:https://arxiv.org/abs/2605.03862
- 来源/日期:arXiv recent cs.AI;2026-05-06
- 类别:Post-training RL / Reasoning / Agent Planning / Evaluation
- 一句话贡献:提出 TraceLift,用 frozen executor 消费 planner 产生的 tagged reasoning,再用 executor-grounded reward 训练 planner,避免只用 final answer correctness 奖励“对但理由错”的轨迹。
为什么值得关注:
这篇抓住 RLVR 的一个核心漏洞:最终答案正确不代表中间推理真实、可复用、对执行器有帮助。在 agent 场景里,中间 reasoning 不只是解释文本,而是后续工具调用、代码修改、检索动作的输入。如果 reward 只看最终 pass/fail,就可能奖励不可执行的伪推理。
与 wenjun 方向的关系:
- 对 Code Agent RL:可把 executor 替换为 test runner / static analyzer / patch applier,让 planner 的 reasoning 只有在能帮助 executor 产出正确 patch 时才得高 reward。
- 对 latent-space reasoning:这篇仍是文本 trace,但思想可迁移:latent plan 的好坏不由可读性决定,而由 downstream executor 的行为改善决定。
- 对 长轨迹 RL:中间 trace 的可消费性可作为过程奖励,比单纯 outcome reward 更稳定。
#5. HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness
- 链接:https://arxiv.org/abs/2605.02396 | HF: https://huggingface.co/papers/2605.02396
- 来源/日期:arXiv / Hugging Face Daily Papers;published 2026-05-04,HF daily 2026-05-06
- 类别:LLM Agent / Reasoning / Post-training RL / Self-evolving Agent
- 一句话贡献:把 agentic harness 中真正起作用的能力解释为模型内部的“heavy thinking skill”,即并行推理再汇总,并指出其深度和宽度可通过 RL 继续扩展。
为什么值得关注:
当前很多 agent harness 把能力提升归因于复杂编排、memory、tool、multi-agent;HeavySkill 反过来问:是不是底层模型学会了一种可内化的“重思考技能”?如果成立,这对 agent 研究很重要:与其不断堆外部 orchestration,不如研究如何把一部分外部搜索/并行/汇总能力蒸馏进模型参数。
与 wenjun 方向的关系:
- 与 agent 预训练数据如何塑造能力 强相关:多分支思考+汇总的轨迹能否作为预训练/后训练数据,形成模型内化 skill?
- 与 self-evolving code agent 相关:代码 agent 的多候选 patch、并行定位 bug、汇总测试证据,本质上就是 heavy thinking 的代码版本。
- 与 latent reasoning 相关:如果 heavy thinking 被内化,外部多分支文本轨迹可能会逐步压缩成隐式/潜空间计算。
#6. Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies
- 链接:https://arxiv.org/abs/2605.03596 | HF: https://huggingface.co/papers/2605.03596
- 来源/日期:arXiv / Hugging Face Daily Papers;published 2026-05-05,HF daily 2026-05-06
- 类别:LLM Agent / Code Agent / Evaluation / Tool-use
- 一句话贡献:构建含 20,476 个文件、74 种文件类型、388 个任务和 7,399 个 rubrics 的真实工作区 agent benchmark,评估 agent 对大规模文件依赖的理解与操作。
为什么值得关注:
这篇对代码智能/办公 agent 很实用。现有 benchmark 常给定少量合成文件,无法测试真实工作区中的隐式依赖、跨文件检索、上下文更新、长期状态维护。Workspace-Bench 的结果显示,当前最好 agent 约 68.7%,人类约 80.7%,平均 agent 仅 47.4%,说明差距仍大。
与 wenjun 方向的关系:
对 Code Agent 来说,真实难点不是“单文件补全”,而是 workspace-level dependency reasoning。这个 benchmark 可作为:
- context compression 方法的评测场;
- agent memory/retrieval 的真实压力测试;
- 训练“文件依赖图预测 + 修改计划”的数据来源。
#7. QKVShare: Quantized KV-Cache Handoff for Multi-Agent On-Device LLMs
- 链接:https://arxiv.org/abs/2605.03884
- 来源/日期:arXiv recent cs.AI;2026-05-06
- 类别:Systems / Multi-Agent / Context Compression / Efficient Inference
- 一句话贡献:提出多代理间量化 KV-cache handoff 机制,用 mixed-precision allocation、CacheCard 表示和 HF-compatible cache injection 降低重复 prefill 成本。
为什么值得关注:
多代理系统常常有大量共享上下文:主 agent 给子 agent 派发任务,子 agent 需要继承背景;当前要么重新 prefill,要么传 full-precision KV,成本都高。QKVShare 将“agent 间上下文传递”从文本层压缩推进到 KV-cache 层,是很具体的系统优化方向。
与 wenjun 方向的关系:
- 对 通用上下文压缩器:它提供了非文本摘要式压缩的路线,即保留可注入的 latent/KV state。
- 对 long-horizon agent:如果子任务间可低成本传递上下文,agent 更容易扩展到长工作流。
- 对 latent-space reasoning:KV handoff 可看作一种工程化的 latent state transfer,但需要研究可解释性、污染、跨模型兼容性。
#8. MEMTIER: Tiered Memory Architecture and Retrieval Bottleneck Analysis for Long-Running Autonomous AI Agents
- 链接:https://arxiv.org/abs/2605.03675
- 来源/日期:arXiv recent cs.AI;2026-05-06
- 类别:LLM Agent / Memory / Long-horizon Agent / Evaluation
- 一句话贡献:提出长期运行 agent 的分层记忆架构:episodic JSONL、五信号检索、attention-attributed cognitive weight、异步 consolidation 以及可用 PPO 调整检索权重的框架。
为什么值得关注:
长期 agent 的瓶颈常常不是模型单步能力,而是 72 小时甚至更长运行中的记忆一致性退化。MEMTIER 把记忆系统拆成 episodic/semantic 层,并把检索权重适配建模为可学习策略。摘要中也谨慎标注了“infrastructure validated; performance gains pending camera-ready”,因此应关注方法而不是过早相信最终效果。
与 wenjun 方向的关系:
这与 LLM Agent 长轨迹 RL 和 环境设计催生自演化智能 直接相关:如果记忆检索策略能通过 PPO/RL 自动适配,记忆不再只是工程模块,而成为 agent policy 的一部分。
#9. A Benchmark for Interactive World Models with a Unified Action Generation Framework
- 链接:https://arxiv.org/abs/2605.03941 | HF: https://huggingface.co/papers/2605.03941 | project: https://iWorld-Bench.com
- 来源/日期:arXiv / Hugging Face Daily Papers;published 2026-05-05,HF daily 2026-05-06
- 类别:Model-based RL / World Model / Evaluation / Embodied Agent
- 一句话贡献:提出 iWorld-Bench,用 330k 视频 clips 与 4.9k 测试样本评估 world model 的交互相关能力,如距离感知、轨迹跟随和记忆。
为什么值得关注:
虽然它偏视觉/embodied world model,但对 Dreamer-style LLM Agent 有结构启发:world model 不是只生成未来观测,还要接受 action、保持 memory、支持 trajectory following。当前 LLM Agent 的“世界模型”往往是文本化 simulator 或 self-imagination,缺少统一 action generation framework 和交互评估。
与 wenjun 方向的关系:
可以借鉴它的 benchmark 设计,为文本/代码环境构造 interactive world model benchmark:给定 action history,预测 workspace state、test outcome、bug location 或用户意图变化。
#10. Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems
- 链接:https://arxiv.org/abs/2605.04018
- 来源/日期:arXiv recent cs.CL;2026-05-06
- 类别:LLM Agent / Retrieval / Tool-use / Evaluation
- 一句话贡献:提出面向 agentic search 的 reasoning-intensive retrieval 评测与训练,强调检索器应提供支持下游推理的互补证据组合,而不只是语义相似 passage。
为什么值得关注:
Agentic search 的检索器不是传统 RAG 中的“找最相关文档”,而是要为多步推理提供证据 portfolio。这与 OpenSeeker-v2 的 search trajectory 训练形成呼应:一个强调 agent 轨迹,一个强调 retriever 训练/评测。
与 wenjun 方向的关系:
在 Code Agent 中,retrieval 也应从“找相似代码片段”转向“找能证明/反驳当前 hypothesis 的证据集合”:相关 issue、测试失败日志、调用链、历史 patch 都可能是 complementary evidence。
#11. EvoLM: Self-Evolving Language Models through Co-Evolved Discriminative Rubrics
- 链接:https://arxiv.org/abs/2605.03871
- 来源/日期:arXiv recent cs.AI;2026-05-06
- 类别:Post-training RL / Self-evolving LLM / Evaluation
- 一句话贡献:利用模型自身从预训练中获得的 evaluative knowledge,演化出 discriminative rubrics 作为训练信号,减少对人类标注、闭源 API 或固定可验证奖励的依赖。
简评:
这篇适合关注“自演化智能”的 wenjun 跟进。关键问题在于:自生成 rubric 会不会形成 reward hacking / self-confirmation loop?如果能设计环境让 rubric 必须经外部执行验证,就可能成为代码 agent self-evolution 的一条路线。
#12. Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?
- 链接:https://arxiv.org/abs/2605.03195
- 来源/日期:arXiv recent cs.AI;2026-05-06
- 类别:Code Agent / Agentic Execution / Post-training RL / Systems
- 一句话贡献:研究用 SFT + rubric-based LLM-as-judge RL 后训练的 4B 小模型,是否能替代 frontier model 承担 coding agent 中的 terminal execution 子代理角色。
简评:
这与实际 coding agent 系统非常相关:主模型负责高层规划,低成本子模型负责 search/debug/terminal execution,能降低长任务成本并保持主上下文干净。值得关注它的数据构造、rubric 设计和失败模式。
#13. Experience-RAG Skill: An Agent-Oriented Pluggable Experience-RAG Skill for Experience-Driven Retrieval Strategy Orchestration
- 链接:https://arxiv.org/abs/2605.03989
- 来源/日期:arXiv recent cs.AI;2026-05-06
- 类别:LLM Agent / Retrieval / Tool-use / Memory
- 一句话贡献:提出一个位于 agent 与 retriever pool 之间的可插拔检索编排 skill,根据场景和经验记忆选择检索策略并返回结构化证据。
简评:
它把 retrieval strategy selection 作为 agent skill,而不是固定 pipeline。这对长轨迹 agent 很自然:agent 应学会“什么时候 BM25、什么时候 dense、什么时候 multi-hop、什么时候 scientific verification”。代码 agent 中也可对应不同 search tool / AST tool / grep / semantic index 的选择策略。
#14. Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours
- 链接:https://arxiv.org/abs/2605.04019
- 来源/日期:arXiv recent cs.AI;2026-05-06
- 类别:LLM Agent / Safety / Evaluation / Tool-use
- 一句话贡献:基于 Dreadnode SDK 构建 red-teaming agent,自动组合 45+ adversarial attacks、450+ transforms 和 130+ scorers,将手工红队 workflow 自动化。
简评:
它说明 safety evaluation 也在 agent 化。对 wenjun 的启发是:环境中如果有丰富 scorer/attack/transform,agent 可以自动探索失败模式;这与“通过环境设计催生自演化智能”相关。
#15. ELAS: Efficient Pre-Training of Low-Rank Large Language Models via 2:4 Activation Sparsity
- 链接:https://arxiv.org/abs/2605.03667
- 来源/日期:arXiv recent cs.LG;2026-05-06
- 类别:Foundation Model Training / Systems / Efficient Pretraining
- 一句话贡献:研究低秩 LLM 预训练中 activation 矩阵仍占主要内存的问题,结合 2:4 activation sparsity 提升训练内存和吞吐效率。
简评:
这不是 agent 论文,但与基础模型训练机制相关。值得关注其对低秩训练、结构化稀疏、训练吞吐和性能退化之间 trade-off 的实证。
#2. 今日最值得精读的 3 篇
- OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories
https://arxiv.org/abs/2605.04036
精读理由:最直接对应“agent 能力由什么数据塑造”;如果结果可靠,它给 academic search agent 提供了低成本强 baseline。
- Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
https://arxiv.org/abs/2605.02801
精读理由:把多代理 RL 的优化对象形式化为 trace/graph,可直接迁移到 code agent、long-horizon agent 和 model-based RL。
- Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards
https://arxiv.org/abs/2605.03862
精读理由:从 final answer reward 走向 executor-grounded process reward,是 code agent RL 和可靠长推理训练的核心问题。
备选精读:Generate, Filter, Control, Replay(https://arxiv.org/abs/2605.02913),适合作为搭建 LLM RL rollout 实验框架的 taxonomy。
#3. 今日最值得跟进的 3 个 repo / model / dataset
- awesome-llm-mas-rl
- 链接:https://github.com/xxzcc/awesome-llm-mas-rl
- 来源:论文 Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces artifact
- 价值:包含 84-entry tagged paper pool、exclusion log 和 orchestration trace schema;适合快速建立多代理 RL 文献地图。
- open-thoughts/AgentTrove(HF Trending Dataset)
- 链接:https://huggingface.co/datasets/open-thoughts/AgentTrove
- 来源:Hugging Face datasets trending(2026-05-07 检索)
- 价值:名称显示为 agent 相关数据集,值得检查其轨迹格式、任务覆盖和是否可用于 agent SFT/RL 数据分析。
- Terminus-4B / 小模型 agentic terminal execution 路线
- 论文链接:https://arxiv.org/abs/2605.03195
- 来源:arXiv recent cs.AI 2026-05-06
- 价值:coding agent 降成本的现实路线:用后训练小模型承担 terminal/search/debug 子代理,而非所有子任务都调用 frontier model。
补充可看:GitHub daily trending 中出现 addyosmani/agent-skills、LearningCircuit/local-deep-research、bytedance/deer-flow 等 agent/search workflow 相关项目,但本次未进一步验证其论文关联和质量,建议仅作为工程动态观察。
#4. 研究机会 / Idea
#Idea 1:把 orchestration trace + GFCR 合并成 Code Agent RL 的统一数据结构
当前多代理 RL 论文强调 orchestration trace,rollout survey 强调 Generate-Filter-Control-Replay。一个可做的问题是:
对 coding agent,把每次任务记录为事件图:文件检索、假设生成、patch、test、rollback、subagent delegation、stop;再按 GFCR 标注每段轨迹属于生成、过滤、控制还是重放,训练一个能预测下一步 high-level action 和 termination 的策略。
潜在贡献:
- 比 token-level RL 更适合长任务;
- 可显式研究 stopping decision;
- 可用 SWE-bench / Workspace-Bench / terminal execution 数据做离线分析。
#Idea 2:Executor-grounded reward for latent / hidden planning
TraceLift 仍然训练文本 reasoning planner。wenjun 可进一步问:
如果 planner 产生的是不可完全展开的 latent state / compressed plan,如何用 executor 的行为反馈训练它?
具体实验:
- planner 输出短 plan 或 latent memory token;
- executor 执行代码修改/检索/测试;
- reward 不看 plan 可读性,而看 executor 成功率、调用成本、回滚次数;
- 对比 full CoT、summary plan、latent token、KV handoff 四种中间表示。
这会连接 latent-space reasoning、context compression 和 agent RL。
#Idea 3:Search Agent 的“高信息轨迹”能否迁移到 Code Agent?
OpenSeeker-v2 的核心假设是:少量高质量、高难度、高信息密度轨迹胜过大规模普通轨迹。可迁移为:
为 code agent 构造 high-information debugging trajectories:每一步必须减少候选 bug space、产生可验证证据或修改依赖图;过滤掉冗长但无信息增益的 terminal/search 动作。
可研究指标:
- 每次 tool call 的 information gain;
- patch 前后 test failure entropy 下降;
- 文件依赖图定位精度;
- low-step filtering 是否会牺牲探索鲁棒性。
#5. 快速结论
今天最强主线是:LLM Agent 后训练正在从“回答级 RLVR”进入“轨迹级、执行器 grounded、多代理 orchestration、记忆/检索系统可学习”的阶段。对 wenjun 来说,最值得抓住的是两条交叉线:
- 数据线:什么样的 agent trajectory 真正塑造 search/code/long-horizon 能力?OpenSeeker-v2、GFCR、Workspace-Bench 给了很好的入口。
- RL 线:如何把 long-horizon trace 中的 spawn/delegate/search/patch/test/stop 变成可学习、可 credit assignment 的对象?orchestration trace、TraceLift、MEMTIER 都在指向这个问题。