每日调研 2026-05-07 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-05-07 AI/LLM 最新论文与研究热点简报

检索时间：2026-05-07 08:00（Asia/Shanghai）。本期主要覆盖 arXiv 2026-05-06 recent 列表与 Hugging Face Daily Papers 2026-05-06 收录内容；arXiv API 在检索时触发 429 限流，因此改用 arXiv recent HTML 页面与单篇摘要页交叉补充。X/Twitter 未作为主依据，避免把不可稳定访问的信息当作事实；热点 repo/model/dataset 使用 GitHub Trending 与 Hugging Face Trending 页面作为替代来源。

#0. 今日总览：Agent RL 的焦点正在从“单次回答正确”转向“轨迹、记忆、检索、子代理协作”

过去 24-48 小时最值得 wenjun 注意的信号非常集中：

Search Agent / Deep Research Agent 的开源复现门槛在下降：OpenSeeker-v2 声称只用 10.6k 高信息、高难度轨迹 + SFT，就能在 BrowseComp、HLE、xbench 等指标上接近/超过重型工业 pipeline。这对“agent 预训练/后训练数据如何塑造能力”很关键。
LLM Agent RL 正在把优化对象从 token/答案扩展到 orchestration trace：多代理系统的 spawn、delegate、communicate、aggregate、stop 都可成为可学习决策；其中 stopping decision 仍是明显空白。
Reasoning RL 的训练信号更细粒度化：TraceLift 强调 executor-grounded reward，rollout survey 提供 Generate-Filter-Control-Replay 分类，说明未来做长轨迹 RL 不能只看 final answer reward。
Agent 基础设施方向出现多个“可实验化”问题：Workspace-Bench、MEMTIER、QKVShare 分别指向真实工作区依赖、长期记忆、KV-cache handoff，适合从系统/训练机制结合角度切入。
潜空间/世界模型相关进展仍主要来自 embodied/video/world model，而非纯 LLM latent reasoning：iWorld-Bench、Predictive Latents 等更偏视觉世界模型，但其“action-conditioned latent state + memory”对 Dreamer-style LLM Agent 仍有启发。

#1. 重点论文与动态筛选

#1. OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

链接：https://arxiv.org/abs/2605.04036 ｜ HF: https://huggingface.co/papers/2605.04036
来源/日期：arXiv / Hugging Face Daily Papers；published 2026-05-05，HF daily 2026-05-06
类别：LLM Agent / Tool-use / Post-training Data / Search Agent
一句话贡献：提出用高信息、高难度搜索轨迹训练 search agent，声称仅 10.6k SFT 数据即可在 BrowseComp、BrowseComp-ZH、Humanity's Last Exam、xbench 上达到 30B ReAct search agent 的强结果。

为什么值得关注：

这篇最直接击中 wenjun 近期关注的“agent 预训练/后训练数据如何塑造能力”。它的核心不是发明复杂 RL 算法，而是指出：若轨迹足够 informative、difficulty 足够高、工具集和知识图探索足够丰富，那么纯 SFT 就能逼近很多重型 CPT+SFT+RL pipeline 的效果。文中提到三类数据合成修改：扩大知识图规模、扩大工具集、严格 low-step filtering。这里的 low-step filtering 尤其值得细读，因为它可能不是简单“越短越好”，而是在筛掉低效搜索轨迹、提高单位 token 中的决策密度。

与 wenjun 方向的关系：

对 Code Agent / Search Agent 的 agentic RL：可以把“高难度、高信息轨迹”迁移到代码环境，比如只保留能跨文件定位、能最小化 terminal/tool 调用、能正确回滚错误假设的轨迹。
对 model-based RL / Dreamer for LLM Agent：OpenSeeker-v2 没有显式 world model，但它把搜索过程压缩为高质量轨迹，等价于给后续 model-based agent 提供可学习的 transition/action prior。
对 意图理解：deep search agent 的关键常常不是指令跟随，而是把模糊问题拆成可验证的查询/证据链；这可作为“从 instruction following 到 intent execution”的实验场。

#2. Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

链接：https://arxiv.org/abs/2605.02801 ｜ HF: https://huggingface.co/papers/2605.02801 ｜ artifact: https://github.com/xxzcc/awesome-llm-mas-rl
来源/日期：arXiv / Hugging Face Daily Papers；published 2026-05-04，HF daily 2026-05-06
类别：LLM Agent / Model-based RL / Post-training RL / Multi-Agent / Evaluation
一句话贡献：把 LLM 多代理 RL 的优化对象定义为 orchestration traces，即包含子代理生成、委派、通信、工具使用、返回、聚合、停止等事件的时序交互图。

为什么值得关注：

这篇是今天最适合 wenjun 精读的综述/框架型文章之一。它明确指出：当 agent 从单体 tool user 变成多代理团队时，RL 不能只优化“单个 agent 的 token action”，还要优化组织层面的决策。文章将 reward design、credit assignment、orchestration learning 拆成多个层次，并指出一个很有价值的空白：截至 2026-05-04，公开池中几乎没有显式针对 stopping decision 的 RL 训练方法。

与 wenjun 方向的关系：

长轨迹 RL：orchestration trace 是天然的长轨迹数据结构，适合定义 return、subgoal、option、termination。
model-based RL for Agent：可把 orchestration graph 当作抽象状态转移，把“spawn/delegate/stop”当作 high-level action，学习一个 planning model 或 value model。
Code Agent：代码任务中的子代理往往负责 search/debug/test/doc，最难的是何时停止、何时回退、何时并行；这篇的 schema 可直接迁移到 coding traces。

#3. Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

链接：https://arxiv.org/abs/2605.02913 ｜ HF: https://huggingface.co/papers/2605.02913
来源/日期：arXiv / Hugging Face Daily Papers；paper dated 2026-04-08，HF daily 2026-05-06
类别：Post-training RL / RLVR / Long-horizon Agent / Evaluation
一句话贡献：提出 Generate-Filter-Control-Replay（GFCR）分类法，系统整理 LLM RL 中 rollout 生成、过滤、控制和重放的策略。

为什么值得关注：

这篇虽然论文日期不是最近 48 小时，但被 HF Daily Papers 收录在 05-06，且与 wenjun 的 RL 主线高度相关。它的价值在于把 rollout 作为 LLM RL 的核心对象，而不再把 rollout 当成“采样若干回答”的实现细节。GFCR 四个阶段非常适合用来诊断长轨迹 agent：

Generate：轨迹拓扑怎么生成？线性、树状、并行、多代理？
Filter：verifier/judge/critic 如何给中间状态赋信号？
Control：预算、分支、继续/停止如何决策？
Replay：历史轨迹、失败片段、工具调用结果如何复用？

与 wenjun 方向的关系：

如果要做 Dreamer-style LLM Agent，GFCR 可以变成实验框架：先生成 environment rollouts，再过滤成可学习片段，用 control 学预算分配，用 replay 构建自演化 curriculum。尤其值得把 GFCR 与上面的 orchestration trace 合并：一个管“轨迹生命周期”，一个管“多代理事件结构”。

#4. Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards

链接：https://arxiv.org/abs/2605.03862
来源/日期：arXiv recent cs.AI；2026-05-06
类别：Post-training RL / Reasoning / Agent Planning / Evaluation
一句话贡献：提出 TraceLift，用 frozen executor 消费 planner 产生的 tagged reasoning，再用 executor-grounded reward 训练 planner，避免只用 final answer correctness 奖励“对但理由错”的轨迹。

为什么值得关注：

这篇抓住 RLVR 的一个核心漏洞：最终答案正确不代表中间推理真实、可复用、对执行器有帮助。在 agent 场景里，中间 reasoning 不只是解释文本，而是后续工具调用、代码修改、检索动作的输入。如果 reward 只看最终 pass/fail，就可能奖励不可执行的伪推理。

与 wenjun 方向的关系：

对 Code Agent RL：可把 executor 替换为 test runner / static analyzer / patch applier，让 planner 的 reasoning 只有在能帮助 executor 产出正确 patch 时才得高 reward。
对 latent-space reasoning：这篇仍是文本 trace，但思想可迁移：latent plan 的好坏不由可读性决定，而由 downstream executor 的行为改善决定。
对 长轨迹 RL：中间 trace 的可消费性可作为过程奖励，比单纯 outcome reward 更稳定。

#5. HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness

链接：https://arxiv.org/abs/2605.02396 ｜ HF: https://huggingface.co/papers/2605.02396
来源/日期：arXiv / Hugging Face Daily Papers；published 2026-05-04，HF daily 2026-05-06
类别：LLM Agent / Reasoning / Post-training RL / Self-evolving Agent
一句话贡献：把 agentic harness 中真正起作用的能力解释为模型内部的“heavy thinking skill”，即并行推理再汇总，并指出其深度和宽度可通过 RL 继续扩展。

为什么值得关注：

当前很多 agent harness 把能力提升归因于复杂编排、memory、tool、multi-agent；HeavySkill 反过来问：是不是底层模型学会了一种可内化的“重思考技能”？如果成立，这对 agent 研究很重要：与其不断堆外部 orchestration，不如研究如何把一部分外部搜索/并行/汇总能力蒸馏进模型参数。

与 wenjun 方向的关系：

与 agent 预训练数据如何塑造能力 强相关：多分支思考+汇总的轨迹能否作为预训练/后训练数据，形成模型内化 skill？
与 self-evolving code agent 相关：代码 agent 的多候选 patch、并行定位 bug、汇总测试证据，本质上就是 heavy thinking 的代码版本。
与 latent reasoning 相关：如果 heavy thinking 被内化，外部多分支文本轨迹可能会逐步压缩成隐式/潜空间计算。

#6. Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

链接：https://arxiv.org/abs/2605.03596 ｜ HF: https://huggingface.co/papers/2605.03596
来源/日期：arXiv / Hugging Face Daily Papers；published 2026-05-05，HF daily 2026-05-06
类别：LLM Agent / Code Agent / Evaluation / Tool-use
一句话贡献：构建含 20,476 个文件、74 种文件类型、388 个任务和 7,399 个 rubrics 的真实工作区 agent benchmark，评估 agent 对大规模文件依赖的理解与操作。

为什么值得关注：

这篇对代码智能/办公 agent 很实用。现有 benchmark 常给定少量合成文件，无法测试真实工作区中的隐式依赖、跨文件检索、上下文更新、长期状态维护。Workspace-Bench 的结果显示，当前最好 agent 约 68.7%，人类约 80.7%，平均 agent 仅 47.4%，说明差距仍大。

与 wenjun 方向的关系：

对 Code Agent 来说，真实难点不是“单文件补全”，而是 workspace-level dependency reasoning。这个 benchmark 可作为：

context compression 方法的评测场；
agent memory/retrieval 的真实压力测试；
训练“文件依赖图预测 + 修改计划”的数据来源。

#7. QKVShare: Quantized KV-Cache Handoff for Multi-Agent On-Device LLMs

链接：https://arxiv.org/abs/2605.03884
来源/日期：arXiv recent cs.AI；2026-05-06
类别：Systems / Multi-Agent / Context Compression / Efficient Inference
一句话贡献：提出多代理间量化 KV-cache handoff 机制，用 mixed-precision allocation、CacheCard 表示和 HF-compatible cache injection 降低重复 prefill 成本。

为什么值得关注：

多代理系统常常有大量共享上下文：主 agent 给子 agent 派发任务，子 agent 需要继承背景；当前要么重新 prefill，要么传 full-precision KV，成本都高。QKVShare 将“agent 间上下文传递”从文本层压缩推进到 KV-cache 层，是很具体的系统优化方向。

与 wenjun 方向的关系：

对 通用上下文压缩器：它提供了非文本摘要式压缩的路线，即保留可注入的 latent/KV state。
对 long-horizon agent：如果子任务间可低成本传递上下文，agent 更容易扩展到长工作流。
对 latent-space reasoning：KV handoff 可看作一种工程化的 latent state transfer，但需要研究可解释性、污染、跨模型兼容性。

#8. MEMTIER: Tiered Memory Architecture and Retrieval Bottleneck Analysis for Long-Running Autonomous AI Agents

链接：https://arxiv.org/abs/2605.03675
来源/日期：arXiv recent cs.AI；2026-05-06
类别：LLM Agent / Memory / Long-horizon Agent / Evaluation
一句话贡献：提出长期运行 agent 的分层记忆架构：episodic JSONL、五信号检索、attention-attributed cognitive weight、异步 consolidation 以及可用 PPO 调整检索权重的框架。

为什么值得关注：

长期 agent 的瓶颈常常不是模型单步能力，而是 72 小时甚至更长运行中的记忆一致性退化。MEMTIER 把记忆系统拆成 episodic/semantic 层，并把检索权重适配建模为可学习策略。摘要中也谨慎标注了“infrastructure validated; performance gains pending camera-ready”，因此应关注方法而不是过早相信最终效果。

与 wenjun 方向的关系：

这与 LLM Agent 长轨迹 RL 和 环境设计催生自演化智能 直接相关：如果记忆检索策略能通过 PPO/RL 自动适配，记忆不再只是工程模块，而成为 agent policy 的一部分。

#9. A Benchmark for Interactive World Models with a Unified Action Generation Framework

链接：https://arxiv.org/abs/2605.03941 ｜ HF: https://huggingface.co/papers/2605.03941 ｜ project: https://iWorld-Bench.com
来源/日期：arXiv / Hugging Face Daily Papers；published 2026-05-05，HF daily 2026-05-06
类别：Model-based RL / World Model / Evaluation / Embodied Agent
一句话贡献：提出 iWorld-Bench，用 330k 视频 clips 与 4.9k 测试样本评估 world model 的交互相关能力，如距离感知、轨迹跟随和记忆。

为什么值得关注：

虽然它偏视觉/embodied world model，但对 Dreamer-style LLM Agent 有结构启发：world model 不是只生成未来观测，还要接受 action、保持 memory、支持 trajectory following。当前 LLM Agent 的“世界模型”往往是文本化 simulator 或 self-imagination，缺少统一 action generation framework 和交互评估。

与 wenjun 方向的关系：

可以借鉴它的 benchmark 设计，为文本/代码环境构造 interactive world model benchmark：给定 action history，预测 workspace state、test outcome、bug location 或用户意图变化。

#10. Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems

链接：https://arxiv.org/abs/2605.04018
来源/日期：arXiv recent cs.CL；2026-05-06
类别：LLM Agent / Retrieval / Tool-use / Evaluation
一句话贡献：提出面向 agentic search 的 reasoning-intensive retrieval 评测与训练，强调检索器应提供支持下游推理的互补证据组合，而不只是语义相似 passage。

为什么值得关注：

Agentic search 的检索器不是传统 RAG 中的“找最相关文档”，而是要为多步推理提供证据 portfolio。这与 OpenSeeker-v2 的 search trajectory 训练形成呼应：一个强调 agent 轨迹，一个强调 retriever 训练/评测。

与 wenjun 方向的关系：

在 Code Agent 中，retrieval 也应从“找相似代码片段”转向“找能证明/反驳当前 hypothesis 的证据集合”：相关 issue、测试失败日志、调用链、历史 patch 都可能是 complementary evidence。

#11. EvoLM: Self-Evolving Language Models through Co-Evolved Discriminative Rubrics

链接：https://arxiv.org/abs/2605.03871
来源/日期：arXiv recent cs.AI；2026-05-06
类别：Post-training RL / Self-evolving LLM / Evaluation
一句话贡献：利用模型自身从预训练中获得的 evaluative knowledge，演化出 discriminative rubrics 作为训练信号，减少对人类标注、闭源 API 或固定可验证奖励的依赖。

简评：

这篇适合关注“自演化智能”的 wenjun 跟进。关键问题在于：自生成 rubric 会不会形成 reward hacking / self-confirmation loop？如果能设计环境让 rubric 必须经外部执行验证，就可能成为代码 agent self-evolution 的一条路线。

#12. Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

链接：https://arxiv.org/abs/2605.03195
来源/日期：arXiv recent cs.AI；2026-05-06
类别：Code Agent / Agentic Execution / Post-training RL / Systems
一句话贡献：研究用 SFT + rubric-based LLM-as-judge RL 后训练的 4B 小模型，是否能替代 frontier model 承担 coding agent 中的 terminal execution 子代理角色。

简评：

这与实际 coding agent 系统非常相关：主模型负责高层规划，低成本子模型负责 search/debug/terminal execution，能降低长任务成本并保持主上下文干净。值得关注它的数据构造、rubric 设计和失败模式。

#13. Experience-RAG Skill: An Agent-Oriented Pluggable Experience-RAG Skill for Experience-Driven Retrieval Strategy Orchestration

链接：https://arxiv.org/abs/2605.03989
来源/日期：arXiv recent cs.AI；2026-05-06
类别：LLM Agent / Retrieval / Tool-use / Memory
一句话贡献：提出一个位于 agent 与 retriever pool 之间的可插拔检索编排 skill，根据场景和经验记忆选择检索策略并返回结构化证据。

简评：

它把 retrieval strategy selection 作为 agent skill，而不是固定 pipeline。这对长轨迹 agent 很自然：agent 应学会“什么时候 BM25、什么时候 dense、什么时候 multi-hop、什么时候 scientific verification”。代码 agent 中也可对应不同 search tool / AST tool / grep / semantic index 的选择策略。

#14. Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours

链接：https://arxiv.org/abs/2605.04019
来源/日期：arXiv recent cs.AI；2026-05-06
类别：LLM Agent / Safety / Evaluation / Tool-use
一句话贡献：基于 Dreadnode SDK 构建 red-teaming agent，自动组合 45+ adversarial attacks、450+ transforms 和 130+ scorers，将手工红队 workflow 自动化。

简评：

它说明 safety evaluation 也在 agent 化。对 wenjun 的启发是：环境中如果有丰富 scorer/attack/transform，agent 可以自动探索失败模式；这与“通过环境设计催生自演化智能”相关。

#15. ELAS: Efficient Pre-Training of Low-Rank Large Language Models via 2:4 Activation Sparsity

链接：https://arxiv.org/abs/2605.03667
来源/日期：arXiv recent cs.LG；2026-05-06
类别：Foundation Model Training / Systems / Efficient Pretraining
一句话贡献：研究低秩 LLM 预训练中 activation 矩阵仍占主要内存的问题，结合 2:4 activation sparsity 提升训练内存和吞吐效率。

简评：

这不是 agent 论文，但与基础模型训练机制相关。值得关注其对低秩训练、结构化稀疏、训练吞吐和性能退化之间 trade-off 的实证。

#2. 今日最值得精读的 3 篇

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

https://arxiv.org/abs/2605.04036

精读理由：最直接对应“agent 能力由什么数据塑造”；如果结果可靠，它给 academic search agent 提供了低成本强 baseline。

Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

https://arxiv.org/abs/2605.02801

精读理由：把多代理 RL 的优化对象形式化为 trace/graph，可直接迁移到 code agent、long-horizon agent 和 model-based RL。

Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards

https://arxiv.org/abs/2605.03862

精读理由：从 final answer reward 走向 executor-grounded process reward，是 code agent RL 和可靠长推理训练的核心问题。

备选精读：Generate, Filter, Control, Replay（https://arxiv.org/abs/2605.02913），适合作为搭建 LLM RL rollout 实验框架的 taxonomy。

#3. 今日最值得跟进的 3 个 repo / model / dataset

awesome-llm-mas-rl

- 链接：https://github.com/xxzcc/awesome-llm-mas-rl

- 来源：论文 Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces artifact

- 价值：包含 84-entry tagged paper pool、exclusion log 和 orchestration trace schema；适合快速建立多代理 RL 文献地图。

open-thoughts/AgentTrove（HF Trending Dataset）

- 链接：https://huggingface.co/datasets/open-thoughts/AgentTrove

- 来源：Hugging Face datasets trending（2026-05-07 检索）

- 价值：名称显示为 agent 相关数据集，值得检查其轨迹格式、任务覆盖和是否可用于 agent SFT/RL 数据分析。

Terminus-4B / 小模型 agentic terminal execution 路线

- 论文链接：https://arxiv.org/abs/2605.03195

- 来源：arXiv recent cs.AI 2026-05-06

- 价值：coding agent 降成本的现实路线：用后训练小模型承担 terminal/search/debug 子代理，而非所有子任务都调用 frontier model。

补充可看：GitHub daily trending 中出现 addyosmani/agent-skills、LearningCircuit/local-deep-research、bytedance/deer-flow 等 agent/search workflow 相关项目，但本次未进一步验证其论文关联和质量，建议仅作为工程动态观察。

#4. 研究机会 / Idea

#Idea 1：把 orchestration trace + GFCR 合并成 Code Agent RL 的统一数据结构

当前多代理 RL 论文强调 orchestration trace，rollout survey 强调 Generate-Filter-Control-Replay。一个可做的问题是：

对 coding agent，把每次任务记录为事件图：文件检索、假设生成、patch、test、rollback、subagent delegation、stop；再按 GFCR 标注每段轨迹属于生成、过滤、控制还是重放，训练一个能预测下一步 high-level action 和 termination 的策略。

潜在贡献：

比 token-level RL 更适合长任务；
可显式研究 stopping decision；
可用 SWE-bench / Workspace-Bench / terminal execution 数据做离线分析。

#Idea 2：Executor-grounded reward for latent / hidden planning

TraceLift 仍然训练文本 reasoning planner。wenjun 可进一步问：

如果 planner 产生的是不可完全展开的 latent state / compressed plan，如何用 executor 的行为反馈训练它？

具体实验：

planner 输出短 plan 或 latent memory token；
executor 执行代码修改/检索/测试；
reward 不看 plan 可读性，而看 executor 成功率、调用成本、回滚次数；
对比 full CoT、summary plan、latent token、KV handoff 四种中间表示。

这会连接 latent-space reasoning、context compression 和 agent RL。

#Idea 3：Search Agent 的“高信息轨迹”能否迁移到 Code Agent？

OpenSeeker-v2 的核心假设是：少量高质量、高难度、高信息密度轨迹胜过大规模普通轨迹。可迁移为：

为 code agent 构造 high-information debugging trajectories：每一步必须减少候选 bug space、产生可验证证据或修改依赖图；过滤掉冗长但无信息增益的 terminal/search 动作。

可研究指标：

每次 tool call 的 information gain；
patch 前后 test failure entropy 下降；
文件依赖图定位精度；
low-step filtering 是否会牺牲探索鲁棒性。

#5. 快速结论

今天最强主线是：LLM Agent 后训练正在从“回答级 RLVR”进入“轨迹级、执行器 grounded、多代理 orchestration、记忆/检索系统可学习”的阶段。对 wenjun 来说，最值得抓住的是两条交叉线：

数据线：什么样的 agent trajectory 真正塑造 search/code/long-horizon 能力？OpenSeeker-v2、GFCR、Workspace-Bench 给了很好的入口。
RL 线：如何把 long-horizon trace 中的 spawn/delegate/search/patch/test/stop 变成可学习、可 credit assignment 的对象？orchestration trace、TraceLift、MEMTIER 都在指向这个问题。