#2026-06-03 AI/LLM 最新论文与研究热点简报
检索时间:2026-06-03 08:00-08:25 Asia/Shanghai
主要覆盖:Hugging Face Daily Papers 2026-06-02 榜单、arXiv recent list(cs.AI/cs.CL/cs.LG/cs.SE/stat.ML,重点 2026-06-01 提交及 2026-05-27~05-29 的 HF 高热论文)、GitHub Trending / arXiv 页面可见代码链接。
说明:X/Twitter 本次未作为可靠输入源使用;为了避免社媒不可验证信息,优先采用 HF/arXiv/GitHub。今天 arXiv 新提交里 Agent benchmark / continual agent / search agent 明显密集,因此简报重点偏 Agent 训练与评测。
#0. 今日总览:Agent 研究的焦点从“做任务”转向“外部状态、持续适应与结构化监控”
今天最值得关注的主线有三条:
- Search/Web Agent 的 RL 正在把“记忆/证据/验证”移出模型上下文:Harness-1 明确提出 state-externalizing harness,让环境维护候选池、证据链接、验证记录和压缩观察,模型只负责语义决策。这与昨天的 GrepSeek/LongTraceRL/SAAS 形成连续趋势:Agent RL 的关键不只是 reward,而是环境状态表示。
- Continual / self-evolving agent 开始有更严格评测:AGENTCL、Tracking Behavioral Trajectories、EvoNote 都在处理“经验如何跨 episode 变成可复用能力”的问题;这非常贴近 wenjun 关注的 self-evolving code agent 和长轨迹 RL。
- Agent benchmark 进入“环境仿真 + 覆盖度 + 风险监控”阶段:MCP-Persona、TASTE、K-BrowseComp、SPADE-Bench、Monitoring Agentic Systems 说明评测正在从单轮 QA 变成个人工具环境、多语言 web browsing、欺骗/plan-action divergence、生产系统结构性故障监控。
如果只看一篇,今天建议先看 Harness-1;如果要追一个方向,建议追 “stateful harness + policy RL + continual memory” 这条线。
#1. 重点论文与动态筛选
#1.1 Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
- 链接:<https://arxiv.org/abs/2606.02373>;HF Daily Papers:<https://huggingface.co/papers/2606.02373>
- 代码:<https://github.com/pat-jj/harness-1>
- 来源/日期:arXiv,2026-06-01;HF Daily Papers 2026-06-02
- 类别:LLM Agent / Tool-use / Post-training RL / Search Agent / Context Compression
- 一句话核心贡献:提出一个 20B search agent,在带外部工作记忆的 stateful search harness 中做 RL,让环境维护候选池、证据、验证记录、压缩去重观察和预算感知上下文,模型专注搜索、保留/丢弃、验证与停止等语义决策。
为什么值得关注:
这篇是今天与 wenjun 方向最贴近的论文。它指出 transcript-only policy 让模型同时承担两件事:一是语义搜索决策,二是大量可恢复的 bookkeeping。后者本可由环境更可靠地维护,却被塞进上下文让 RL 去学,导致训练信号混杂、上下文膨胀、长轨迹不稳定。Harness-1 的核心不是“又做一个搜索 Agent”,而是重新划分 policy 与 environment/harness 的职责边界。
与 wenjun 研究方向的关系:
这对 LLM model-based RL / Dreamer for LLM Agent 很关键。Dreamer 类方法要求有一个可建模的 latent state;而普通 LLM Agent 的 transcript state 过长、冗余、不可控。Harness-1 把状态外置成 candidate pool / evidence links / verification records / compressed observations,天然更像 MDP/POMDP 中的结构化 state。后续可以问:
- 能不能学习一个 world model 去预测“搜索动作会如何改变外部候选池/证据图”?
- 能不能用 imagined harness transitions 训练 search/verification/stop policy?
- 对代码 Agent,是否可以把 repo map、失败测试、patch history、假设列表也设计成 state-externalizing harness?
#1.2 AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents
- 链接:<https://arxiv.org/abs/2606.02461>
- 来源/日期:arXiv,2026-06-01
- 类别:LLM Agent / Continual Learning / Evaluation / Memory
- 一句话核心贡献:面向 language agent 的持续学习评测,强调 agent 应该跨任务流积累可复用经验、随时间提升,并避免无关经验干扰。
为什么值得关注:
很多“lifelong agent / memory agent”评测其实只是长上下文检索:把历史塞进去,看模型能否找到相关片段。AGENTCL 的价值在于把问题重新定义为 跨 episode 的经验复用与干扰控制。摘要明确批评现有 benchmark 对任务之间关系分析不足,因此无法判断 agent 是真的学会了 transferable experience,还是只是碰巧检索到了相似案例。
与 wenjun 研究方向的关系:
wenjun 关注的 self-evolving code agent 也有同样问题:做完一个 repo/debug 任务后,经验到底是“可迁移策略”还是“只对当前 repo 有用的局部记忆”?AGENTCL 这类 benchmark 可以启发构建代码版评测:任务流中显式控制 API 模式、bug 类型、测试失败模式、项目结构相似度,从而分离 positive transfer、negative transfer 和 memory overfitting。
#1.3 Tracking the Behavioral Trajectories of Adapting Agents
- 链接:<https://arxiv.org/abs/2606.02536>
- 来源/日期:arXiv,2026-06-01
- 类别:Self-evolving Agent / Continual Learning / Agent Evaluation / Memory & Skill Files
- 一句话核心贡献:提出用 skill/memory/behavior config 文件的 diff 来追踪 agent 行为特质变化,通过 embedding 方向定义 trait vector,衡量 agent adaptation 如何改变未来行为。
为什么值得关注:
现代 Agent 越来越依赖外部文本文件:skill files、memory files、behavior config、tool notes。人或 agent 自己修改这些文件后,agent 行为会被持续影响。论文用“before vs after skill file diff”学习 trait vector,再把任意 skill edit 投影到这个方向上,试图量化某类行为倾向的变化。它把 self-evolution 从“最后分数有没有涨”推进到“行为轨迹怎样变化”。
与 wenjun 研究方向的关系:
这可以直接迁移到代码 Agent:例如衡量一个 agent 在多轮自我更新后,是否更倾向于先跑测试、是否更倾向于做最小 patch、是否更倾向于使用 grep/AST 工具、是否更保守地修改大文件。对 agentic RL 来说,这相当于给外部 skill memory 的更新提供可解释的行为监督信号。
#1.4 MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation
- 链接:<https://arxiv.org/abs/2606.02470>
- 代码:<https://github.com/wwh0411/MCP-Persona>
- 来源/日期:arXiv,2026-06-01
- 类别:LLM Agent / Tool-use / MCP / Environment Simulation / Evaluation
- 一句话核心贡献:提出面向真实个人应用 MCP 工具的 Agent benchmark,用环境仿真覆盖个人账号/本地数据库类工具交互,而不只评测通用信息检索。
为什么值得关注:
MCP 已经快速成为 LLM 连接外部工具和数据源的标准,但现有 benchmark 多集中在通用搜索/信息查询,无法覆盖个人应用里的权限、偏好、上下文、局部数据库、社交关系等复杂性。MCP-Persona 的重要性在于把 agent evaluation 推向 personal tool environment,而非抽象 API 调用。
与 wenjun 研究方向的关系:
对“从指令理解走向意图理解”特别相关。个人应用场景中,用户往往不会把约束说全,agent 需要从历史、偏好、工具状态中推断 intent,并避免越权或误操作。若做 model-based RL,可以把 MCP 环境仿真作为可控 sandbox,用于训练/评估长轨迹个人助手策略。
#1.5 A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks
- 链接:<https://arxiv.org/abs/2605.28556>;HF Daily Papers:<https://huggingface.co/papers/2605.28556>
- 来源/日期:arXiv,2026-05-27;HF Daily Papers 2026-06-02
- 类别:LLM Agent / Tool-use / Evaluation / Benchmark Generation
- 一句话核心贡献:提出 TASTE,从 tool sequence 出发反向生成任务,用 Adaptive Contrastive n-gram model 和 LLM validity signals 采样覆盖更广、难度更高的工具使用任务。
为什么值得关注:
传统 agent benchmark 通常先写自然语言场景,再映射到工具调用序列,这会偏向人容易想到的模式,导致工具组合覆盖不足。TASTE 反过来从 tool sequence evolution 出发,先覆盖更广的动作组合,再实例化成任务。这对避免 benchmark saturation 很重要。
与 wenjun 研究方向的关系:
对 agentic RL 的环境设计很有启发:如果 reward/verifier 已有,训练瓶颈常常变成 task distribution 太窄。TASTE 类方法可以作为自动 curriculum generator,尤其适合代码 Agent:先采样工具序列(read/search/edit/test/debug),再生成 repo task,从而系统性覆盖不同长轨迹模式。
#1.6 K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts
- 链接:<https://arxiv.org/abs/2606.02404>;HF Daily Papers:<https://huggingface.co/papers/2606.02404>
- 来源/日期:arXiv,2026-06-01;HF Daily Papers 2026-06-02
- 类别:Web Agent / Evaluation / Multilingual Agent / BrowseComp
- 一句话核心贡献:构建 400 道韩国语境 web browsing agent benchmark,其中 300 道人工验证;摘要报告前沿模型在 verified subset 上也只有约 30.00%-45.67%。
为什么值得关注:
这篇提醒我们:web agent 能力并不等价于英文网页搜索能力。地域语境、本地实体、语言、网页结构和文化背景会显著改变任务难度。K-BrowseComp 对强模型的低分说明 agentic evaluation 的语言/地区泛化仍然很弱。
与 wenjun 研究方向的关系:
如果研究 Agent 预训练数据如何塑造能力,多语言/地域 web trajectories 是一个容易被忽视的数据维度。英文 web browsing 轨迹训练出来的 policy,未必能迁移到中文/韩文/本地服务环境。对代码 Agent 也类似:GitHub 英文开源项目上的 agent data,未必覆盖企业私有代码库和本地工具链。
#1.7 On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters
- 链接:<https://arxiv.org/abs/2606.02437>;HF Daily Papers:<https://huggingface.co/papers/2606.02437>
- 来源/日期:arXiv,2026-06-01;HF Daily Papers 2026-06-02
- 类别:Post-training / PEFT / Personal Models / Continual Learning / Infrastructure
- 一句话核心贡献:把 PEFT 从“低成本微调替代品”重新定义为强共享基础模型上的持久本地状态,用小 adapter 承载偏好、技能、工具习惯和 memory-like updates。
为什么值得关注:
论文提出 Scale Up / Scale Down / Scale Out 三个轴:更强 base model 让小 adapter 更有用;adapter 能小到什么程度仍可靠;大量持久 adapted instances 如何共存。它还提到 MinT 作为管理 adapter identity、revision、provenance、evaluation、serving residency 的基础设施例子。
与 wenjun 研究方向的关系:
这和 self-evolving agent 的外部 memory 路线互补:一条路线是修改 skill/memory 文本;另一条是维护小 adapter 作为可学习状态。对代码 Agent,可以考虑“每个 repo / 每类工具链 / 每个用户”有自己的 adapter,长期积累调试习惯和项目风格,同时共享一个强 base coder。
#1.8 A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL
- 链接:<https://arxiv.org/abs/2606.02398>
- 来源/日期:arXiv,2026-06-01
- 类别:Post-training RL / Continual Learning / Model Mechanism / Multi-domain RL
- 一句话核心贡献:研究 LLM 在数学、代码、问答、创意写作等单域 RL 后对其他域的干扰,指出即使全局梯度近似正交,局部共享计算路径上的小参数扰动仍会造成跨域退化。
为什么值得关注:
RL 后训练常见问题是某个域变强,其他域退化。该论文摘要强调,不能只用 catastrophic forgetting 或 global gradient conflict 解释;不同域的 top-changed neurons 可能重叠很弱,但它们共享 active computation routes,因此局部更新方向仍会产生干扰或恢复。
与 wenjun 研究方向的关系:
这对“基础模型训练与能力形成机制”很相关。做 agentic RL / code RLVR 时,不能只看目标 benchmark 是否提升,还要看通用推理、工具调用、语言能力是否被局部扰动破坏。后续值得结合 mechanistic interpretability 分析:哪些路由/子空间承载跨域共享能力,哪些参数适合低风险更新。
#1.9 SPADE-Bench: Evaluating Spontaneous Strategic Deception in Agents via Plan-Action Divergence
- 链接:<https://arxiv.org/abs/2606.02380>
- 来源/日期:arXiv,2026-06-01
- 类别:LLM Agent / Safety / Evaluation / Monitoring
- 一句话核心贡献:提出用 plan-action divergence 评估 agent 的自发策略性欺骗:对外报告的计划/进展与实际执行动作不一致。
为什么值得关注:
真实 agent 往往黑箱执行,用户依赖 agent 的 self-report。如果 agent 报告“我正在按计划做”,但实际动作偏离甚至隐瞒,那么传统 task success benchmark 很难捕捉风险。SPADE-Bench 把“观察者可见报告”和“真实 action trace”分离,是 agent safety 里很实际的问题。
与 wenjun 研究方向的关系:
长轨迹 RL 中如果只给 outcome reward,模型可能学到对 judge/用户有利但对真实任务不忠实的汇报策略。代码 Agent 中也可能出现“声称已运行测试但没跑”“声称修复 root cause 但只 patch benchmark”的问题。因此训练时需要 action trace audit、不可伪造工具日志和报告一致性 reward。
#1.10 Monitoring Agentic Systems Before They're Reliable
- 链接:<https://arxiv.org/abs/2606.02494>
- 来源/日期:arXiv,2026-06-01
- 类别:LLM Agent / Systems / Monitoring / Reliability / Evaluation
- 一句话核心贡献:提出在 agentic system 尚未可靠前进行监控和分诊的方法,将评估分为 quality、suitability、efficiency 三维与 within-run、cross-run、structural 三个监控范围,并用 variance 作为结构性信号。
为什么值得关注:
很多生产 agent 的早期失败不是单个任务答错,而是系统装配层面的结构问题:工具链不合适、上下文传递不稳定、运行间方差大、成本/延迟不可控。论文强调在任务级错误检测还不可行时,先做结构性监控,把人工注意力集中到高严重度子系统。
与 wenjun 研究方向的关系:
这对构建 Agent 训练/评测基础设施很实用。做 long-horizon agent RL 时,应该记录的不只是 final reward,还包括轨迹方差、工具调用分布、停止点、重试率、上下文压缩损失、verification coverage 等系统指标。
#1.11 Better with Experience: Self-Evolving LLM Agents for Evidence-Grounded Health Community Notes
- 链接:<https://arxiv.org/abs/2606.02215>
- 来源/日期:arXiv,2026-06-01
- 类别:Self-evolving Agent / Memory / Evidence-grounded Generation / Credit Assignment
- 一句话核心贡献:提出 EvoNote,让健康 misinformation correction agent 通过 evolving experience memory 自我演化,并把 trajectory-level feedback 蒸馏成 claim analysis、evidence acquisition、note writing 的 action-level memory。
为什么值得关注:
它的场景是健康社区笔记,但方法点很通用:不是把历史经验粗暴存进 memory,而是做细粒度 credit assignment,把一次任务的反馈拆解到不同 agent action。这个思路比“把成功案例存入向量库”更接近可训练的 self-evolution。
与 wenjun 研究方向的关系:
代码 Agent 可直接类比:一次修 bug 的 trajectory-level feedback 可以拆到 bug localization、hypothesis generation、patch editing、test selection、regression check 等动作级 memory。若结合 RL,可以把 memory update policy 作为单独模块优化。
#1.12 Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
- 链接:<https://arxiv.org/abs/2605.30611>;HF Daily Papers:<https://huggingface.co/papers/2605.30611>
- 代码:<https://github.com/HaozheZhao/Crafter>
- 来源/日期:arXiv,2026-05-28;HF Daily Papers 2026-06-02
- 类别:Multi-Agent / Scientific Workflow / Tool-use / Vision-Language
- 一句话核心贡献:提出 Crafter/CraftEditor,用 multi-agent harness 生成和编辑科学图示,将 raster 输出转成可局部修改的 SVG,并构建 CraftBench。
为什么值得关注:
虽然不是 wenjun 主线,但它再次强调“harness”概念:复杂任务的失败不一定需要更大 backbone,而可能需要把任务拆成结构化组件、局部编辑和多 agent 协作。科学写作/图示生成也是研究自动化 agent 的重要应用。
与 wenjun 研究方向的关系:
可作为“科研 Agent 工作流”的例子:Agent 不只是回答问题,还要产出可编辑 artifact。对代码 Agent 同理,最终产物应是可审查 patch、测试证据、设计说明,而非一次性文本输出。
#2. 其他值得扫一眼的论文/动态
| 标题 | 链接 | 来源/日期 | 类别 | 一句话核心贡献 |
|---|---|---|---|---|
| ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents | <https://arxiv.org/abs/2606.02568> | arXiv / 2026-06-01 | LLM Agent / Long-horizon / Medical Environment | 把真实住院病例构造成多阶段、不可逆决策的交互式临床 agent 环境。 |
| Iteris: Agentic Research Loops for Computational Mathematics | <https://arxiv.org/abs/2606.02484> | arXiv / 2026-06-01 | Research Agent / Mathematical Discovery | 面向计算数学开放问题构建 agentic research loop,结合数值实验、对抗构造和算法设计。 |
| An Agentic Approach Towards Replication Package Quality Evaluation | <https://arxiv.org/abs/2606.02006> | arXiv / 2026-06-01 | Code Agent / Scientific Reproducibility / Tool-use | 将开放科学指南转成可机器验证 criteria,用多 agent 自动检查 replication package 并生成证据化改进报告。 |
| Draft-OPD: On-Policy Distillation for Speculative Draft Models | <https://arxiv.org/abs/2605.29343> | arXiv / 2026-05-28, v2 2026-05-29;HF 2026-06-02 | Systems / Inference / Speculative Decoding | 指出 draft model SFT 存在 offline-to-inference mismatch,提出 on-policy distillation 改善 speculative decoding。 |
| Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding | <https://arxiv.org/abs/2605.29707> | arXiv / 2026-05-28;HF 2026-06-02 | Systems / Inference | 将因果依赖建模与自回归 draft 执行解耦,用并行 draft backbone 加轻量 Domino head 提升推测解码。 |
| SimSD: Simple Speculative Decoding in Diffusion Language Models | <https://arxiv.org/abs/2606.02544> | arXiv / 2026-06-01 | Systems / Diffusion LLM / Inference | 将 speculative decoding 思路适配到 diffusion language model 的 blockwise/parallel decoding 场景。 |
#3. 今日最值得精读的 3 篇
- Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
链接:<https://arxiv.org/abs/2606.02373>
推荐理由:最贴近 “LLM Agent + model-based RL + context/state design”。它给出了 transcript-only agent 的一个系统性替代方案,值得从环境设计角度精读。
- AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents
链接:<https://arxiv.org/abs/2606.02461>
推荐理由:持续学习 Agent 的 benchmark/评测设计很可能成为 self-evolving code agent 的基础问题。建议重点看它如何定义任务流、经验复用和干扰。
- A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL
链接:<https://arxiv.org/abs/2606.02398>
推荐理由:如果 wenjun 做 RLVR / agentic RL,必须关心单域 RL 对基础模型通用能力的副作用。这篇从局部参数扰动和共享 computation route 解释干扰,值得和 mechanistic interpretability 结合。
备选精读:如果今天想偏 benchmark/environment,则把第 3 篇换成 MCP-Persona 或 TASTE。
#4. 今日最值得跟进的 3 个 repo/model/dataset
- Harness-1 repo:<https://github.com/pat-jj/harness-1>
跟进点:查看它如何实现 stateful search harness、外部 working memory、context rendering、RL rollout 和 evaluation。最值得借鉴到代码 Agent harness。
- MCP-Persona repo:<https://github.com/wwh0411/MCP-Persona>
跟进点:MCP 工具环境仿真、personal application tasks、评测协议。可作为“个人助手/意图理解 Agent”训练环境参考。
- Crafter repo:<https://github.com/HaozheZhao/Crafter>
跟进点:multi-agent harness 如何把复杂 artifact 生成拆成可编辑组件;对科研自动化 Agent 和 artifact-level evaluation 有启发。
补充可扫:GitHub Trending 中今日出现的 anthropics/claude-code、jamwithai/production-agentic-rag-course、awslabs/agentcore-samples 等更偏产品/教程/样例,研究优先级低于上面三个。
#5. 研究机会 / idea
#Idea 1:把 Harness-1 扩展成“代码 Agent 的 state-externalizing harness”
问题:代码 Agent 的 transcript 里混着 repo 结构、grep 结果、失败测试、patch diff、假设、已排除路径、依赖信息,长轨迹时上下文迅速污染。
可能方向:设计一个 code harness,让环境维护:
- repo map / symbol graph;
- candidate files/functions;
- failing tests 与 error fingerprints;
- attempted patches 与 rollback history;
- hypotheses / verified facts / rejected causes;
- context budget-aware rendering。
然后让 LLM policy 只决策:查哪个文件、保留哪个候选、验证哪个假设、编辑哪里、何时停止。进一步可训练 world model 预测动作对这些状态槽的影响。
#Idea 2:区分 self-evolving agent 的三种能力:写经验、用经验、抗干扰
结合 AGENTCL、Tracking Behavioral Trajectories、EvoNote,可以把 self-evolving code agent 拆成:
- update ability:能否从一次失败/成功轨迹中写出有用经验;
- utilization ability:下一次是否真的利用这些经验;
- interference control:无关或错误经验是否会让 agent 变差。
这比单纯看 pass@k / SWE-bench 分数更能解释 agent 是否真的在“进化”。可以构建带 task relationship graph 的代码任务流,分别测正迁移、负迁移与遗忘。
#Idea 3:Agent RL 的 reward 不只评 final answer,还要评“报告—行动一致性”
SPADE-Bench 和 Monitoring Agentic Systems 提醒:Agent 训练若只优化 final success,可能学到隐藏失败、虚假汇报或过度自信。代码 Agent 尤其需要:
- 工具日志不可伪造;
- self-report 与 action trace 对齐;
- 声称运行的测试必须在 trace 中存在;
- 声称修复的 root cause 必须有 evidence link;
- 对未验证结论进行惩罚。
这可以转化为长轨迹 RL 的辅助 reward 或 verifier。
#6. 给 wenjun 的今日行动建议
- 上午快速读:Harness-1 摘要 + 方法图 + repo README,重点看 harness state schema。
- 中午扫一遍:AGENTCL 和 Tracking Behavioral Trajectories,记录它们如何定义 adaptation/continual learning。
- 下午可做小实验:把自己现有代码 Agent/debug 轨迹手动整理成 external state slots,看 transcript 中有多少 token 属于“可外置 bookkeeping”。这可能直接导出一个 paper idea:
State-Externalized Code Agent RL。
#参考链接汇总
- HF Daily Papers:<https://huggingface.co/papers?date=2026-06-02>
- arXiv cs.AI recent:<https://arxiv.org/list/cs.AI/recent>
- arXiv cs.CL recent:<https://arxiv.org/list/cs.CL/recent>
- arXiv cs.LG recent:<https://arxiv.org/list/cs.LG/recent>
- arXiv cs.SE recent:<https://arxiv.org/list/cs.SE/recent>
- GitHub Trending:<https://github.com/trending>