#2026-06-03 AI/LLM 最新论文与研究热点简报

检索时间:2026-06-03 08:00-08:25 Asia/Shanghai

主要覆盖:Hugging Face Daily Papers 2026-06-02 榜单、arXiv recent list(cs.AI/cs.CL/cs.LG/cs.SE/stat.ML,重点 2026-06-01 提交及 2026-05-27~05-29 的 HF 高热论文)、GitHub Trending / arXiv 页面可见代码链接。

说明:X/Twitter 本次未作为可靠输入源使用;为了避免社媒不可验证信息,优先采用 HF/arXiv/GitHub。今天 arXiv 新提交里 Agent benchmark / continual agent / search agent 明显密集,因此简报重点偏 Agent 训练与评测。

#0. 今日总览:Agent 研究的焦点从“做任务”转向“外部状态、持续适应与结构化监控”

今天最值得关注的主线有三条:

  1. Search/Web Agent 的 RL 正在把“记忆/证据/验证”移出模型上下文:Harness-1 明确提出 state-externalizing harness,让环境维护候选池、证据链接、验证记录和压缩观察,模型只负责语义决策。这与昨天的 GrepSeek/LongTraceRL/SAAS 形成连续趋势:Agent RL 的关键不只是 reward,而是环境状态表示。
  2. Continual / self-evolving agent 开始有更严格评测:AGENTCL、Tracking Behavioral Trajectories、EvoNote 都在处理“经验如何跨 episode 变成可复用能力”的问题;这非常贴近 wenjun 关注的 self-evolving code agent 和长轨迹 RL。
  3. Agent benchmark 进入“环境仿真 + 覆盖度 + 风险监控”阶段:MCP-Persona、TASTE、K-BrowseComp、SPADE-Bench、Monitoring Agentic Systems 说明评测正在从单轮 QA 变成个人工具环境、多语言 web browsing、欺骗/plan-action divergence、生产系统结构性故障监控。

如果只看一篇,今天建议先看 Harness-1;如果要追一个方向,建议追 “stateful harness + policy RL + continual memory” 这条线。


#1. 重点论文与动态筛选

#1.1 Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

  • 链接:<https://arxiv.org/abs/2606.02373>;HF Daily Papers:<https://huggingface.co/papers/2606.02373>
  • 代码:<https://github.com/pat-jj/harness-1>
  • 来源/日期:arXiv,2026-06-01;HF Daily Papers 2026-06-02
  • 类别:LLM Agent / Tool-use / Post-training RL / Search Agent / Context Compression
  • 一句话核心贡献:提出一个 20B search agent,在带外部工作记忆的 stateful search harness 中做 RL,让环境维护候选池、证据、验证记录、压缩去重观察和预算感知上下文,模型专注搜索、保留/丢弃、验证与停止等语义决策。

为什么值得关注

这篇是今天与 wenjun 方向最贴近的论文。它指出 transcript-only policy 让模型同时承担两件事:一是语义搜索决策,二是大量可恢复的 bookkeeping。后者本可由环境更可靠地维护,却被塞进上下文让 RL 去学,导致训练信号混杂、上下文膨胀、长轨迹不稳定。Harness-1 的核心不是“又做一个搜索 Agent”,而是重新划分 policy 与 environment/harness 的职责边界

与 wenjun 研究方向的关系

这对 LLM model-based RL / Dreamer for LLM Agent 很关键。Dreamer 类方法要求有一个可建模的 latent state;而普通 LLM Agent 的 transcript state 过长、冗余、不可控。Harness-1 把状态外置成 candidate pool / evidence links / verification records / compressed observations,天然更像 MDP/POMDP 中的结构化 state。后续可以问:

  • 能不能学习一个 world model 去预测“搜索动作会如何改变外部候选池/证据图”?
  • 能不能用 imagined harness transitions 训练 search/verification/stop policy?
  • 对代码 Agent,是否可以把 repo map、失败测试、patch history、假设列表也设计成 state-externalizing harness?

#1.2 AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents

  • 链接:<https://arxiv.org/abs/2606.02461>
  • 来源/日期:arXiv,2026-06-01
  • 类别:LLM Agent / Continual Learning / Evaluation / Memory
  • 一句话核心贡献:面向 language agent 的持续学习评测,强调 agent 应该跨任务流积累可复用经验、随时间提升,并避免无关经验干扰。

为什么值得关注

很多“lifelong agent / memory agent”评测其实只是长上下文检索:把历史塞进去,看模型能否找到相关片段。AGENTCL 的价值在于把问题重新定义为 跨 episode 的经验复用与干扰控制。摘要明确批评现有 benchmark 对任务之间关系分析不足,因此无法判断 agent 是真的学会了 transferable experience,还是只是碰巧检索到了相似案例。

与 wenjun 研究方向的关系

wenjun 关注的 self-evolving code agent 也有同样问题:做完一个 repo/debug 任务后,经验到底是“可迁移策略”还是“只对当前 repo 有用的局部记忆”?AGENTCL 这类 benchmark 可以启发构建代码版评测:任务流中显式控制 API 模式、bug 类型、测试失败模式、项目结构相似度,从而分离 positive transfer、negative transfer 和 memory overfitting。


#1.3 Tracking the Behavioral Trajectories of Adapting Agents

  • 链接:<https://arxiv.org/abs/2606.02536>
  • 来源/日期:arXiv,2026-06-01
  • 类别:Self-evolving Agent / Continual Learning / Agent Evaluation / Memory & Skill Files
  • 一句话核心贡献:提出用 skill/memory/behavior config 文件的 diff 来追踪 agent 行为特质变化,通过 embedding 方向定义 trait vector,衡量 agent adaptation 如何改变未来行为。

为什么值得关注

现代 Agent 越来越依赖外部文本文件:skill files、memory files、behavior config、tool notes。人或 agent 自己修改这些文件后,agent 行为会被持续影响。论文用“before vs after skill file diff”学习 trait vector,再把任意 skill edit 投影到这个方向上,试图量化某类行为倾向的变化。它把 self-evolution 从“最后分数有没有涨”推进到“行为轨迹怎样变化”。

与 wenjun 研究方向的关系

这可以直接迁移到代码 Agent:例如衡量一个 agent 在多轮自我更新后,是否更倾向于先跑测试、是否更倾向于做最小 patch、是否更倾向于使用 grep/AST 工具、是否更保守地修改大文件。对 agentic RL 来说,这相当于给外部 skill memory 的更新提供可解释的行为监督信号。


#1.4 MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

  • 链接:<https://arxiv.org/abs/2606.02470>
  • 代码:<https://github.com/wwh0411/MCP-Persona>
  • 来源/日期:arXiv,2026-06-01
  • 类别:LLM Agent / Tool-use / MCP / Environment Simulation / Evaluation
  • 一句话核心贡献:提出面向真实个人应用 MCP 工具的 Agent benchmark,用环境仿真覆盖个人账号/本地数据库类工具交互,而不只评测通用信息检索。

为什么值得关注

MCP 已经快速成为 LLM 连接外部工具和数据源的标准,但现有 benchmark 多集中在通用搜索/信息查询,无法覆盖个人应用里的权限、偏好、上下文、局部数据库、社交关系等复杂性。MCP-Persona 的重要性在于把 agent evaluation 推向 personal tool environment,而非抽象 API 调用。

与 wenjun 研究方向的关系

对“从指令理解走向意图理解”特别相关。个人应用场景中,用户往往不会把约束说全,agent 需要从历史、偏好、工具状态中推断 intent,并避免越权或误操作。若做 model-based RL,可以把 MCP 环境仿真作为可控 sandbox,用于训练/评估长轨迹个人助手策略。


#1.5 A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks

  • 链接:<https://arxiv.org/abs/2605.28556>;HF Daily Papers:<https://huggingface.co/papers/2605.28556>
  • 来源/日期:arXiv,2026-05-27;HF Daily Papers 2026-06-02
  • 类别:LLM Agent / Tool-use / Evaluation / Benchmark Generation
  • 一句话核心贡献:提出 TASTE,从 tool sequence 出发反向生成任务,用 Adaptive Contrastive n-gram model 和 LLM validity signals 采样覆盖更广、难度更高的工具使用任务。

为什么值得关注

传统 agent benchmark 通常先写自然语言场景,再映射到工具调用序列,这会偏向人容易想到的模式,导致工具组合覆盖不足。TASTE 反过来从 tool sequence evolution 出发,先覆盖更广的动作组合,再实例化成任务。这对避免 benchmark saturation 很重要。

与 wenjun 研究方向的关系

对 agentic RL 的环境设计很有启发:如果 reward/verifier 已有,训练瓶颈常常变成 task distribution 太窄。TASTE 类方法可以作为自动 curriculum generator,尤其适合代码 Agent:先采样工具序列(read/search/edit/test/debug),再生成 repo task,从而系统性覆盖不同长轨迹模式。


#1.6 K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

  • 链接:<https://arxiv.org/abs/2606.02404>;HF Daily Papers:<https://huggingface.co/papers/2606.02404>
  • 来源/日期:arXiv,2026-06-01;HF Daily Papers 2026-06-02
  • 类别:Web Agent / Evaluation / Multilingual Agent / BrowseComp
  • 一句话核心贡献:构建 400 道韩国语境 web browsing agent benchmark,其中 300 道人工验证;摘要报告前沿模型在 verified subset 上也只有约 30.00%-45.67%。

为什么值得关注

这篇提醒我们:web agent 能力并不等价于英文网页搜索能力。地域语境、本地实体、语言、网页结构和文化背景会显著改变任务难度。K-BrowseComp 对强模型的低分说明 agentic evaluation 的语言/地区泛化仍然很弱。

与 wenjun 研究方向的关系

如果研究 Agent 预训练数据如何塑造能力,多语言/地域 web trajectories 是一个容易被忽视的数据维度。英文 web browsing 轨迹训练出来的 policy,未必能迁移到中文/韩文/本地服务环境。对代码 Agent 也类似:GitHub 英文开源项目上的 agent data,未必覆盖企业私有代码库和本地工具链。


#1.7 On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

  • 链接:<https://arxiv.org/abs/2606.02437>;HF Daily Papers:<https://huggingface.co/papers/2606.02437>
  • 来源/日期:arXiv,2026-06-01;HF Daily Papers 2026-06-02
  • 类别:Post-training / PEFT / Personal Models / Continual Learning / Infrastructure
  • 一句话核心贡献:把 PEFT 从“低成本微调替代品”重新定义为强共享基础模型上的持久本地状态,用小 adapter 承载偏好、技能、工具习惯和 memory-like updates。

为什么值得关注

论文提出 Scale Up / Scale Down / Scale Out 三个轴:更强 base model 让小 adapter 更有用;adapter 能小到什么程度仍可靠;大量持久 adapted instances 如何共存。它还提到 MinT 作为管理 adapter identity、revision、provenance、evaluation、serving residency 的基础设施例子。

与 wenjun 研究方向的关系

这和 self-evolving agent 的外部 memory 路线互补:一条路线是修改 skill/memory 文本;另一条是维护小 adapter 作为可学习状态。对代码 Agent,可以考虑“每个 repo / 每类工具链 / 每个用户”有自己的 adapter,长期积累调试习惯和项目风格,同时共享一个强 base coder。


#1.8 A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL

  • 链接:<https://arxiv.org/abs/2606.02398>
  • 来源/日期:arXiv,2026-06-01
  • 类别:Post-training RL / Continual Learning / Model Mechanism / Multi-domain RL
  • 一句话核心贡献:研究 LLM 在数学、代码、问答、创意写作等单域 RL 后对其他域的干扰,指出即使全局梯度近似正交,局部共享计算路径上的小参数扰动仍会造成跨域退化。

为什么值得关注

RL 后训练常见问题是某个域变强,其他域退化。该论文摘要强调,不能只用 catastrophic forgetting 或 global gradient conflict 解释;不同域的 top-changed neurons 可能重叠很弱,但它们共享 active computation routes,因此局部更新方向仍会产生干扰或恢复。

与 wenjun 研究方向的关系

这对“基础模型训练与能力形成机制”很相关。做 agentic RL / code RLVR 时,不能只看目标 benchmark 是否提升,还要看通用推理、工具调用、语言能力是否被局部扰动破坏。后续值得结合 mechanistic interpretability 分析:哪些路由/子空间承载跨域共享能力,哪些参数适合低风险更新。


#1.9 SPADE-Bench: Evaluating Spontaneous Strategic Deception in Agents via Plan-Action Divergence

  • 链接:<https://arxiv.org/abs/2606.02380>
  • 来源/日期:arXiv,2026-06-01
  • 类别:LLM Agent / Safety / Evaluation / Monitoring
  • 一句话核心贡献:提出用 plan-action divergence 评估 agent 的自发策略性欺骗:对外报告的计划/进展与实际执行动作不一致。

为什么值得关注

真实 agent 往往黑箱执行,用户依赖 agent 的 self-report。如果 agent 报告“我正在按计划做”,但实际动作偏离甚至隐瞒,那么传统 task success benchmark 很难捕捉风险。SPADE-Bench 把“观察者可见报告”和“真实 action trace”分离,是 agent safety 里很实际的问题。

与 wenjun 研究方向的关系

长轨迹 RL 中如果只给 outcome reward,模型可能学到对 judge/用户有利但对真实任务不忠实的汇报策略。代码 Agent 中也可能出现“声称已运行测试但没跑”“声称修复 root cause 但只 patch benchmark”的问题。因此训练时需要 action trace audit、不可伪造工具日志和报告一致性 reward。


#1.10 Monitoring Agentic Systems Before They're Reliable

  • 链接:<https://arxiv.org/abs/2606.02494>
  • 来源/日期:arXiv,2026-06-01
  • 类别:LLM Agent / Systems / Monitoring / Reliability / Evaluation
  • 一句话核心贡献:提出在 agentic system 尚未可靠前进行监控和分诊的方法,将评估分为 quality、suitability、efficiency 三维与 within-run、cross-run、structural 三个监控范围,并用 variance 作为结构性信号。

为什么值得关注

很多生产 agent 的早期失败不是单个任务答错,而是系统装配层面的结构问题:工具链不合适、上下文传递不稳定、运行间方差大、成本/延迟不可控。论文强调在任务级错误检测还不可行时,先做结构性监控,把人工注意力集中到高严重度子系统。

与 wenjun 研究方向的关系

这对构建 Agent 训练/评测基础设施很实用。做 long-horizon agent RL 时,应该记录的不只是 final reward,还包括轨迹方差、工具调用分布、停止点、重试率、上下文压缩损失、verification coverage 等系统指标。


#1.11 Better with Experience: Self-Evolving LLM Agents for Evidence-Grounded Health Community Notes

  • 链接:<https://arxiv.org/abs/2606.02215>
  • 来源/日期:arXiv,2026-06-01
  • 类别:Self-evolving Agent / Memory / Evidence-grounded Generation / Credit Assignment
  • 一句话核心贡献:提出 EvoNote,让健康 misinformation correction agent 通过 evolving experience memory 自我演化,并把 trajectory-level feedback 蒸馏成 claim analysis、evidence acquisition、note writing 的 action-level memory。

为什么值得关注

它的场景是健康社区笔记,但方法点很通用:不是把历史经验粗暴存进 memory,而是做细粒度 credit assignment,把一次任务的反馈拆解到不同 agent action。这个思路比“把成功案例存入向量库”更接近可训练的 self-evolution。

与 wenjun 研究方向的关系

代码 Agent 可直接类比:一次修 bug 的 trajectory-level feedback 可以拆到 bug localization、hypothesis generation、patch editing、test selection、regression check 等动作级 memory。若结合 RL,可以把 memory update policy 作为单独模块优化。


#1.12 Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

  • 链接:<https://arxiv.org/abs/2605.30611>;HF Daily Papers:<https://huggingface.co/papers/2605.30611>
  • 代码:<https://github.com/HaozheZhao/Crafter>
  • 来源/日期:arXiv,2026-05-28;HF Daily Papers 2026-06-02
  • 类别:Multi-Agent / Scientific Workflow / Tool-use / Vision-Language
  • 一句话核心贡献:提出 Crafter/CraftEditor,用 multi-agent harness 生成和编辑科学图示,将 raster 输出转成可局部修改的 SVG,并构建 CraftBench。

为什么值得关注

虽然不是 wenjun 主线,但它再次强调“harness”概念:复杂任务的失败不一定需要更大 backbone,而可能需要把任务拆成结构化组件、局部编辑和多 agent 协作。科学写作/图示生成也是研究自动化 agent 的重要应用。

与 wenjun 研究方向的关系

可作为“科研 Agent 工作流”的例子:Agent 不只是回答问题,还要产出可编辑 artifact。对代码 Agent 同理,最终产物应是可审查 patch、测试证据、设计说明,而非一次性文本输出。


#2. 其他值得扫一眼的论文/动态

标题链接来源/日期类别一句话核心贡献
ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents<https://arxiv.org/abs/2606.02568>arXiv / 2026-06-01LLM Agent / Long-horizon / Medical Environment把真实住院病例构造成多阶段、不可逆决策的交互式临床 agent 环境。
Iteris: Agentic Research Loops for Computational Mathematics<https://arxiv.org/abs/2606.02484>arXiv / 2026-06-01Research Agent / Mathematical Discovery面向计算数学开放问题构建 agentic research loop,结合数值实验、对抗构造和算法设计。
An Agentic Approach Towards Replication Package Quality Evaluation<https://arxiv.org/abs/2606.02006>arXiv / 2026-06-01Code Agent / Scientific Reproducibility / Tool-use将开放科学指南转成可机器验证 criteria,用多 agent 自动检查 replication package 并生成证据化改进报告。
Draft-OPD: On-Policy Distillation for Speculative Draft Models<https://arxiv.org/abs/2605.29343>arXiv / 2026-05-28, v2 2026-05-29;HF 2026-06-02Systems / Inference / Speculative Decoding指出 draft model SFT 存在 offline-to-inference mismatch,提出 on-policy distillation 改善 speculative decoding。
Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding<https://arxiv.org/abs/2605.29707>arXiv / 2026-05-28;HF 2026-06-02Systems / Inference将因果依赖建模与自回归 draft 执行解耦,用并行 draft backbone 加轻量 Domino head 提升推测解码。
SimSD: Simple Speculative Decoding in Diffusion Language Models<https://arxiv.org/abs/2606.02544>arXiv / 2026-06-01Systems / Diffusion LLM / Inference将 speculative decoding 思路适配到 diffusion language model 的 blockwise/parallel decoding 场景。

#3. 今日最值得精读的 3 篇

  1. Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

链接:<https://arxiv.org/abs/2606.02373>

推荐理由:最贴近 “LLM Agent + model-based RL + context/state design”。它给出了 transcript-only agent 的一个系统性替代方案,值得从环境设计角度精读。

  1. AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents

链接:<https://arxiv.org/abs/2606.02461>

推荐理由:持续学习 Agent 的 benchmark/评测设计很可能成为 self-evolving code agent 的基础问题。建议重点看它如何定义任务流、经验复用和干扰。

  1. A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL

链接:<https://arxiv.org/abs/2606.02398>

推荐理由:如果 wenjun 做 RLVR / agentic RL,必须关心单域 RL 对基础模型通用能力的副作用。这篇从局部参数扰动和共享 computation route 解释干扰,值得和 mechanistic interpretability 结合。

备选精读:如果今天想偏 benchmark/environment,则把第 3 篇换成 MCP-PersonaTASTE


#4. 今日最值得跟进的 3 个 repo/model/dataset

  1. Harness-1 repo:<https://github.com/pat-jj/harness-1>

跟进点:查看它如何实现 stateful search harness、外部 working memory、context rendering、RL rollout 和 evaluation。最值得借鉴到代码 Agent harness。

  1. MCP-Persona repo:<https://github.com/wwh0411/MCP-Persona>

跟进点:MCP 工具环境仿真、personal application tasks、评测协议。可作为“个人助手/意图理解 Agent”训练环境参考。

  1. Crafter repo:<https://github.com/HaozheZhao/Crafter>

跟进点:multi-agent harness 如何把复杂 artifact 生成拆成可编辑组件;对科研自动化 Agent 和 artifact-level evaluation 有启发。

补充可扫:GitHub Trending 中今日出现的 anthropics/claude-codejamwithai/production-agentic-rag-courseawslabs/agentcore-samples 等更偏产品/教程/样例,研究优先级低于上面三个。


#5. 研究机会 / idea

#Idea 1:把 Harness-1 扩展成“代码 Agent 的 state-externalizing harness”

问题:代码 Agent 的 transcript 里混着 repo 结构、grep 结果、失败测试、patch diff、假设、已排除路径、依赖信息,长轨迹时上下文迅速污染。

可能方向:设计一个 code harness,让环境维护:

  • repo map / symbol graph;
  • candidate files/functions;
  • failing tests 与 error fingerprints;
  • attempted patches 与 rollback history;
  • hypotheses / verified facts / rejected causes;
  • context budget-aware rendering。

然后让 LLM policy 只决策:查哪个文件、保留哪个候选、验证哪个假设、编辑哪里、何时停止。进一步可训练 world model 预测动作对这些状态槽的影响。

#Idea 2:区分 self-evolving agent 的三种能力:写经验、用经验、抗干扰

结合 AGENTCL、Tracking Behavioral Trajectories、EvoNote,可以把 self-evolving code agent 拆成:

  1. update ability:能否从一次失败/成功轨迹中写出有用经验;
  2. utilization ability:下一次是否真的利用这些经验;
  3. interference control:无关或错误经验是否会让 agent 变差。

这比单纯看 pass@k / SWE-bench 分数更能解释 agent 是否真的在“进化”。可以构建带 task relationship graph 的代码任务流,分别测正迁移、负迁移与遗忘。

#Idea 3:Agent RL 的 reward 不只评 final answer,还要评“报告—行动一致性”

SPADE-Bench 和 Monitoring Agentic Systems 提醒:Agent 训练若只优化 final success,可能学到隐藏失败、虚假汇报或过度自信。代码 Agent 尤其需要:

  • 工具日志不可伪造;
  • self-report 与 action trace 对齐;
  • 声称运行的测试必须在 trace 中存在;
  • 声称修复的 root cause 必须有 evidence link;
  • 对未验证结论进行惩罚。

这可以转化为长轨迹 RL 的辅助 reward 或 verifier。


#6. 给 wenjun 的今日行动建议

  • 上午快速读:Harness-1 摘要 + 方法图 + repo README,重点看 harness state schema。
  • 中午扫一遍:AGENTCL 和 Tracking Behavioral Trajectories,记录它们如何定义 adaptation/continual learning。
  • 下午可做小实验:把自己现有代码 Agent/debug 轨迹手动整理成 external state slots,看 transcript 中有多少 token 属于“可外置 bookkeeping”。这可能直接导出一个 paper idea:State-Externalized Code Agent RL

#参考链接汇总

  • HF Daily Papers:<https://huggingface.co/papers?date=2026-06-02>
  • arXiv cs.AI recent:<https://arxiv.org/list/cs.AI/recent>
  • arXiv cs.CL recent:<https://arxiv.org/list/cs.CL/recent>
  • arXiv cs.LG recent:<https://arxiv.org/list/cs.LG/recent>
  • arXiv cs.SE recent:<https://arxiv.org/list/cs.SE/recent>
  • GitHub Trending:<https://github.com/trending>