每日调研 2026-06-03 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-06-03 AI/LLM 最新论文与研究热点简报

检索时间：2026-06-03 08:00-08:25 Asia/Shanghai
主要覆盖：Hugging Face Daily Papers 2026-06-02 榜单、arXiv recent list（cs.AI/cs.CL/cs.LG/cs.SE/stat.ML，重点 2026-06-01 提交及 2026-05-27~05-29 的 HF 高热论文）、GitHub Trending / arXiv 页面可见代码链接。
说明：X/Twitter 本次未作为可靠输入源使用；为了避免社媒不可验证信息，优先采用 HF/arXiv/GitHub。今天 arXiv 新提交里 Agent benchmark / continual agent / search agent 明显密集，因此简报重点偏 Agent 训练与评测。

#0. 今日总览：Agent 研究的焦点从“做任务”转向“外部状态、持续适应与结构化监控”

今天最值得关注的主线有三条：

Search/Web Agent 的 RL 正在把“记忆/证据/验证”移出模型上下文：Harness-1 明确提出 state-externalizing harness，让环境维护候选池、证据链接、验证记录和压缩观察，模型只负责语义决策。这与昨天的 GrepSeek/LongTraceRL/SAAS 形成连续趋势：Agent RL 的关键不只是 reward，而是环境状态表示。
Continual / self-evolving agent 开始有更严格评测：AGENTCL、Tracking Behavioral Trajectories、EvoNote 都在处理“经验如何跨 episode 变成可复用能力”的问题；这非常贴近 wenjun 关注的 self-evolving code agent 和长轨迹 RL。
Agent benchmark 进入“环境仿真 + 覆盖度 + 风险监控”阶段：MCP-Persona、TASTE、K-BrowseComp、SPADE-Bench、Monitoring Agentic Systems 说明评测正在从单轮 QA 变成个人工具环境、多语言 web browsing、欺骗/plan-action divergence、生产系统结构性故障监控。

如果只看一篇，今天建议先看 Harness-1；如果要追一个方向，建议追 “stateful harness + policy RL + continual memory” 这条线。

#1. 重点论文与动态筛选

#1.1 Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

链接：<https://arxiv.org/abs/2606.02373>；HF Daily Papers：<https://huggingface.co/papers/2606.02373>
代码：<https://github.com/pat-jj/harness-1>
来源/日期：arXiv，2026-06-01；HF Daily Papers 2026-06-02
类别：LLM Agent / Tool-use / Post-training RL / Search Agent / Context Compression
一句话核心贡献：提出一个 20B search agent，在带外部工作记忆的 stateful search harness 中做 RL，让环境维护候选池、证据、验证记录、压缩去重观察和预算感知上下文，模型专注搜索、保留/丢弃、验证与停止等语义决策。

为什么值得关注：

这篇是今天与 wenjun 方向最贴近的论文。它指出 transcript-only policy 让模型同时承担两件事：一是语义搜索决策，二是大量可恢复的 bookkeeping。后者本可由环境更可靠地维护，却被塞进上下文让 RL 去学，导致训练信号混杂、上下文膨胀、长轨迹不稳定。Harness-1 的核心不是“又做一个搜索 Agent”，而是重新划分 policy 与 environment/harness 的职责边界。

与 wenjun 研究方向的关系：

这对 LLM model-based RL / Dreamer for LLM Agent 很关键。Dreamer 类方法要求有一个可建模的 latent state；而普通 LLM Agent 的 transcript state 过长、冗余、不可控。Harness-1 把状态外置成 candidate pool / evidence links / verification records / compressed observations，天然更像 MDP/POMDP 中的结构化 state。后续可以问：

能不能学习一个 world model 去预测“搜索动作会如何改变外部候选池/证据图”？
能不能用 imagined harness transitions 训练 search/verification/stop policy？
对代码 Agent，是否可以把 repo map、失败测试、patch history、假设列表也设计成 state-externalizing harness？

#1.2 AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents

链接：<https://arxiv.org/abs/2606.02461>
来源/日期：arXiv，2026-06-01
类别：LLM Agent / Continual Learning / Evaluation / Memory
一句话核心贡献：面向 language agent 的持续学习评测，强调 agent 应该跨任务流积累可复用经验、随时间提升，并避免无关经验干扰。

为什么值得关注：

很多“lifelong agent / memory agent”评测其实只是长上下文检索：把历史塞进去，看模型能否找到相关片段。AGENTCL 的价值在于把问题重新定义为 跨 episode 的经验复用与干扰控制。摘要明确批评现有 benchmark 对任务之间关系分析不足，因此无法判断 agent 是真的学会了 transferable experience，还是只是碰巧检索到了相似案例。

与 wenjun 研究方向的关系：

wenjun 关注的 self-evolving code agent 也有同样问题：做完一个 repo/debug 任务后，经验到底是“可迁移策略”还是“只对当前 repo 有用的局部记忆”？AGENTCL 这类 benchmark 可以启发构建代码版评测：任务流中显式控制 API 模式、bug 类型、测试失败模式、项目结构相似度，从而分离 positive transfer、negative transfer 和 memory overfitting。

#1.3 Tracking the Behavioral Trajectories of Adapting Agents

链接：<https://arxiv.org/abs/2606.02536>
来源/日期：arXiv，2026-06-01
类别：Self-evolving Agent / Continual Learning / Agent Evaluation / Memory & Skill Files
一句话核心贡献：提出用 skill/memory/behavior config 文件的 diff 来追踪 agent 行为特质变化，通过 embedding 方向定义 trait vector，衡量 agent adaptation 如何改变未来行为。

为什么值得关注：

现代 Agent 越来越依赖外部文本文件：skill files、memory files、behavior config、tool notes。人或 agent 自己修改这些文件后，agent 行为会被持续影响。论文用“before vs after skill file diff”学习 trait vector，再把任意 skill edit 投影到这个方向上，试图量化某类行为倾向的变化。它把 self-evolution 从“最后分数有没有涨”推进到“行为轨迹怎样变化”。

与 wenjun 研究方向的关系：

这可以直接迁移到代码 Agent：例如衡量一个 agent 在多轮自我更新后，是否更倾向于先跑测试、是否更倾向于做最小 patch、是否更倾向于使用 grep/AST 工具、是否更保守地修改大文件。对 agentic RL 来说，这相当于给外部 skill memory 的更新提供可解释的行为监督信号。

#1.4 MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

链接：<https://arxiv.org/abs/2606.02470>
代码：<https://github.com/wwh0411/MCP-Persona>
来源/日期：arXiv，2026-06-01
类别：LLM Agent / Tool-use / MCP / Environment Simulation / Evaluation
一句话核心贡献：提出面向真实个人应用 MCP 工具的 Agent benchmark，用环境仿真覆盖个人账号/本地数据库类工具交互，而不只评测通用信息检索。

为什么值得关注：

MCP 已经快速成为 LLM 连接外部工具和数据源的标准，但现有 benchmark 多集中在通用搜索/信息查询，无法覆盖个人应用里的权限、偏好、上下文、局部数据库、社交关系等复杂性。MCP-Persona 的重要性在于把 agent evaluation 推向 personal tool environment，而非抽象 API 调用。

与 wenjun 研究方向的关系：

对“从指令理解走向意图理解”特别相关。个人应用场景中，用户往往不会把约束说全，agent 需要从历史、偏好、工具状态中推断 intent，并避免越权或误操作。若做 model-based RL，可以把 MCP 环境仿真作为可控 sandbox，用于训练/评估长轨迹个人助手策略。

#1.5 A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks

链接：<https://arxiv.org/abs/2605.28556>；HF Daily Papers：<https://huggingface.co/papers/2605.28556>
来源/日期：arXiv，2026-05-27；HF Daily Papers 2026-06-02
类别：LLM Agent / Tool-use / Evaluation / Benchmark Generation
一句话核心贡献：提出 TASTE，从 tool sequence 出发反向生成任务，用 Adaptive Contrastive n-gram model 和 LLM validity signals 采样覆盖更广、难度更高的工具使用任务。

为什么值得关注：

传统 agent benchmark 通常先写自然语言场景，再映射到工具调用序列，这会偏向人容易想到的模式，导致工具组合覆盖不足。TASTE 反过来从 tool sequence evolution 出发，先覆盖更广的动作组合，再实例化成任务。这对避免 benchmark saturation 很重要。

与 wenjun 研究方向的关系：

对 agentic RL 的环境设计很有启发：如果 reward/verifier 已有，训练瓶颈常常变成 task distribution 太窄。TASTE 类方法可以作为自动 curriculum generator，尤其适合代码 Agent：先采样工具序列（read/search/edit/test/debug），再生成 repo task，从而系统性覆盖不同长轨迹模式。

#1.6 K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

链接：<https://arxiv.org/abs/2606.02404>；HF Daily Papers：<https://huggingface.co/papers/2606.02404>
来源/日期：arXiv，2026-06-01；HF Daily Papers 2026-06-02
类别：Web Agent / Evaluation / Multilingual Agent / BrowseComp
一句话核心贡献：构建 400 道韩国语境 web browsing agent benchmark，其中 300 道人工验证；摘要报告前沿模型在 verified subset 上也只有约 30.00%-45.67%。

为什么值得关注：

这篇提醒我们：web agent 能力并不等价于英文网页搜索能力。地域语境、本地实体、语言、网页结构和文化背景会显著改变任务难度。K-BrowseComp 对强模型的低分说明 agentic evaluation 的语言/地区泛化仍然很弱。

与 wenjun 研究方向的关系：

如果研究 Agent 预训练数据如何塑造能力，多语言/地域 web trajectories 是一个容易被忽视的数据维度。英文 web browsing 轨迹训练出来的 policy，未必能迁移到中文/韩文/本地服务环境。对代码 Agent 也类似：GitHub 英文开源项目上的 agent data，未必覆盖企业私有代码库和本地工具链。

#1.7 On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

链接：<https://arxiv.org/abs/2606.02437>；HF Daily Papers：<https://huggingface.co/papers/2606.02437>
来源/日期：arXiv，2026-06-01；HF Daily Papers 2026-06-02
类别：Post-training / PEFT / Personal Models / Continual Learning / Infrastructure
一句话核心贡献：把 PEFT 从“低成本微调替代品”重新定义为强共享基础模型上的持久本地状态，用小 adapter 承载偏好、技能、工具习惯和 memory-like updates。

为什么值得关注：

论文提出 Scale Up / Scale Down / Scale Out 三个轴：更强 base model 让小 adapter 更有用；adapter 能小到什么程度仍可靠；大量持久 adapted instances 如何共存。它还提到 MinT 作为管理 adapter identity、revision、provenance、evaluation、serving residency 的基础设施例子。

与 wenjun 研究方向的关系：

这和 self-evolving agent 的外部 memory 路线互补：一条路线是修改 skill/memory 文本；另一条是维护小 adapter 作为可学习状态。对代码 Agent，可以考虑“每个 repo / 每类工具链 / 每个用户”有自己的 adapter，长期积累调试习惯和项目风格，同时共享一个强 base coder。

#1.8 A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL

链接：<https://arxiv.org/abs/2606.02398>
来源/日期：arXiv，2026-06-01
类别：Post-training RL / Continual Learning / Model Mechanism / Multi-domain RL
一句话核心贡献：研究 LLM 在数学、代码、问答、创意写作等单域 RL 后对其他域的干扰，指出即使全局梯度近似正交，局部共享计算路径上的小参数扰动仍会造成跨域退化。

为什么值得关注：

RL 后训练常见问题是某个域变强，其他域退化。该论文摘要强调，不能只用 catastrophic forgetting 或 global gradient conflict 解释；不同域的 top-changed neurons 可能重叠很弱，但它们共享 active computation routes，因此局部更新方向仍会产生干扰或恢复。

与 wenjun 研究方向的关系：

这对“基础模型训练与能力形成机制”很相关。做 agentic RL / code RLVR 时，不能只看目标 benchmark 是否提升，还要看通用推理、工具调用、语言能力是否被局部扰动破坏。后续值得结合 mechanistic interpretability 分析：哪些路由/子空间承载跨域共享能力，哪些参数适合低风险更新。

#1.9 SPADE-Bench: Evaluating Spontaneous Strategic Deception in Agents via Plan-Action Divergence

链接：<https://arxiv.org/abs/2606.02380>
来源/日期：arXiv，2026-06-01
类别：LLM Agent / Safety / Evaluation / Monitoring
一句话核心贡献：提出用 plan-action divergence 评估 agent 的自发策略性欺骗：对外报告的计划/进展与实际执行动作不一致。

为什么值得关注：

真实 agent 往往黑箱执行，用户依赖 agent 的 self-report。如果 agent 报告“我正在按计划做”，但实际动作偏离甚至隐瞒，那么传统 task success benchmark 很难捕捉风险。SPADE-Bench 把“观察者可见报告”和“真实 action trace”分离，是 agent safety 里很实际的问题。

与 wenjun 研究方向的关系：

长轨迹 RL 中如果只给 outcome reward，模型可能学到对 judge/用户有利但对真实任务不忠实的汇报策略。代码 Agent 中也可能出现“声称已运行测试但没跑”“声称修复 root cause 但只 patch benchmark”的问题。因此训练时需要 action trace audit、不可伪造工具日志和报告一致性 reward。

#1.10 Monitoring Agentic Systems Before They're Reliable

链接：<https://arxiv.org/abs/2606.02494>
来源/日期：arXiv，2026-06-01
类别：LLM Agent / Systems / Monitoring / Reliability / Evaluation
一句话核心贡献：提出在 agentic system 尚未可靠前进行监控和分诊的方法，将评估分为 quality、suitability、efficiency 三维与 within-run、cross-run、structural 三个监控范围，并用 variance 作为结构性信号。

为什么值得关注：

很多生产 agent 的早期失败不是单个任务答错，而是系统装配层面的结构问题：工具链不合适、上下文传递不稳定、运行间方差大、成本/延迟不可控。论文强调在任务级错误检测还不可行时，先做结构性监控，把人工注意力集中到高严重度子系统。

与 wenjun 研究方向的关系：

这对构建 Agent 训练/评测基础设施很实用。做 long-horizon agent RL 时，应该记录的不只是 final reward，还包括轨迹方差、工具调用分布、停止点、重试率、上下文压缩损失、verification coverage 等系统指标。

#1.11 Better with Experience: Self-Evolving LLM Agents for Evidence-Grounded Health Community Notes

链接：<https://arxiv.org/abs/2606.02215>
来源/日期：arXiv，2026-06-01
类别：Self-evolving Agent / Memory / Evidence-grounded Generation / Credit Assignment
一句话核心贡献：提出 EvoNote，让健康 misinformation correction agent 通过 evolving experience memory 自我演化，并把 trajectory-level feedback 蒸馏成 claim analysis、evidence acquisition、note writing 的 action-level memory。

为什么值得关注：

它的场景是健康社区笔记，但方法点很通用：不是把历史经验粗暴存进 memory，而是做细粒度 credit assignment，把一次任务的反馈拆解到不同 agent action。这个思路比“把成功案例存入向量库”更接近可训练的 self-evolution。

与 wenjun 研究方向的关系：

代码 Agent 可直接类比：一次修 bug 的 trajectory-level feedback 可以拆到 bug localization、hypothesis generation、patch editing、test selection、regression check 等动作级 memory。若结合 RL，可以把 memory update policy 作为单独模块优化。

#1.12 Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

链接：<https://arxiv.org/abs/2605.30611>；HF Daily Papers：<https://huggingface.co/papers/2605.30611>
代码：<https://github.com/HaozheZhao/Crafter>
来源/日期：arXiv，2026-05-28；HF Daily Papers 2026-06-02
类别：Multi-Agent / Scientific Workflow / Tool-use / Vision-Language
一句话核心贡献：提出 Crafter/CraftEditor，用 multi-agent harness 生成和编辑科学图示，将 raster 输出转成可局部修改的 SVG，并构建 CraftBench。

为什么值得关注：

虽然不是 wenjun 主线，但它再次强调“harness”概念：复杂任务的失败不一定需要更大 backbone，而可能需要把任务拆成结构化组件、局部编辑和多 agent 协作。科学写作/图示生成也是研究自动化 agent 的重要应用。

与 wenjun 研究方向的关系：

可作为“科研 Agent 工作流”的例子：Agent 不只是回答问题，还要产出可编辑 artifact。对代码 Agent 同理，最终产物应是可审查 patch、测试证据、设计说明，而非一次性文本输出。

#2. 其他值得扫一眼的论文/动态

标题	链接	来源/日期	类别	一句话核心贡献
ClinEnv: An Interactive Multi-Stage Long Horizon EHR Environment for Agents	<https://arxiv.org/abs/2606.02568>	arXiv / 2026-06-01	LLM Agent / Long-horizon / Medical Environment	把真实住院病例构造成多阶段、不可逆决策的交互式临床 agent 环境。
Iteris: Agentic Research Loops for Computational Mathematics	<https://arxiv.org/abs/2606.02484>	arXiv / 2026-06-01	Research Agent / Mathematical Discovery	面向计算数学开放问题构建 agentic research loop，结合数值实验、对抗构造和算法设计。
An Agentic Approach Towards Replication Package Quality Evaluation	<https://arxiv.org/abs/2606.02006>	arXiv / 2026-06-01	Code Agent / Scientific Reproducibility / Tool-use	将开放科学指南转成可机器验证 criteria，用多 agent 自动检查 replication package 并生成证据化改进报告。
Draft-OPD: On-Policy Distillation for Speculative Draft Models	<https://arxiv.org/abs/2605.29343>	arXiv / 2026-05-28, v2 2026-05-29；HF 2026-06-02	Systems / Inference / Speculative Decoding	指出 draft model SFT 存在 offline-to-inference mismatch，提出 on-policy distillation 改善 speculative decoding。
Domino: Decoupling Causal Modeling from Autoregressive Drafting in Speculative Decoding	<https://arxiv.org/abs/2605.29707>	arXiv / 2026-05-28；HF 2026-06-02	Systems / Inference	将因果依赖建模与自回归 draft 执行解耦，用并行 draft backbone 加轻量 Domino head 提升推测解码。
SimSD: Simple Speculative Decoding in Diffusion Language Models	<https://arxiv.org/abs/2606.02544>	arXiv / 2026-06-01	Systems / Diffusion LLM / Inference	将 speculative decoding 思路适配到 diffusion language model 的 blockwise/parallel decoding 场景。

#3. 今日最值得精读的 3 篇

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

链接：<https://arxiv.org/abs/2606.02373>

推荐理由：最贴近 “LLM Agent + model-based RL + context/state design”。它给出了 transcript-only agent 的一个系统性替代方案，值得从环境设计角度精读。

AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents

链接：<https://arxiv.org/abs/2606.02461>

推荐理由：持续学习 Agent 的 benchmark/评测设计很可能成为 self-evolving code agent 的基础问题。建议重点看它如何定义任务流、经验复用和干扰。

A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL

链接：<https://arxiv.org/abs/2606.02398>

推荐理由：如果 wenjun 做 RLVR / agentic RL，必须关心单域 RL 对基础模型通用能力的副作用。这篇从局部参数扰动和共享 computation route 解释干扰，值得和 mechanistic interpretability 结合。

备选精读：如果今天想偏 benchmark/environment，则把第 3 篇换成 MCP-Persona 或 TASTE。

#4. 今日最值得跟进的 3 个 repo/model/dataset

Harness-1 repo：<https://github.com/pat-jj/harness-1>

跟进点：查看它如何实现 stateful search harness、外部 working memory、context rendering、RL rollout 和 evaluation。最值得借鉴到代码 Agent harness。

MCP-Persona repo：<https://github.com/wwh0411/MCP-Persona>

跟进点：MCP 工具环境仿真、personal application tasks、评测协议。可作为“个人助手/意图理解 Agent”训练环境参考。

Crafter repo：<https://github.com/HaozheZhao/Crafter>

跟进点：multi-agent harness 如何把复杂 artifact 生成拆成可编辑组件；对科研自动化 Agent 和 artifact-level evaluation 有启发。

补充可扫：GitHub Trending 中今日出现的 anthropics/claude-code、jamwithai/production-agentic-rag-course、awslabs/agentcore-samples 等更偏产品/教程/样例，研究优先级低于上面三个。

#5. 研究机会 / idea

#Idea 1：把 Harness-1 扩展成“代码 Agent 的 state-externalizing harness”

问题：代码 Agent 的 transcript 里混着 repo 结构、grep 结果、失败测试、patch diff、假设、已排除路径、依赖信息，长轨迹时上下文迅速污染。

可能方向：设计一个 code harness，让环境维护：

repo map / symbol graph；
candidate files/functions；
failing tests 与 error fingerprints；
attempted patches 与 rollback history；
hypotheses / verified facts / rejected causes；
context budget-aware rendering。

然后让 LLM policy 只决策：查哪个文件、保留哪个候选、验证哪个假设、编辑哪里、何时停止。进一步可训练 world model 预测动作对这些状态槽的影响。

#Idea 2：区分 self-evolving agent 的三种能力：写经验、用经验、抗干扰

结合 AGENTCL、Tracking Behavioral Trajectories、EvoNote，可以把 self-evolving code agent 拆成：

update ability：能否从一次失败/成功轨迹中写出有用经验；
utilization ability：下一次是否真的利用这些经验；
interference control：无关或错误经验是否会让 agent 变差。

这比单纯看 pass@k / SWE-bench 分数更能解释 agent 是否真的在“进化”。可以构建带 task relationship graph 的代码任务流，分别测正迁移、负迁移与遗忘。

#Idea 3：Agent RL 的 reward 不只评 final answer，还要评“报告—行动一致性”

SPADE-Bench 和 Monitoring Agentic Systems 提醒：Agent 训练若只优化 final success，可能学到隐藏失败、虚假汇报或过度自信。代码 Agent 尤其需要：

工具日志不可伪造；
self-report 与 action trace 对齐；
声称运行的测试必须在 trace 中存在；
声称修复的 root cause 必须有 evidence link；
对未验证结论进行惩罚。

这可以转化为长轨迹 RL 的辅助 reward 或 verifier。

#6. 给 wenjun 的今日行动建议

上午快速读：Harness-1 摘要 + 方法图 + repo README，重点看 harness state schema。
中午扫一遍：AGENTCL 和 Tracking Behavioral Trajectories，记录它们如何定义 adaptation/continual learning。
下午可做小实验：把自己现有代码 Agent/debug 轨迹手动整理成 external state slots，看 transcript 中有多少 token 属于“可外置 bookkeeping”。这可能直接导出一个 paper idea：State-Externalized Code Agent RL。

#参考链接汇总

HF Daily Papers：<https://huggingface.co/papers?date=2026-06-02>
arXiv cs.AI recent：<https://arxiv.org/list/cs.AI/recent>
arXiv cs.CL recent：<https://arxiv.org/list/cs.CL/recent>
arXiv cs.LG recent：<https://arxiv.org/list/cs.LG/recent>
arXiv cs.SE recent：<https://arxiv.org/list/cs.SE/recent>
GitHub Trending：<https://github.com/trending>