#2026-06-24 AI/LLM 最新论文与研究热点简报
时间范围:重点覆盖 2026-06-22 左右 Hugging Face Daily Papers 与 arXiv 新近论文;由于 arXiv export API 在检索阶段出现超时/429 限流,本期用 Hugging Face Papers 页面、arXiv abs 页面逐条核验标题/摘要/日期,并补充最近 3–7 天内与 wenjun 研究主线高度相关的条目。X/Twitter 未作为主来源,避免因访问限制导致不可核验信息。
#0. 今日总览:Agent 方向的三个信号
今天最密集的新增集中在 长程 Agent 评测、终端/手机/企业真实任务 Agent 训练、以及 Agent 运行时记忆/上下文压缩。对 wenjun 当前关注的 LLM Agent、model-based RL、latent-space reasoning 和代码智能来说,有三条主线值得看:
- 从“单次任务成功率”转向“长生命周期/长轨迹能力”:PlanBench-XL、EnterpriseClawBench、Connect the Dots、Tmax 都在强调长 horizon、真实工具生态、可验证环境和跨任务经验积累。
- Agent 训练数据正在被“环境化”和“可验证化”:CLI-Universe、Tmax、PhoneBuddy 都不是只收集静态 QA,而是构造可执行环境、Docker/终端/手机工作流、rubric/test/verifier。
- 上下文与状态成为 Agent 的核心学习对象:SelfCompact、OpenRath、EvoEmbedding、CalVerT、Premature Commitment 共同指向一个问题:Agent 不只是要会调用工具,还要知道何时压缩、何时检索、何时不该过早锁定假设。
#1. 重点论文/动态解读
#1.1 PlanBench-XL: Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems
- 链接:https://arxiv.org/abs/2606.22388
- 来源/日期:arXiv / Hugging Face Papers,2026-06-21
- 类别:LLM Agent / Tool-use / Evaluation / Long-horizon Planning
- 一句话贡献:提出包含 327 个零售任务、1,665 个工具的大规模 tool-use agent 长程规划 benchmark,并加入工具缺失、失败、干扰等 blocking 机制,测试 agent 在受限工具可见性下的迭代检索、调用和恢复能力。
为什么值得关注:
这篇很贴近真实 Agent:现实中 agent 并不是一次拿到完整 tool list,而是需要在海量工具生态里检索可用工具、根据中间证据决定下一步、遇到工具不可用时改道。论文摘要中提到,即使强模型在无 blocking 情况下也只有约 51.90% accuracy,在严重 blocking 下会掉到约 11.36%,说明“会调用工具”和“能在动态工具生态里规划”之间还有很大差距。
与 wenjun 方向的关系:
- 对 long-horizon Agent RL:PlanBench-XL 给了一个很自然的 RL 环境雏形,状态包括可见工具、已发现证据、失败调用、当前子目标。
- 对 model-based RL / Dreamer for LLM Agent:这里的 blocking 和工具检索限制可以被建模成“工具世界模型”:预测某个 tool call 的可用性、返回证据和后续可达状态。
- 对代码智能/工具生态:真实代码 Agent 也面临类似问题:API、CLI、repo 结构、测试入口不完全可见,需要动态发现和规划。
#1.2 CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents
- 链接:https://arxiv.org/abs/2606.22883
- 来源/日期:arXiv / Hugging Face Papers,2026-06-22
- 类别:Code Agent / Terminal Agent / Verifiable Reward / Synthetic Environment
- 一句话贡献:提出面向终端 Agent 的可验证任务合成引擎,通过能力 taxonomy、真实技术材料深度研究、Dockerized 环境和多阶段可执行验证流水线生成高质量训练任务。
为什么值得关注:
这是近期 code/terminal agent RL 很关键的一类工作:训练瓶颈不是“没有模型”,而是缺少可执行、可评分、路径不浅、指令不歧义的环境。CLI-Universe 的核心不是简单合成 prompt,而是合成“可运行任务 + 可验证测试 + hint 条件验证 + rubric”。这与 RLVR、SWE-bench 类 benchmark 的思路一致,但更偏训练数据引擎。
与 wenjun 方向的关系:
- 对 self-evolving code agent:如果 agent 能自动生成、验证、筛选终端任务,就接近“自举训练环境”的基础设施。
- 对 agentic RL:可执行环境和 verifier 是 outcome reward 的前提;未来可进一步加入过程奖励、探索奖励和状态覆盖奖励。
- 对环境设计催生自演化智能:CLI-Universe 是一个典型例子:能力不是只靠模型内化,而是靠环境结构和可验证反馈塑形。
#1.3 Tmax: A simple recipe for terminal agents
- 链接:https://arxiv.org/abs/2606.23321
- 来源/日期:arXiv / Hugging Face Papers,2026-06-22
- 类别:Code Agent / Terminal Agent / Post-training RL / Dataset
- 一句话贡献:给出一个简单开放的终端 Agent RL recipe,用 taxonomy、难度控制、persona 和 verifier 多样化生成大量终端环境,并用 outcome-only RL 训练 9B 模型,在 Terminal-Bench 2.0 达到 27%。
为什么值得关注:
Tmax 的价值在于它把“终端 Agent RL”从复杂闭源工程往可复现 recipe 推进了一步。摘要强调其开放数据规模超过已有 terminal-agent datasets 的 2.5 倍,并且使用相对简单的 outcome-only RL。若结果稳定,这说明终端 Agent 能力可能对“环境规模 + verifier 多样性 + 难度控制”高度敏感。
与 wenjun 方向的关系:
- 对代码 Agent RL:这是最直接可跟进的训练 recipe 类论文。
- 对基础模型训练机制:它提供了观察 post-training 如何塑造工具使用、探索、错误恢复能力的实验平台。
- 对长期目标:可以与 CLI-Universe 合并思考:一个负责生成环境,一个负责训练 recipe,下一步自然是自适应 curriculum 和 model-based rollout。
#1.4 Self-Compacting Language Model Agents
- 链接:https://arxiv.org/abs/2606.23525
- 来源/日期:arXiv / Hugging Face Papers,2026-06-22
- 类别:LLM Agent / Context Compression / Agent Memory / Long-horizon
- 一句话贡献:提出 SelfCompact,让模型在推理时通过一个 compaction tool 和触发 rubric 自主决定何时、如何压缩长 agent trace,而不是固定 token 阈值触发。
为什么值得关注:
长轨迹 Agent 的上下文压缩不是简单摘要问题。固定阈值压缩可能在推导中间、搜索未完成时丢掉关键状态;而 SelfCompact 让模型在“子任务完成/轨迹收敛”时压缩,在“推导中/卡住”时避免压缩。这相当于把 context management 变成 agent policy 的一部分。
与 wenjun 方向的关系:
- 对通用上下文压缩器:这是一个可落地的 trigger-policy + compression-tool 框架。
- 对 LLM Agent 长轨迹 RL:压缩决策本身可以被训练,reward 可以来自最终任务成功率、token 成本和信息保真度。
- 对 latent-state reasoning:压缩后的 summary 可以看作显式 latent state;未来可比较文本 summary、向量 memory、world-state object 三种状态表示。
#1.5 Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning
- 链接:https://arxiv.org/abs/2606.20002
- 来源/日期:arXiv,2026-06-18
- 类别:LLM Agent / Post-training RL / Long-lifecycle Agent / Continual Learning
- 一句话贡献:提出 Connect the Dots 框架,用长 rollout 序列交替执行 solve-task 与 update-context episode,训练 LLM 在长期部署中探索环境、积累经验并改善后续任务。
为什么值得关注:
这篇虽然不是 24 小时内新发,但和 wenjun 主线高度相关。它把 Agent 训练目标从“每个任务独立求解”改成“在一个环境里长期生存并更新上下文”。摘要明确提到 GRPO-style RL、长 rollout、跨域泛化和上下文更新,这几乎就是 long-horizon Agent RL 的核心问题设置。
与 wenjun 方向的关系:
- 对 LLM model-based RL:update-context 可以被视为 agent 的 belief-state update;下一步可以学习一个世界模型来预测哪些探索会改善未来任务。
- 对持续学习:这里不是更新权重,而是更新上下文/环境记忆;可与参数持续学习形成对照。
- 对 agent 预训练数据:如果预训练数据包含大量“跨任务积累经验”的轨迹,是否会自然诱导这种能力,是值得研究的问题。
#1.6 OpenRath: Session-Centered Runtime State for Agent Systems
- 链接:https://arxiv.org/abs/2606.19409
- 来源/日期:arXiv,2026-06-17
- 类别:Agent Systems / Runtime / Reproducibility / Tool Evidence
- 一句话贡献:提出以 Session 为中心的 agent runtime 抽象,把对话片段、工具效果、memory 事件、workspace、分支 lineage、token usage、replay evidence 等统一为可检查、可分支、可回放的运行时状态。
为什么值得关注:
Agent 系统最大的问题之一是“运行时证据散落”:日志、工具调用、workspace 文件、记忆写入、分支尝试互相脱节。OpenRath 试图像 PyTorch Tensor 之于深度学习那样,为 agent workflow 提供一个一等 runtime value。对于研究者来说,这意味着更容易做可复现实验、失败归因和分支比较。
与 wenjun 方向的关系:
- 长轨迹 RL 需要可靠 trace 和 replay,否则无法做 credit assignment。
- model-based Agent 需要显式 state;Session 抽象可作为工程版 state container。
- 自演化 code agent 需要 branch/fork/merge/replay,OpenRath 这类 runtime 很可能成为基础设施方向。
#1.7 EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions
- 链接:https://arxiv.org/abs/2606.23654
- 来源/日期:arXiv / Hugging Face Papers,2026-06-22
- 类别:LLM Agent / Enterprise Agent / Evaluation / Workplace Sessions
- 一句话贡献:从真实企业 agent session 中构建 852 个可复现任务,并提出包含 fixtures、rewritten prompts、role classes、skill subclasses、hard rules、semantic rubrics 的评测协议。
为什么值得关注:
这篇的重点不只是 benchmark,而是“真实 workplace session 如何转成可复现评测任务”。它强调不能只报单一分数,而要同时报告 harness-model 组合、artifact delivery、visual quality、cost、runtime、skill-transfer behavior。对企业 agent 来说,是否交付正确 artifact 与是否过程合规同样重要。
与 wenjun 方向的关系:
真实 agent 预训练/后训练数据很可能来自工作流 session。如何把 session 清洗成 task、rubric、hard rules,是 agent data pipeline 的关键。它也提示:未来代码/企业 Agent 的能力形成机制,不只是模型结构问题,更是 session 数据结构问题。
#1.8 Training Open Models for Agentic Phone Use
- 链接:https://arxiv.org/abs/2606.23049
- 来源/日期:arXiv / Hugging Face Papers,2026-06-22
- 类别:Computer-use Agent / Mobile Agent / Post-training RL / Environment Mixing
- 一句话贡献:提出 PhoneBuddy 训练 recipe,将真实手机 app 环境与由真实 GUI 使用结构重建的 mock app 环境 PhoneWorld 混合,用 SFT 和 RL 训练开放手机 Agent。
为什么值得关注:
手机环境慢、状态化、有副作用、难 reset;mock 环境可扩展但不完全真实。PhoneBuddy 采用 real-app + mock-app 的混合训练,摘要中显示真实手机 150 任务人评成功率从 SFT 后 36.67% 提升到 mixed RL 后 45.33%。这给 Agent RL 提供了一个重要启示:真实环境和模拟环境的混合比例/课程设计可能比单纯扩大模型更关键。
与 wenjun 方向的关系:
- 对 model-based RL/Dreamer:PhoneWorld 类 mock 环境可视为可学习/可构造 world model 的外显版本。
- 对 agentic RL:真实环境成本高,模拟环境偏差大,二者混合训练正是 agent RL 的核心难题。
- 对代码 Agent:可以类比为真实 repo/CI 与合成 repo/test 的混合训练。
#1.9 EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory
- 链接:https://arxiv.org/abs/2606.21649
- 来源/日期:arXiv,2026-06-19
- 类别:Agent Memory / Context Compression / Retrieval / Latent State
- 一句话贡献:提出 EvoEmbedding,通过连续更新的 latent memory 顺序处理输入,使同一 query 在不同演化上下文下检索不同目标,面向长上下文与 agentic memory。
为什么值得关注:
传统 embedding 是静态的:句子独立编码,无法表达“当前上下文演化到哪里”。EvoEmbedding 把 embedding 变成随时间演化的表示,并引入 EvoTrain-180K 和 memory queue 避免 recurrent 表示坍塌。这对长程 Agent 的 memory retrieval 很重要:同一句“下一步找配置文件”在不同任务阶段应检索不同证据。
与 wenjun 方向的关系:
- latent-space reasoning:latent memory 是一种可学习 belief state。
- context compression:可作为文本压缩之外的向量态压缩方案。
- long-horizon Agent:动态 embedding 能把轨迹历史压入检索表示,减少 stale context 对后续生成的干扰。
#1.10 World Action Models: A Survey
- 链接:https://arxiv.org/abs/2606.20781
- 来源/日期:arXiv,2026-06-18
- 类别:Model-based RL / World Model / Embodied Agent / Survey
- 一句话贡献:系统梳理 World Action Models,区分 world models、video generation models、action-grounded video world models、VLA policies 和 WAMs,并按生成对象、预测 substrate、backbone、action coupling、部署方式组织现有工作。
为什么值得关注:
虽然主要面向 embodied/robotics,但它对 wenjun 的 LLM Agent world model 方向很有参考价值。WAM 的关键不是“生成漂亮视频”,而是让未来预测服务于 action。论文区分 rendered futures、latent futures、video-generation-free action reasoning,这正好对应 LLM Agent 可选的三类世界模型:显式文本模拟、latent state 预测、无需生成完整世界的 action-value/reward 预测。
与 wenjun 方向的关系:
可以把 WAM 的 anatomy 平移到 language agents:
- predictive substrate:文本轨迹、工具返回、环境状态、latent memory;
- action coupling:tool call、代码编辑、检索、反思;
- deployment regime:offline planning、online RL、test-time search;
- evaluation:interactability、causality、persistence、generalization。
#1.11 When Agents Commit Too Soon: Diagnosing Premature Commitment in LLM Agents
- 链接:https://arxiv.org/abs/2606.22936
- 来源/日期:arXiv / Hugging Face Papers,2026-06-22
- 类别:LLM Agent / Mechanistic Evaluation / Long-horizon Failure Diagnosis
- 一句话贡献:定义 premature commitment,并用固定推理步的 hidden-state 跨 run 收敛度作为 representational commitment 诊断信号,预测 agent 轨迹是否过早稳定。
为什么值得关注:
长程 Agent 常见失败是早早锁定一个解释,然后后续只是为它找证据。最终答案评分看不出这一点。论文发现 step-4 hidden-state similarity 能预测后续行为一致性,但不直接区分正确/错误;也就是说,它检测的是“是否已经锁死”,不是“锁得对不对”。
与 wenjun 方向的关系:
- 对 latent reasoning:这是直接从 hidden state 角度研究 agent 轨迹动态。
- 对 Agent RL:premature commitment 可以变成训练时的过程诊断或探索正则,避免 policy 过早 collapse。
- 对 mechanistic interpretability:提供了一个可量化的 agent-level 内部状态指标。
#1.12 CalVerT: Augmenting Agents with Calibrated Verifier Telemetry Improves Action and Learning in Knowledge-Intensive Tasks
- 链接:https://arxiv.org/abs/2606.21777
- 来源/日期:arXiv,2026-06-19
- 类别:LLM Agent / Verifier / Retrieval / Training Signal
- 一句话贡献:用 calibrated self-confidence 和 grounding verifier score 增强 agent 状态,帮助 agent 判断何时继续检索、何时停止,既提升 QA F1 又减少冗余检索。
为什么值得关注:
CalVerT 的关键是把 verifier telemetry 加进 agent state,而不只是事后评分。这类似给 agent 一个更可观测的 POMDP 状态:当前答案是否可信、证据是否足够。它也说明 verifier 不只用于 reward,也可以作为 online policy 的观测输入。
与 wenjun 方向的关系:
- 对 model-based RL:verifier telemetry 可作为 belief state 的一部分。
- 对 long-horizon Agent:可缓解 over-retrieval 与 unsupported answer 两类常见失败。
- 对 RLVR:从“最终可验证奖励”推进到“过程中可校准遥测”。
#1.13 A Verifiable Search Is Not a Learnable Chain-of-Thought
- 链接:https://arxiv.org/abs/2606.21884
- 来源/日期:arXiv,2026-06-20
- 类别:Reasoning / RLVR / Chain-of-Thought / Limits
- 一句话贡献:通过 deterministic generator 任务显示:可由短程序搜索解决的任务,不一定能被蒸馏成模型可学习的 chain-of-thought;cryptarithm 例子中程序求解有效,但多种 CoT 蒸馏/RL/自训练方案失败。
为什么值得关注:
这篇挑战了一个常见假设:只要有可验证搜索过程,就能把它写成 CoT 教会模型。论文显示 forward-computable 任务容易迁移,但 backtracking search 类任务不一定能以自然语言 CoT 形式被模型吸收。这对 RLVR 和 reasoning distillation 是重要提醒。
与 wenjun 方向的关系:
- 对 latent-space reasoning:有些搜索也许不该压成文本 CoT,而应保留为外部 search、latent planning 或 tool-augmented policy。
- 对 code/agent RL:可验证 reward 不等于可学习过程,任务结构会决定 credit assignment 难度。
- 对基础模型能力形成:模型擅长的“可内化算法”与需要外部工具/搜索的算法之间可能有边界。
#1.14 Manifold Bandits: Bayesian Curriculum Learning over the Latent Geometry of Large Language Models
- 链接:https://arxiv.org/abs/2606.19750
- 来源/日期:arXiv,2026-06-18
- 类别:Post-training RL / Curriculum / Latent Geometry
- 一句话贡献:把 RL 训练中的问题采样建模为 manifold-structured bandit,在模型 latent representation space 上组织任务并用 Bayesian curriculum 指导采样。
为什么值得关注:
RL 后训练效率高度依赖 prompt/task sampling。传统方法常按难度选题,但忽略任务空间结构。该工作强调任务在模型 latent space 中并非独立 arm,采样会改变不同区域的学习信号。对推理模型和 Agent RL 来说,这提示 curriculum 设计应基于表示几何,而不是只看 pass/fail。
与 wenjun 方向的关系:
这与 latent-space reasoning 和长轨迹 RL 都相关:如果任务/轨迹可在 latent manifold 上分簇,就可以设计“覆盖新状态”“修复薄弱区域”“避免过拟合某类轨迹”的 curriculum。
#1.15 FastMix: Fast Data Mixture Optimization via Gradient Descent
- 链接:https://arxiv.org/abs/2606.14971
- 来源/日期:arXiv,2026-06-12
- 类别:Pretraining Data / Data Mixture / Training Mechanism
- 一句话贡献:将数据混合选择重写为 bilevel optimization,并证明混合比例优化等价于 uniform source sampling 下的 per-source loss weight,从而用单个 proxy model 做梯度式 mixture 优化。
为什么值得关注:
基础模型训练中,数据 mixture 往往靠经验和大量 ablation。FastMix 试图把 mixture coefficient 直接嵌入可微训练目标,减少反复训练多个 proxy 的成本。对“代码数据质量/去重/预训练数据如何塑造能力”来说,数据源权重的自动优化是核心问题。
与 wenjun 方向的关系:
- 可用于研究 code data、agent traces、web text、math data 的比例如何影响 Agent/代码能力。
- 若与 capability-specific validation loss 结合,可以观察不同数据源对工具使用、长程规划、代码修复的边际贡献。
#1.16 Demystifying Training-Time Augmentation for Data-Constrained Language Model Pretraining
- 链接:https://arxiv.org/abs/2606.16246
- 来源/日期:arXiv,2026-06-15;v2 更新 2026-06-19
- 类别:Pretraining Data / Data-Constrained Training / Training Mechanism
- 一句话贡献:研究数据受限、算力相对充足时的 training-time augmentation,比较 token noise、sequence permutation、target offset prediction 等增强对 AR 预训练过拟合的缓解作用。
为什么值得关注:
当高质量文本接近数据天花板,多 epoch 训练固定语料会过拟合。该工作系统研究训练时增强如何让固定数据被更有效地重复利用。它对持续预训练和小而高质数据集训练尤其重要。
与 wenjun 方向的关系:
- 对代码模型:可研究 FIM、反向预测、token corruption 对代码补全/修复/agentic coding 的影响。
- 对 agent 轨迹数据:长轨迹数据昂贵,是否能通过轨迹扰动、目标偏移、子任务重排提高利用率,是值得尝试的问题。
#1.17 AC-ODM: Actor--Critic Online Data Mixing for Sample-Efficient LLM Pretraining
- 链接:https://arxiv.org/abs/2505.23878
- 来源/日期:arXiv,v2 更新 2026-06-14
- 类别:Pretraining Data / Online Data Mixing / RL for Training Data
- 一句话贡献:从 RL 视角提出 Actor-Critic Online Data Mixing,用参数化 policy 动态选择数据混合,最大化梯度 constructive interference,并支持 proxy 与 non-proxy 两种模式。
为什么值得关注:
这篇把数据 mixture 选择显式看成策略学习问题。相比静态 mixture,它强调训练动态变化中不同数据源的边际价值。若方法成立,它可用于解释“为什么某些阶段需要更多代码/数学/agent trace,某些阶段反而需要回到通用语料”。
与 wenjun 方向的关系:
可作为研究 agent 预训练数据塑造能力的工具:让 policy 在训练过程中自适应选择 web/code/tool-use/long-trajectory 数据,观察能力曲线与数据权重曲线的耦合。
#1.18 Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?
- 链接:https://arxiv.org/abs/2606.23189
- 来源/日期:arXiv / Hugging Face Papers,2026-06-22
- 类别:Computer-use Agent / Safety / Evaluation / Privacy
- 一句话贡献:提出 AgentCIBench,用可执行、确定性评分场景评估 computer-use agents 是否遵守 contextual integrity,并发现 15 个 frontier agents 中多数在超过 50% 场景泄露不合适信息。
为什么值得关注:
Agent 能跨 app 操作后,风险不只是错误执行,还包括把一个上下文里的私人信息带到另一个不该出现的上下文。论文定义了 visual co-location、task-ambiguity overshare、recipient misalignment 三类失败。对真实部署 Agent,这类评测会越来越重要。
与 wenjun 方向的关系:
如果做长期 Agent RL,reward 不能只看 task success,还必须包含 context boundary 和 information flow constraints。否则 agent 会学到“为了完成任务过度读取/泄露信息”的捷径。
#2. 其他值得扫读的条目
#DataClaw0: Agentic Tailoring Multimodal Data from Raw Streams
- 链接:https://arxiv.org/abs/2606.21337
- 来源/日期:arXiv,2026-06-19
- 类别:Pretraining/Post-training Data / Multimodal Agent / GRPO
- 一句话贡献:把数据处理提升为可学习的 Agentic Data Tailoring 能力,并用 SFT + GRPO 训练 DataClaw0-9B 从原始多模态流中主动结构化数据。
- 简评:值得从“数据生产 agent”角度跟进;它把数据清洗/标注/结构化本身变成模型能力,和 agent 预训练数据管线有关。
#Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation
- 链接:https://arxiv.org/abs/2606.18844
- 来源/日期:arXiv,2026-06-17
- 类别:Post-training RL / Self-distillation / Trajectory Learning
- 一句话贡献:提出 TAPO,在 RL 中利用同一 query 的正确/错误 rollout 构造 micro-reflective corrections,把自蒸馏从分布对齐推进到显式轨迹纠错。
- 简评:对 Agent 训练很有启发:不要只收成功轨迹,错误轨迹与纠错轨迹可能更适合 credit assignment。
#Deep Research in Physical Sciences: A Multi-Agent Framework and Comprehensive Benchmark
- 链接:https://arxiv.org/abs/2606.18648
- 来源/日期:arXiv,2026-06-17;v2 2026-06-21
- 类别:Scientific Agent / Multi-Agent / Evaluation
- 一句话贡献:提出 PhySciBench,评估 deep research agents 在物理/化学研究工作流中的多步推理能力,并指出长推理链脆弱、跨步知识迁移弱、缺少物理 grounded self-verification。
- 简评:可作为 scientific agent benchmark 参考;失败模式与长程 Agent 普遍问题一致。
#SkillHarness: Harnessing Safe Skills for Computer-Use Agents
- 链接:https://arxiv.org/abs/2606.20636
- 来源/日期:arXiv,2026-06-02
- 类别:Computer-use Agent / Continual Skill Learning / Safety
- 一句话贡献:将 CUA 的技能学习与使用建模为安全约束交互过程,关注 prompt injection、弹窗、环境动态导致的 risky skill learning。
- 简评:虽然不是最新,但和“agent 持续学习技能库”高度相关,尤其适合与 OpenRath/Session replay 思路结合。
#DailyReport: An Open-ended Benchmark for Evaluating Search Agents on Daily Search Tasks
- 链接:https://arxiv.org/abs/2606.12871
- 来源/日期:arXiv,2026-06-11
- 类别:Search Agent / Evaluation / Rubric
- 一句话贡献:提出 150 个开放式日常搜索任务和 3,546 个 rubrics,用级联 rubric 做可解释评估。
- 简评:对自动化信息调研 Agent 很直接;也可反过来作为本简报类任务的评估参考。
#3. 今日最值得精读的 3 篇
- CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents
适合精读其任务合成、Docker 环境、验证流水线和 taxonomy。对 code agent RL、自演化训练环境最相关。
- Self-Compacting Language Model Agents
适合精读其 compaction trigger 设计和上下文压缩评价。对长轨迹 Agent、context compressor、latent state 表示最相关。
- Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning
适合精读其 solve-task / update-context episode 设计和 GRPO-style RL 设置。它最接近 wenjun 的 long-horizon Agent RL 主线。
如果还有时间,建议补读 PlanBench-XL,它可以作为 long-horizon tool-use agent 的评测环境候选。
#4. 今日最值得跟进的 3 个 repo/model/dataset
注:本期主要从论文摘要和 Hugging Face Papers 页面获得信息,部分论文摘要只写 “Code: this https URL” 或宣称开源,具体仓库需点进论文页面/PDF 核验。
- CLI-Universe 相关环境/任务生成器
- 价值:可验证 terminal-agent 训练环境生成。
- 可能用途:作为 code agent RL 数据引擎或自演化环境生成器。
- Tmax terminal dataset / open RL recipe
- 价值:摘要称其开放终端数据集规模超过既有 terminal-agent datasets 2.5 倍,并给出 9B RL recipe。
- 可能用途:复现实验、研究 outcome-only RL 在 terminal tasks 上的上限与失败模式。
- EvoTrain-180K / EvoEmbedding
- 价值:面向 long-context retrieval 和 agentic memory 的动态表示训练集。
- 可能用途:比较静态 embedding、recurrent latent memory、文本摘要 memory 在长轨迹 Agent 中的效果。
可备选关注:PhoneBuddy/PhoneWorld、PlanBench-XL、EnterpriseClawBench protocol、AgentCIBench。
#5. 研究机会 / idea
#Idea 1:把 SelfCompact 变成可训练的 latent-state policy
当前 SelfCompact 是推理时 scaffold + rubric。可以进一步把“何时压缩、压缩成什么状态、是否保留原文引用”建模为 RL policy:
- 状态:当前 trace、工具调用图、未完成子目标、verifier telemetry;
- 动作:不压缩 / 文本摘要 / 结构化 state / 向量 memory update / 保留关键 evidence;
- 奖励:任务成功率、token 成本、后续检索准确率、信息遗漏惩罚。
这会把上下文压缩从工程 heuristic 推向 Agent RL 的核心决策。
#Idea 2:为 LLM Agent 构建“工具世界模型”
PlanBench-XL、PhoneBuddy、World Action Models 可以合成一个方向:训练模型预测 action/tool call 的后果,而不是每次都真实执行。
- 在 terminal/code agent 中,世界模型预测命令是否会通过测试、文件会如何变化、错误类型是什么;
- 在 tool-use agent 中,预测 tool 可用性、返回证据类别、是否引入新子目标;
- 在 phone/web agent 中,预测 UI 状态转移和副作用风险。
这正是 Dreamer-style LLM Agent 的切入口:learned dynamics + latent state + planning/RL。
#Idea 3:从 session 数据研究 Agent 能力形成机制
OpenRath、EnterpriseClawBench、Connect the Dots 都说明 session 是 Agent 数据的基本单位。可以系统研究:
- 什么样的 session 结构最能提升长程规划?
- 成功轨迹、失败轨迹、反思轨迹、分支轨迹的最优比例是什么?
- session 中的 workspace diff、tool evidence、memory update 是否应作为预训练 token,还是作为结构化 latent supervision?
这与“agent 预训练数据如何塑造能力”高度一致,也能连接代码智能和基础模型训练机制。
#6. 本期来源与访问说明
- Hugging Face Daily Papers / Papers:可访问,用于发现 2026-06-22 前后热点条目。
- arXiv abs 页面:可访问,用于逐条核验标题、摘要、日期和类别。
- arXiv export API:检索阶段出现 timeout 与 HTTP 429,因此未依赖其批量结果。
- X/Twitter:本期未作为主来源;为避免不可访问或不可核验信息,本期优先使用论文页、HF 与 arXiv。