每日调研 2026-06-24 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-06-24 AI/LLM 最新论文与研究热点简报

时间范围：重点覆盖 2026-06-22 左右 Hugging Face Daily Papers 与 arXiv 新近论文；由于 arXiv export API 在检索阶段出现超时/429 限流，本期用 Hugging Face Papers 页面、arXiv abs 页面逐条核验标题/摘要/日期，并补充最近 3–7 天内与 wenjun 研究主线高度相关的条目。X/Twitter 未作为主来源，避免因访问限制导致不可核验信息。

#0. 今日总览：Agent 方向的三个信号

今天最密集的新增集中在 长程 Agent 评测、终端/手机/企业真实任务 Agent 训练、以及 Agent 运行时记忆/上下文压缩。对 wenjun 当前关注的 LLM Agent、model-based RL、latent-space reasoning 和代码智能来说，有三条主线值得看：

从“单次任务成功率”转向“长生命周期/长轨迹能力”：PlanBench-XL、EnterpriseClawBench、Connect the Dots、Tmax 都在强调长 horizon、真实工具生态、可验证环境和跨任务经验积累。
Agent 训练数据正在被“环境化”和“可验证化”：CLI-Universe、Tmax、PhoneBuddy 都不是只收集静态 QA，而是构造可执行环境、Docker/终端/手机工作流、rubric/test/verifier。
上下文与状态成为 Agent 的核心学习对象：SelfCompact、OpenRath、EvoEmbedding、CalVerT、Premature Commitment 共同指向一个问题：Agent 不只是要会调用工具，还要知道何时压缩、何时检索、何时不该过早锁定假设。

#1. 重点论文/动态解读

#1.1 PlanBench-XL: Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems

链接：https://arxiv.org/abs/2606.22388
来源/日期：arXiv / Hugging Face Papers，2026-06-21
类别：LLM Agent / Tool-use / Evaluation / Long-horizon Planning
一句话贡献：提出包含 327 个零售任务、1,665 个工具的大规模 tool-use agent 长程规划 benchmark，并加入工具缺失、失败、干扰等 blocking 机制，测试 agent 在受限工具可见性下的迭代检索、调用和恢复能力。

为什么值得关注：

这篇很贴近真实 Agent：现实中 agent 并不是一次拿到完整 tool list，而是需要在海量工具生态里检索可用工具、根据中间证据决定下一步、遇到工具不可用时改道。论文摘要中提到，即使强模型在无 blocking 情况下也只有约 51.90% accuracy，在严重 blocking 下会掉到约 11.36%，说明“会调用工具”和“能在动态工具生态里规划”之间还有很大差距。

与 wenjun 方向的关系：

对 long-horizon Agent RL：PlanBench-XL 给了一个很自然的 RL 环境雏形，状态包括可见工具、已发现证据、失败调用、当前子目标。
对 model-based RL / Dreamer for LLM Agent：这里的 blocking 和工具检索限制可以被建模成“工具世界模型”：预测某个 tool call 的可用性、返回证据和后续可达状态。
对代码智能/工具生态：真实代码 Agent 也面临类似问题：API、CLI、repo 结构、测试入口不完全可见，需要动态发现和规划。

#1.2 CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents

链接：https://arxiv.org/abs/2606.22883
来源/日期：arXiv / Hugging Face Papers，2026-06-22
类别：Code Agent / Terminal Agent / Verifiable Reward / Synthetic Environment
一句话贡献：提出面向终端 Agent 的可验证任务合成引擎，通过能力 taxonomy、真实技术材料深度研究、Dockerized 环境和多阶段可执行验证流水线生成高质量训练任务。

为什么值得关注：

这是近期 code/terminal agent RL 很关键的一类工作：训练瓶颈不是“没有模型”，而是缺少可执行、可评分、路径不浅、指令不歧义的环境。CLI-Universe 的核心不是简单合成 prompt，而是合成“可运行任务 + 可验证测试 + hint 条件验证 + rubric”。这与 RLVR、SWE-bench 类 benchmark 的思路一致，但更偏训练数据引擎。

与 wenjun 方向的关系：

对 self-evolving code agent：如果 agent 能自动生成、验证、筛选终端任务，就接近“自举训练环境”的基础设施。
对 agentic RL：可执行环境和 verifier 是 outcome reward 的前提；未来可进一步加入过程奖励、探索奖励和状态覆盖奖励。
对环境设计催生自演化智能：CLI-Universe 是一个典型例子：能力不是只靠模型内化，而是靠环境结构和可验证反馈塑形。

#1.3 Tmax: A simple recipe for terminal agents

链接：https://arxiv.org/abs/2606.23321
来源/日期：arXiv / Hugging Face Papers，2026-06-22
类别：Code Agent / Terminal Agent / Post-training RL / Dataset
一句话贡献：给出一个简单开放的终端 Agent RL recipe，用 taxonomy、难度控制、persona 和 verifier 多样化生成大量终端环境，并用 outcome-only RL 训练 9B 模型，在 Terminal-Bench 2.0 达到 27%。

为什么值得关注：

Tmax 的价值在于它把“终端 Agent RL”从复杂闭源工程往可复现 recipe 推进了一步。摘要强调其开放数据规模超过已有 terminal-agent datasets 的 2.5 倍，并且使用相对简单的 outcome-only RL。若结果稳定，这说明终端 Agent 能力可能对“环境规模 + verifier 多样性 + 难度控制”高度敏感。

与 wenjun 方向的关系：

对代码 Agent RL：这是最直接可跟进的训练 recipe 类论文。
对基础模型训练机制：它提供了观察 post-training 如何塑造工具使用、探索、错误恢复能力的实验平台。
对长期目标：可以与 CLI-Universe 合并思考：一个负责生成环境，一个负责训练 recipe，下一步自然是自适应 curriculum 和 model-based rollout。

#1.4 Self-Compacting Language Model Agents

链接：https://arxiv.org/abs/2606.23525
来源/日期：arXiv / Hugging Face Papers，2026-06-22
类别：LLM Agent / Context Compression / Agent Memory / Long-horizon
一句话贡献：提出 SelfCompact，让模型在推理时通过一个 compaction tool 和触发 rubric 自主决定何时、如何压缩长 agent trace，而不是固定 token 阈值触发。

为什么值得关注：

长轨迹 Agent 的上下文压缩不是简单摘要问题。固定阈值压缩可能在推导中间、搜索未完成时丢掉关键状态；而 SelfCompact 让模型在“子任务完成/轨迹收敛”时压缩，在“推导中/卡住”时避免压缩。这相当于把 context management 变成 agent policy 的一部分。

与 wenjun 方向的关系：

对通用上下文压缩器：这是一个可落地的 trigger-policy + compression-tool 框架。
对 LLM Agent 长轨迹 RL：压缩决策本身可以被训练，reward 可以来自最终任务成功率、token 成本和信息保真度。
对 latent-state reasoning：压缩后的 summary 可以看作显式 latent state；未来可比较文本 summary、向量 memory、world-state object 三种状态表示。

#1.5 Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning

链接：https://arxiv.org/abs/2606.20002
来源/日期：arXiv，2026-06-18
类别：LLM Agent / Post-training RL / Long-lifecycle Agent / Continual Learning
一句话贡献：提出 Connect the Dots 框架，用长 rollout 序列交替执行 solve-task 与 update-context episode，训练 LLM 在长期部署中探索环境、积累经验并改善后续任务。

为什么值得关注：

这篇虽然不是 24 小时内新发，但和 wenjun 主线高度相关。它把 Agent 训练目标从“每个任务独立求解”改成“在一个环境里长期生存并更新上下文”。摘要明确提到 GRPO-style RL、长 rollout、跨域泛化和上下文更新，这几乎就是 long-horizon Agent RL 的核心问题设置。

与 wenjun 方向的关系：

对 LLM model-based RL：update-context 可以被视为 agent 的 belief-state update；下一步可以学习一个世界模型来预测哪些探索会改善未来任务。
对持续学习：这里不是更新权重，而是更新上下文/环境记忆；可与参数持续学习形成对照。
对 agent 预训练数据：如果预训练数据包含大量“跨任务积累经验”的轨迹，是否会自然诱导这种能力，是值得研究的问题。

#1.6 OpenRath: Session-Centered Runtime State for Agent Systems

链接：https://arxiv.org/abs/2606.19409
来源/日期：arXiv，2026-06-17
类别：Agent Systems / Runtime / Reproducibility / Tool Evidence
一句话贡献：提出以 Session 为中心的 agent runtime 抽象，把对话片段、工具效果、memory 事件、workspace、分支 lineage、token usage、replay evidence 等统一为可检查、可分支、可回放的运行时状态。

为什么值得关注：

Agent 系统最大的问题之一是“运行时证据散落”：日志、工具调用、workspace 文件、记忆写入、分支尝试互相脱节。OpenRath 试图像 PyTorch Tensor 之于深度学习那样，为 agent workflow 提供一个一等 runtime value。对于研究者来说，这意味着更容易做可复现实验、失败归因和分支比较。

与 wenjun 方向的关系：

长轨迹 RL 需要可靠 trace 和 replay，否则无法做 credit assignment。
model-based Agent 需要显式 state；Session 抽象可作为工程版 state container。
自演化 code agent 需要 branch/fork/merge/replay，OpenRath 这类 runtime 很可能成为基础设施方向。

#1.7 EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions

链接：https://arxiv.org/abs/2606.23654
来源/日期：arXiv / Hugging Face Papers，2026-06-22
类别：LLM Agent / Enterprise Agent / Evaluation / Workplace Sessions
一句话贡献：从真实企业 agent session 中构建 852 个可复现任务，并提出包含 fixtures、rewritten prompts、role classes、skill subclasses、hard rules、semantic rubrics 的评测协议。

为什么值得关注：

这篇的重点不只是 benchmark，而是“真实 workplace session 如何转成可复现评测任务”。它强调不能只报单一分数，而要同时报告 harness-model 组合、artifact delivery、visual quality、cost、runtime、skill-transfer behavior。对企业 agent 来说，是否交付正确 artifact 与是否过程合规同样重要。

与 wenjun 方向的关系：

真实 agent 预训练/后训练数据很可能来自工作流 session。如何把 session 清洗成 task、rubric、hard rules，是 agent data pipeline 的关键。它也提示：未来代码/企业 Agent 的能力形成机制，不只是模型结构问题，更是 session 数据结构问题。

#1.8 Training Open Models for Agentic Phone Use

链接：https://arxiv.org/abs/2606.23049
来源/日期：arXiv / Hugging Face Papers，2026-06-22
类别：Computer-use Agent / Mobile Agent / Post-training RL / Environment Mixing
一句话贡献：提出 PhoneBuddy 训练 recipe，将真实手机 app 环境与由真实 GUI 使用结构重建的 mock app 环境 PhoneWorld 混合，用 SFT 和 RL 训练开放手机 Agent。

为什么值得关注：

手机环境慢、状态化、有副作用、难 reset；mock 环境可扩展但不完全真实。PhoneBuddy 采用 real-app + mock-app 的混合训练，摘要中显示真实手机 150 任务人评成功率从 SFT 后 36.67% 提升到 mixed RL 后 45.33%。这给 Agent RL 提供了一个重要启示：真实环境和模拟环境的混合比例/课程设计可能比单纯扩大模型更关键。

与 wenjun 方向的关系：

对 model-based RL/Dreamer：PhoneWorld 类 mock 环境可视为可学习/可构造 world model 的外显版本。
对 agentic RL：真实环境成本高，模拟环境偏差大，二者混合训练正是 agent RL 的核心难题。
对代码 Agent：可以类比为真实 repo/CI 与合成 repo/test 的混合训练。

#1.9 EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory

链接：https://arxiv.org/abs/2606.21649
来源/日期：arXiv，2026-06-19
类别：Agent Memory / Context Compression / Retrieval / Latent State
一句话贡献：提出 EvoEmbedding，通过连续更新的 latent memory 顺序处理输入，使同一 query 在不同演化上下文下检索不同目标，面向长上下文与 agentic memory。

为什么值得关注：

传统 embedding 是静态的：句子独立编码，无法表达“当前上下文演化到哪里”。EvoEmbedding 把 embedding 变成随时间演化的表示，并引入 EvoTrain-180K 和 memory queue 避免 recurrent 表示坍塌。这对长程 Agent 的 memory retrieval 很重要：同一句“下一步找配置文件”在不同任务阶段应检索不同证据。

与 wenjun 方向的关系：

latent-space reasoning：latent memory 是一种可学习 belief state。
context compression：可作为文本压缩之外的向量态压缩方案。
long-horizon Agent：动态 embedding 能把轨迹历史压入检索表示，减少 stale context 对后续生成的干扰。

#1.10 World Action Models: A Survey

链接：https://arxiv.org/abs/2606.20781
来源/日期：arXiv，2026-06-18
类别：Model-based RL / World Model / Embodied Agent / Survey
一句话贡献：系统梳理 World Action Models，区分 world models、video generation models、action-grounded video world models、VLA policies 和 WAMs，并按生成对象、预测 substrate、backbone、action coupling、部署方式组织现有工作。

为什么值得关注：

虽然主要面向 embodied/robotics，但它对 wenjun 的 LLM Agent world model 方向很有参考价值。WAM 的关键不是“生成漂亮视频”，而是让未来预测服务于 action。论文区分 rendered futures、latent futures、video-generation-free action reasoning，这正好对应 LLM Agent 可选的三类世界模型：显式文本模拟、latent state 预测、无需生成完整世界的 action-value/reward 预测。

与 wenjun 方向的关系：

可以把 WAM 的 anatomy 平移到 language agents：

predictive substrate：文本轨迹、工具返回、环境状态、latent memory；
action coupling：tool call、代码编辑、检索、反思；
deployment regime：offline planning、online RL、test-time search；
evaluation：interactability、causality、persistence、generalization。

#1.11 When Agents Commit Too Soon: Diagnosing Premature Commitment in LLM Agents

链接：https://arxiv.org/abs/2606.22936
来源/日期：arXiv / Hugging Face Papers，2026-06-22
类别：LLM Agent / Mechanistic Evaluation / Long-horizon Failure Diagnosis
一句话贡献：定义 premature commitment，并用固定推理步的 hidden-state 跨 run 收敛度作为 representational commitment 诊断信号，预测 agent 轨迹是否过早稳定。

为什么值得关注：

长程 Agent 常见失败是早早锁定一个解释，然后后续只是为它找证据。最终答案评分看不出这一点。论文发现 step-4 hidden-state similarity 能预测后续行为一致性，但不直接区分正确/错误；也就是说，它检测的是“是否已经锁死”，不是“锁得对不对”。

与 wenjun 方向的关系：

对 latent reasoning：这是直接从 hidden state 角度研究 agent 轨迹动态。
对 Agent RL：premature commitment 可以变成训练时的过程诊断或探索正则，避免 policy 过早 collapse。
对 mechanistic interpretability：提供了一个可量化的 agent-level 内部状态指标。

#1.12 CalVerT: Augmenting Agents with Calibrated Verifier Telemetry Improves Action and Learning in Knowledge-Intensive Tasks

链接：https://arxiv.org/abs/2606.21777
来源/日期：arXiv，2026-06-19
类别：LLM Agent / Verifier / Retrieval / Training Signal
一句话贡献：用 calibrated self-confidence 和 grounding verifier score 增强 agent 状态，帮助 agent 判断何时继续检索、何时停止，既提升 QA F1 又减少冗余检索。

为什么值得关注：

CalVerT 的关键是把 verifier telemetry 加进 agent state，而不只是事后评分。这类似给 agent 一个更可观测的 POMDP 状态：当前答案是否可信、证据是否足够。它也说明 verifier 不只用于 reward，也可以作为 online policy 的观测输入。

与 wenjun 方向的关系：

对 model-based RL：verifier telemetry 可作为 belief state 的一部分。
对 long-horizon Agent：可缓解 over-retrieval 与 unsupported answer 两类常见失败。
对 RLVR：从“最终可验证奖励”推进到“过程中可校准遥测”。

#1.13 A Verifiable Search Is Not a Learnable Chain-of-Thought

链接：https://arxiv.org/abs/2606.21884
来源/日期：arXiv，2026-06-20
类别：Reasoning / RLVR / Chain-of-Thought / Limits
一句话贡献：通过 deterministic generator 任务显示：可由短程序搜索解决的任务，不一定能被蒸馏成模型可学习的 chain-of-thought；cryptarithm 例子中程序求解有效，但多种 CoT 蒸馏/RL/自训练方案失败。

为什么值得关注：

这篇挑战了一个常见假设：只要有可验证搜索过程，就能把它写成 CoT 教会模型。论文显示 forward-computable 任务容易迁移，但 backtracking search 类任务不一定能以自然语言 CoT 形式被模型吸收。这对 RLVR 和 reasoning distillation 是重要提醒。

与 wenjun 方向的关系：

对 latent-space reasoning：有些搜索也许不该压成文本 CoT，而应保留为外部 search、latent planning 或 tool-augmented policy。
对 code/agent RL：可验证 reward 不等于可学习过程，任务结构会决定 credit assignment 难度。
对基础模型能力形成：模型擅长的“可内化算法”与需要外部工具/搜索的算法之间可能有边界。

#1.14 Manifold Bandits: Bayesian Curriculum Learning over the Latent Geometry of Large Language Models

链接：https://arxiv.org/abs/2606.19750
来源/日期：arXiv，2026-06-18
类别：Post-training RL / Curriculum / Latent Geometry
一句话贡献：把 RL 训练中的问题采样建模为 manifold-structured bandit，在模型 latent representation space 上组织任务并用 Bayesian curriculum 指导采样。

为什么值得关注：

RL 后训练效率高度依赖 prompt/task sampling。传统方法常按难度选题，但忽略任务空间结构。该工作强调任务在模型 latent space 中并非独立 arm，采样会改变不同区域的学习信号。对推理模型和 Agent RL 来说，这提示 curriculum 设计应基于表示几何，而不是只看 pass/fail。

与 wenjun 方向的关系：

这与 latent-space reasoning 和长轨迹 RL 都相关：如果任务/轨迹可在 latent manifold 上分簇，就可以设计“覆盖新状态”“修复薄弱区域”“避免过拟合某类轨迹”的 curriculum。

#1.15 FastMix: Fast Data Mixture Optimization via Gradient Descent

链接：https://arxiv.org/abs/2606.14971
来源/日期：arXiv，2026-06-12
类别：Pretraining Data / Data Mixture / Training Mechanism
一句话贡献：将数据混合选择重写为 bilevel optimization，并证明混合比例优化等价于 uniform source sampling 下的 per-source loss weight，从而用单个 proxy model 做梯度式 mixture 优化。

为什么值得关注：

基础模型训练中，数据 mixture 往往靠经验和大量 ablation。FastMix 试图把 mixture coefficient 直接嵌入可微训练目标，减少反复训练多个 proxy 的成本。对“代码数据质量/去重/预训练数据如何塑造能力”来说，数据源权重的自动优化是核心问题。

与 wenjun 方向的关系：

可用于研究 code data、agent traces、web text、math data 的比例如何影响 Agent/代码能力。
若与 capability-specific validation loss 结合，可以观察不同数据源对工具使用、长程规划、代码修复的边际贡献。

#1.16 Demystifying Training-Time Augmentation for Data-Constrained Language Model Pretraining

链接：https://arxiv.org/abs/2606.16246
来源/日期：arXiv，2026-06-15；v2 更新 2026-06-19
类别：Pretraining Data / Data-Constrained Training / Training Mechanism
一句话贡献：研究数据受限、算力相对充足时的 training-time augmentation，比较 token noise、sequence permutation、target offset prediction 等增强对 AR 预训练过拟合的缓解作用。

为什么值得关注：

当高质量文本接近数据天花板，多 epoch 训练固定语料会过拟合。该工作系统研究训练时增强如何让固定数据被更有效地重复利用。它对持续预训练和小而高质数据集训练尤其重要。

与 wenjun 方向的关系：

对代码模型：可研究 FIM、反向预测、token corruption 对代码补全/修复/agentic coding 的影响。
对 agent 轨迹数据：长轨迹数据昂贵，是否能通过轨迹扰动、目标偏移、子任务重排提高利用率，是值得尝试的问题。

#1.17 AC-ODM: Actor--Critic Online Data Mixing for Sample-Efficient LLM Pretraining

链接：https://arxiv.org/abs/2505.23878
来源/日期：arXiv，v2 更新 2026-06-14
类别：Pretraining Data / Online Data Mixing / RL for Training Data
一句话贡献：从 RL 视角提出 Actor-Critic Online Data Mixing，用参数化 policy 动态选择数据混合，最大化梯度 constructive interference，并支持 proxy 与 non-proxy 两种模式。

为什么值得关注：

这篇把数据 mixture 选择显式看成策略学习问题。相比静态 mixture，它强调训练动态变化中不同数据源的边际价值。若方法成立，它可用于解释“为什么某些阶段需要更多代码/数学/agent trace，某些阶段反而需要回到通用语料”。

与 wenjun 方向的关系：

可作为研究 agent 预训练数据塑造能力的工具：让 policy 在训练过程中自适应选择 web/code/tool-use/long-trajectory 数据，观察能力曲线与数据权重曲线的耦合。

#1.18 Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?

链接：https://arxiv.org/abs/2606.23189
来源/日期：arXiv / Hugging Face Papers，2026-06-22
类别：Computer-use Agent / Safety / Evaluation / Privacy
一句话贡献：提出 AgentCIBench，用可执行、确定性评分场景评估 computer-use agents 是否遵守 contextual integrity，并发现 15 个 frontier agents 中多数在超过 50% 场景泄露不合适信息。

为什么值得关注：

Agent 能跨 app 操作后，风险不只是错误执行，还包括把一个上下文里的私人信息带到另一个不该出现的上下文。论文定义了 visual co-location、task-ambiguity overshare、recipient misalignment 三类失败。对真实部署 Agent，这类评测会越来越重要。

与 wenjun 方向的关系：

如果做长期 Agent RL，reward 不能只看 task success，还必须包含 context boundary 和 information flow constraints。否则 agent 会学到“为了完成任务过度读取/泄露信息”的捷径。

#2. 其他值得扫读的条目

#DataClaw0: Agentic Tailoring Multimodal Data from Raw Streams

链接：https://arxiv.org/abs/2606.21337
来源/日期：arXiv，2026-06-19
类别：Pretraining/Post-training Data / Multimodal Agent / GRPO
一句话贡献：把数据处理提升为可学习的 Agentic Data Tailoring 能力，并用 SFT + GRPO 训练 DataClaw0-9B 从原始多模态流中主动结构化数据。
简评：值得从“数据生产 agent”角度跟进；它把数据清洗/标注/结构化本身变成模型能力，和 agent 预训练数据管线有关。

#Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

链接：https://arxiv.org/abs/2606.18844
来源/日期：arXiv，2026-06-17
类别：Post-training RL / Self-distillation / Trajectory Learning
一句话贡献：提出 TAPO，在 RL 中利用同一 query 的正确/错误 rollout 构造 micro-reflective corrections，把自蒸馏从分布对齐推进到显式轨迹纠错。
简评：对 Agent 训练很有启发：不要只收成功轨迹，错误轨迹与纠错轨迹可能更适合 credit assignment。

#Deep Research in Physical Sciences: A Multi-Agent Framework and Comprehensive Benchmark

链接：https://arxiv.org/abs/2606.18648
来源/日期：arXiv，2026-06-17；v2 2026-06-21
类别：Scientific Agent / Multi-Agent / Evaluation
一句话贡献：提出 PhySciBench，评估 deep research agents 在物理/化学研究工作流中的多步推理能力，并指出长推理链脆弱、跨步知识迁移弱、缺少物理 grounded self-verification。
简评：可作为 scientific agent benchmark 参考；失败模式与长程 Agent 普遍问题一致。

#SkillHarness: Harnessing Safe Skills for Computer-Use Agents

链接：https://arxiv.org/abs/2606.20636
来源/日期：arXiv，2026-06-02
类别：Computer-use Agent / Continual Skill Learning / Safety
一句话贡献：将 CUA 的技能学习与使用建模为安全约束交互过程，关注 prompt injection、弹窗、环境动态导致的 risky skill learning。
简评：虽然不是最新，但和“agent 持续学习技能库”高度相关，尤其适合与 OpenRath/Session replay 思路结合。

#DailyReport: An Open-ended Benchmark for Evaluating Search Agents on Daily Search Tasks

链接：https://arxiv.org/abs/2606.12871
来源/日期：arXiv，2026-06-11
类别：Search Agent / Evaluation / Rubric
一句话贡献：提出 150 个开放式日常搜索任务和 3,546 个 rubrics，用级联 rubric 做可解释评估。
简评：对自动化信息调研 Agent 很直接；也可反过来作为本简报类任务的评估参考。

#3. 今日最值得精读的 3 篇

CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents

适合精读其任务合成、Docker 环境、验证流水线和 taxonomy。对 code agent RL、自演化训练环境最相关。

Self-Compacting Language Model Agents

适合精读其 compaction trigger 设计和上下文压缩评价。对长轨迹 Agent、context compressor、latent state 表示最相关。

Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning

适合精读其 solve-task / update-context episode 设计和 GRPO-style RL 设置。它最接近 wenjun 的 long-horizon Agent RL 主线。

如果还有时间，建议补读 PlanBench-XL，它可以作为 long-horizon tool-use agent 的评测环境候选。

#4. 今日最值得跟进的 3 个 repo/model/dataset

注：本期主要从论文摘要和 Hugging Face Papers 页面获得信息，部分论文摘要只写 “Code: this https URL” 或宣称开源，具体仓库需点进论文页面/PDF 核验。

CLI-Universe 相关环境/任务生成器

- 价值：可验证 terminal-agent 训练环境生成。

- 可能用途：作为 code agent RL 数据引擎或自演化环境生成器。

Tmax terminal dataset / open RL recipe

- 价值：摘要称其开放终端数据集规模超过既有 terminal-agent datasets 2.5 倍，并给出 9B RL recipe。

- 可能用途：复现实验、研究 outcome-only RL 在 terminal tasks 上的上限与失败模式。

EvoTrain-180K / EvoEmbedding

- 价值：面向 long-context retrieval 和 agentic memory 的动态表示训练集。

- 可能用途：比较静态 embedding、recurrent latent memory、文本摘要 memory 在长轨迹 Agent 中的效果。

可备选关注：PhoneBuddy/PhoneWorld、PlanBench-XL、EnterpriseClawBench protocol、AgentCIBench。

#5. 研究机会 / idea

#Idea 1：把 SelfCompact 变成可训练的 latent-state policy

当前 SelfCompact 是推理时 scaffold + rubric。可以进一步把“何时压缩、压缩成什么状态、是否保留原文引用”建模为 RL policy：

状态：当前 trace、工具调用图、未完成子目标、verifier telemetry；
动作：不压缩 / 文本摘要 / 结构化 state / 向量 memory update / 保留关键 evidence；
奖励：任务成功率、token 成本、后续检索准确率、信息遗漏惩罚。

这会把上下文压缩从工程 heuristic 推向 Agent RL 的核心决策。

#Idea 2：为 LLM Agent 构建“工具世界模型”

PlanBench-XL、PhoneBuddy、World Action Models 可以合成一个方向：训练模型预测 action/tool call 的后果，而不是每次都真实执行。

在 terminal/code agent 中，世界模型预测命令是否会通过测试、文件会如何变化、错误类型是什么；
在 tool-use agent 中，预测 tool 可用性、返回证据类别、是否引入新子目标；
在 phone/web agent 中，预测 UI 状态转移和副作用风险。

这正是 Dreamer-style LLM Agent 的切入口：learned dynamics + latent state + planning/RL。

#Idea 3：从 session 数据研究 Agent 能力形成机制

OpenRath、EnterpriseClawBench、Connect the Dots 都说明 session 是 Agent 数据的基本单位。可以系统研究：

什么样的 session 结构最能提升长程规划？
成功轨迹、失败轨迹、反思轨迹、分支轨迹的最优比例是什么？
session 中的 workspace diff、tool evidence、memory update 是否应作为预训练 token，还是作为结构化 latent supervision？

这与“agent 预训练数据如何塑造能力”高度一致，也能连接代码智能和基础模型训练机制。

#6. 本期来源与访问说明

Hugging Face Daily Papers / Papers：可访问，用于发现 2026-06-22 前后热点条目。
arXiv abs 页面：可访问，用于逐条核验标题、摘要、日期和类别。
arXiv export API：检索阶段出现 timeout 与 HTTP 429，因此未依赖其批量结果。
X/Twitter：本期未作为主来源；为避免不可访问或不可核验信息，本期优先使用论文页、HF 与 arXiv。