每日调研 2026-06-08 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-06-08 AI/LLM 最新论文与研究热点简报

检索时间：2026-06-08 08:00（Asia/Shanghai）
主要覆盖：arXiv 最近提交/更新、Hugging Face Daily Papers、GitHub 新近仓库/更新。
说明：arXiv/HF 在 6 月 4 日附近集中出现一批与 LLM Agent RL、latent reasoning、self-evolving agent、coding agent benchmark 高度相关的论文；严格 24-48 小时内新增论文密度不高，因此本期按要求扩展到最近约 3-7 天，并优先筛选与 wenjun 研究方向最相关的内容。X/Twitter 页面可访问但结构化检索受动态渲染/登录与反爬限制影响，本期不把 X 作为事实来源，转用 arXiv、HF、GitHub。

#0. 今日总判断

这两天最明显的趋势不是“又一个通用 Agent 框架”，而是 Agent RL 的训练信号正在从 terminal reward / GRPO 粗粒度优势，转向更细的 credit assignment、可验证环境、状态外置、world model / off-policy evaluation，以及 latent/parametric memory 的结合。

对 wenjun 当前关注的两条主线：

LLM model-based RL / Dreamer for LLM Agent：本期的 ADWM、Harness-1、PROVE、CVT-RL、ECPO/TAPO 都在回答同一个问题：长轨迹 Agent 不能只靠最终 reward，需要环境状态、反事实、工具调用语义和离线 world model 来提供更可靠训练/评估信号。
潜空间推理 latent-space reasoning：NF-CoT、ReLAT、TARPO、ALAR 几篇形成了一个小波峰：从“压缩 CoT token”推进到“latent thought 也要有概率建模、可采样、可重构、可被 RL 优化”。这和长轨迹 Agent 的 token budget、隐式规划、世界模型状态压缩强相关。

#1. 最重要论文/动态精读候选

#1.1 Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents

类别：Model-based RL / LLM Agent / Evaluation / World Model
来源/日期：arXiv，2026-06-04
链接：https://arxiv.org/abs/2606.05558
一句话核心贡献：提出 ADWM，用自回归的 latent diffusion world model 在离线轨迹上估计新 LLM Agent policy 的表现，避免真实环境在线交互成本和风险。

为什么值得关注：

这是最贴近 “Dreamer for LLM Agent / model-based RL for agents” 的一篇。它把 LLM Agent 的环境交互看成：Agent 根据当前观测采样离散文本动作，world model 生成下一步环境响应。不同于一次性生成整条轨迹的 diffusion OPE，它按因果顺序逐步 rollout，让被评估 policy 在每一步参与条件生成。

与 wenjun 研究方向的关系：

如果你要做 LLM Agent 的 model-based RL，一个核心瓶颈是：world model 到底模拟什么？是完整 observation 文本、工具结果、状态摘要，还是 latent state？ADWM 给了一个很直接的研究切口：把 offline evaluation 作为第一步，再扩展到 model-based policy improvement。可以进一步问：

diffusion world model 是否能和 latent reasoning state 合并？
world model 预测的是环境 observation，还是预测 verifier/reward/credit？
对代码 Agent，world model 能否模拟测试结果、编译错误、repo 状态变化？

#1.2 Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

类别：LLM Agent / Post-training RL / Tool-use / Context Compression
来源/日期：arXiv，2026-06-01；HF Daily Papers 近期收录
链接：https://arxiv.org/abs/2606.02373
Repo：https://github.com/pat-jj/harness-1
一句话核心贡献：训练一个 20B 搜索 Agent，但把候选池、证据链接、验证记录、压缩去重 observation、预算渲染等状态管理外置给 harness，policy 只学语义决策。

为什么值得关注：

很多 Agent RL 失败不是因为模型不会推理，而是因为 policy 被迫同时做“搜索决策”和“可恢复的 bookkeeping”。Harness-1 的核心主张是：把机械状态管理交给环境/执行器，RL 只优化真正需要学习的语义动作。它在 8 个 retrieval benchmark 上平均 curated recall 达到 0.730，比下一个最强 open search subagent 高 11.4 个点，并且在 held-out transfer 上表现较强。

与 wenjun 研究方向的关系：

这对“环境设计催生自演化智能”很关键：能力不只来自模型参数，也来自 训练环境把哪些变量暴露给 policy、哪些变量外置给 harness。对长轨迹 RL 来说，这相当于把 POMDP 的一部分 belief state 显式化，减少策略学习难度。它还和通用上下文压缩器相关：context rendering 本身成为 agent harness 的一部分。

#1.3 Rethinking Continual Experience Internalization for Self-Evolving LLM Agents

类别：LLM Agent / Continual Learning / Self-evolving Agent
来源/日期：arXiv，2026-06-03；HF Daily Papers 近期收录
链接：https://arxiv.org/abs/2606.04703
一句话核心贡献：系统指出多轮 experience internalization 会出现 progressive capability collapse，并给出更稳定的经验内化 recipe：principle-level experience、step-wise injection、off-policy context distillation。

为什么值得关注：

这篇不是只宣称“Agent 能自我进化”，而是指出自我进化的一个反常现象：多轮学习不一定复利增长，反而会能力崩塌。作者从三方面解释：

经验粒度：原则级经验比实例级经验更耐用；
注入模式：step-wise injection 比 global injection 更适合长轨迹工具使用；
内化机制：高质量 teacher trajectory 上的 off-policy context distillation 比 on-policy local correction 稳定。

与 wenjun 研究方向的关系：

这直接对应 “agent 预训练数据如何塑造能力 / self-evolving code agent / 长轨迹 RL”。如果做代码 Agent，可以把每次 debug/patch/test 的经验抽象成 principle，再在相似中间状态 step-wise 注入，而不是把整条失败轨迹塞进 replay buffer。

#1.4 Latent Reasoning with Normalizing Flows

类别：Latent Reasoning / Reasoning Model / Post-training RL
来源/日期：arXiv，2026-06-04；HF Daily Papers 近期收录
链接：https://arxiv.org/abs/2606.06447
一句话核心贡献：提出 NF-CoT，在 LLM 内部用 normalizing flows 建模连续 latent thoughts，保留 left-to-right generation、概率采样、KV-cache 兼容和可计算 likelihood。

为什么值得关注：

很多 latent reasoning 方法的弱点是：latent state 不可采样、不可算 likelihood、和标准自回归生成不兼容，因此很难接 RL。NF-CoT 的价值在于把 latent thought 变成一个可概率建模的对象：连续 thought 位置由 NF head 生成，文本位置仍由 LM head 生成。

与 wenjun 研究方向的关系：

如果你想把 latent reasoning 接到 Agent RL，这篇提供了一个关键接口：latent thought 可以被 policy-gradient 优化。一个自然延伸是：在 Agent 轨迹里，哪些 token/turn 用 text CoT，哪些用 latent thought？这与 TARPO 和 ALAR 的 routing 思路可以合并。

#1.5 TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization

类别：Latent Reasoning / Post-training RL / Reasoning Model
来源/日期：arXiv，2026-06-04
链接：https://arxiv.org/abs/2606.05859
Repo：https://github.com/NKU-LITI/TARPO-master
一句话核心贡献：用一个轻量 action router 在每个 step 决定走显式 token 还是连续 latent reasoning，并用 group-relative advantage 端到端 RL 优化。

为什么值得关注：

这篇把 latent/explicit 的选择本身建模成 action，而不是固定策略。它解决的问题是：连续 latent representation 本身偏确定性，不利于 RL 探索；通过二元 routing 保留离散 token sampling 的随机性，同时允许部分步骤进入 latent mode。

与 wenjun 研究方向的关系：

对 Agent 来说，不是每一步都值得输出长 CoT。TARPO 的 token-wise routing 可以推广为 turn-wise / subgoal-wise routing：简单工具调用用 latent state，关键分支点用显式 CoT 或 planner。这个方向很适合和长轨迹 credit assignment 结合。

#2. 其他值得扫读的论文

#2.1 Closing the Loop on Latent Reasoning via Test-Time Reconstruction

类别：Latent Reasoning / Test-time Training / Evaluation
来源/日期：arXiv，2026-06-04
链接：https://arxiv.org/abs/2606.06252
一句话核心贡献：提出 ReLAT，用 Query → Latent Thought → Query 的重构闭环在测试时约束 latent state，避免 latent reasoning 丢失题目约束。

简评：这篇抓住了 latent reasoning 的核心风险：不透明中间状态可能已经偏离问题，但我们不知道。用 query reconstruction 做 fidelity check 很适合迁移到 Agent：例如要求 latent plan 能重构用户目标、环境约束、当前未满足条件。

#2.2 Adaptive Latent Agentic Reasoning

类别：Latent Reasoning / LLM Agent / Efficiency
来源/日期：arXiv，2026-06-01
链接：https://arxiv.org/abs/2606.02871
一句话核心贡献：提出 ALAR，在多轮 Agent 轨迹中 routine turn 用 latent reasoning，困难决策再升级到显式 CoT，工具使用场景生成 token 最多减少 84.6%。

简评：非常适合作为“Agent 推理预算分配”的 baseline 思路。关键不是压缩所有 CoT，而是学习什么时候不必说出来。

#2.3 Policy-Conditioned Counterfactual Credit for Verifiable RL of Long-Horizon Language Agents

类别：LLM Agent / Post-training RL / Credit Assignment / Verifiable Reward
来源/日期：arXiv，2026-06-03
链接：https://arxiv.org/abs/2606.05263
一句话核心贡献：提出 CVT-RL，用 policy-conditioned counterfactual contribution、dense verifiable rewards 和约束项减少长轨迹 Agent 的 unsupported evidence chain、belief drift 与 reward hacking。

简评：这篇的关键词是“反事实信用分配”。对长轨迹 Agent，不能只问某一步长得像不像好步骤，而要问：干预替换/删除这一步后，最终验证成功概率如何变。

#2.4 When Denser Credit Is Not Enough: Evidence-Calibrated Policy Optimization

类别：LLM Agent / Post-training RL / Credit Assignment
来源/日期：arXiv，2026-06-04
链接：https://arxiv.org/abs/2606.05885
一句话核心贡献：提出 ECPO，指出 step-level dense credit 在 rollout 数有限时会高估 rare lucky actions，并用 action grouping、low-count shrinkage、variance-gated weighting 校准 step credit。

简评：它提醒我们：dense credit 不等于 reliable credit。对 Agent RL，给每个中间步骤 reward 只是开始，统计可靠性与方差控制可能更重要。

#2.5 TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents

类别：Tool-use / LLM Agent / Post-training RL / Multimodal Search
来源/日期：arXiv，2026-06-04
链接：https://arxiv.org/abs/2606.05784
一句话核心贡献：指出 GRPO 会把失败轨迹里的有效 tool-use token 一起惩罚，提出基于相似工具参数的 credit transfer 来修正 misassignment。

简评：工具调用不是普通 token。相同或相近 tool parameters 往往代表相同信息获取动作，可以跨轨迹转移信用。这对代码 Agent 的“运行测试/查看文件/应用 patch”等动作同样适用。

#2.6 Synthesize and Reward -- RL for Multi-Step Tool Use in Live Environments

类别：Tool-use / Post-training RL / MCP / Verifiable Reward
来源/日期：arXiv，2026-06-02，2026-06-03 更新
链接：https://arxiv.org/abs/2606.03892
一句话核心贡献：提出 PROVE：20 个 stateful MCP servers、343 个工具、状态机合成数据、程序化 reward + adaptive efficiency penalty，用 GRPO 训练多步工具调用。

简评：这是工具 RL 工程化很完整的一篇：真实 stateful environment、可执行轨迹、程序化 reward、效率惩罚。值得关注它的 MCP server 设计和 reward 结构。

#2.7 Scaling Self-Evolving Agents via Parametric Memory

类别：Self-evolving Agent / Continual Learning / Parametric Memory
来源/日期：arXiv，2026-06-03
链接：https://arxiv.org/abs/2606.04536
一句话核心贡献：提出 TMEM，把历史不仅压缩到文本 memory，还蒸馏进 fast LoRA weights，在单个 episode 内通过轻量 online update 改变未来行为。

简评：这是 prompt memory → parametric memory 的过渡。对长期 Agent，单靠 retrieval 只能“查到”，不能“学会”；fast weights 是一个可能的中间形态。

#2.8 Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution

类别：Code Intelligence / Pretraining-Adaptation / Repository-level Context
来源/日期：arXiv，2026-06-04；HF Daily Papers 近期收录
链接：https://arxiv.org/abs/2606.06492
模型/数据：https://huggingface.co/code2lora
一句话核心贡献：用 hypernetwork 为每个 repo 生成 LoRA adapter，静态 repo 和代码演化 diff 都可支持，避免长上下文注入的 token overhead。

简评：这篇对代码智能很有启发：repo knowledge 可以不只通过 RAG 塞上下文，也可以编译成 adapter。对 self-evolving code agent，diff → adapter state 的思路尤其值得看。

#2.9 TensorBench: Benchmarking Coding Agents on a Compiler-Based Tensor Framework

类别：Code Agent / Evaluation / Benchmark
来源/日期：arXiv，2026-06-04
链接：https://arxiv.org/abs/2606.05570
一句话核心贡献：构造 199 个基于 compiler tensor framework 的 feature-addition/refactoring 任务，用真实测试套件评估 coding agent。

简评：相比“修小 bug”的 SWE-bench 风格，TensorBench 更强调系统型代码、IR、scheduler、runtime 和 sparse tensor 支持。它可能更接近基础模型训练系统/编译器方向的代码 Agent 能力评估。

类别：Code Agent / Evaluation / Intent Understanding
来源/日期：arXiv，2026-06-04
链接：https://arxiv.org/abs/2606.05920
一句话核心贡献：评估代码 Agent 在需求不完整、用户多轮反馈、浏览器渲染行为闭环中的 web 开发能力；最强模型三轮后也只完成 52%。

简评：这篇很好地对应“从指令理解走向意图理解”。真实用户很少一次性给完整 spec，Agent 需要从反馈中修正目标。

#2.11 On Advantage Estimates for Max@K Policy Gradients

类别：Post-training RL / RLVR / Test-time Scaling
来源/日期：arXiv，2026-06-04
链接：https://arxiv.org/abs/2606.06080
一句话核心贡献：分析 max@K/pass@K 目标的 policy gradient advantage 估计，提出 Leave-Two-Out baseline 和 MaxPO，降低方差并统一既有估计器视角。

简评：如果训练目标与推理时 best-of-K / max@K 一致，这类 policy gradient 估计会越来越重要。对 code/reasoning Agent，最终常常看多次采样中最好一次是否通过测试。

#2.12 SALT: When More Rollouts Don't Help in Group-Based Policy Optimization

类别：Post-training RL / RLVR / GRPO
来源/日期：arXiv，2026-06-04
链接：https://arxiv.org/abs/2606.05800
一句话核心贡献：指出 GRPO-style group normalization 下增加 rollout 不一定增强学习，可能因为 signed gradient geometry 抵消；提出 subspace-adaptive reweighting 插件 SALT。

简评：这篇和 Max@K/GRPO 系列一起看，可以帮助理解“为什么 rollout 数加了但效果没涨”。

#2.13 OPRD: On-Policy Representation Distillation

类别：Post-training / Distillation / Reasoning Model
来源/日期：arXiv，2026-06-04；HF Daily Papers 近期收录
链接：https://arxiv.org/abs/2606.06021
Repo：https://github.com/ShenzhiYang2000/OPRD
一句话核心贡献：把 on-policy distillation 从输出 token KL 推到 hidden-state representation alignment，降低采样方差，训练更快、显存更低。

简评：适合作为“小模型继承 reasoning teacher”的训练机制参考，也可能与 latent reasoning distillation 结合。

#2.14 Entropy Gate: Entropy Quenching for Near-Lossless Token Compression

类别：Context Compression / Systems / Agent Efficiency
来源/日期：arXiv，2026-06-02
链接：https://arxiv.org/abs/2606.03739
一句话核心贡献：提出模型无关 token compression proxy，用多因素信息能量和自适应 quenching schedule 删除低信息 token，宣称 agentic workloads 可组合节省 88-96%。

简评：理论表述偏重，但方向与 Agent 上下文压缩强相关。可关注它的可逆性、失败 case 和在代码/工具日志上的实际保真度。

#2.15 MLEvolve: A Self-Evolving Framework for Automated ML Algorithm Discovery

类别：Self-evolving Agent / Code Agent / Scientific Discovery
来源/日期：arXiv，2026-06-04；HF Daily Papers 近期收录
链接：https://arxiv.org/abs/2606.06473
Repo：https://github.com/InternScience/MLEvolve
一句话核心贡献：用 Progressive MCGS、跨分支 reference edge、Retrospective Memory 和规划/编码解耦实现自动 ML 算法发现。

简评：AlphaEvolve 类系统的 open-source 近邻。对 self-evolving code agent，关键是它把 long-horizon search 的 memory、branch communication、coding mode 分开设计。

#2.16 Unsupervised Skill Discovery for Agentic Data Analysis

类别：LLM Agent / Skill Discovery / Evaluation
来源/日期：arXiv，2026-06-04；HF Daily Papers 近期收录
链接：https://arxiv.org/abs/2606.06416
一句话核心贡献：提出 DataCOPE，在无人工监督下用 verifier-guided exploration、trajectory agreement/checklist signals 发现可复用数据分析技能。

简评：和“从经验中抽象 skill”相关。可以作为 self-evolving agent 中 skill extraction 的一个参考实现。

#2.17 SePO: Self-Evolving Prompt Agent for System Prompt Optimization

类别：Self-evolving Agent / Prompt Optimization / Tool-use
来源/日期：arXiv，2026-06-03；HF Daily Papers 近期收录
链接：https://arxiv.org/abs/2606.04465
Repo：https://github.com/taowangcheng/SePO
一句话核心贡献：不仅优化 task agent 的 system prompt，也把 prompt optimizer 自己的 system prompt 纳入开放式进化搜索。

简评：这是“自指优化”的轻量版本。虽然不是参数训练，但适合作为 agent scaffold / prompt policy 的 evolution baseline。

#3. GitHub / 模型 / 数据集动态

#3.1 Harness-1

类别：LLM Agent / Search Agent / RL
来源/日期：GitHub，创建 2026-05-17，最近 pushed 2026-06-07
链接：https://github.com/pat-jj/harness-1
核心信息：长轨迹 Search Agent 训练 recipe；GitHub API 显示约 222 stars，描述为“Ultra Recipe for Training Long-Horizon Search Agents”。
为什么跟进：它把 state-externalizing harness 具体落到了 repo，可直接读训练/eval harness 设计。

#3.2 Code2LoRA model/checkpoints/dataset

类别：Code Intelligence / Repository Adaptation / Dataset
来源/日期：论文 2026-06-04；HF 资源页
链接：https://huggingface.co/code2lora
核心信息：RepoPeftBench 数据与 Code2LoRA 模型检查点，用于静态 repo 和 code evolution 两条轨道。
为什么跟进：repo-level knowledge 从“上下文检索”走向“adapter 编译”的可复现实验入口。

#3.3 MLEvolve

类别：Self-evolving Agent / Automated ML / Code Agent
来源/日期：GitHub，最近 pushed 2026-06-07
链接：https://github.com/InternScience/MLEvolve
核心信息：GitHub API 显示约 310 stars；Progressive search + experience-driven memory 的自动 ML 算法发现系统。
为什么跟进：适合拆解 long-horizon agent search 如何组织 memory、branch 和 coding mode。

#3.4 TARPO-master

类别：Latent Reasoning / RL
来源/日期：GitHub，创建 2026-06-01，最近 pushed 2026-06-05
链接：https://github.com/NKU-LITI/TARPO-master
核心信息：TARPO 论文官方代码入口。
为什么跟进：如果要复现实验或改成 turn-wise Agent routing，这是最直接起点。

#3.5 sandboxd

类别：Code Agent / Systems / Sandbox
来源/日期：GitHub，创建 2026-06-03，最近 pushed 2026-06-07
链接：https://github.com/tastyeffectco/sandboxd
核心信息：自托管开发 sandbox + preview URLs，面向 coding agents；GitHub API 显示约 494 stars。
为什么跟进：代码 Agent 的真实闭环需要低成本、可隔离、可预览的执行环境，这类 infra 会影响 agentic RL 数据采集。

#3.6 guard-skills

类别：Code Agent / Safety / Quality Gate
来源/日期：GitHub，创建 2026-06-06，最近 pushed 2026-06-07
链接：https://github.com/amElnagdy/guard-skills
核心信息：面向 coding agents 的质量门禁 skills，捕捉 AI 生成代码/测试/文档中的常见失败模式；GitHub API 显示约 305 stars。
为什么跟进：如果把 coding agent 的 evaluator/verifier 做成 skill library，它可以成为 RL reward 或 rejection sampling 的一部分。

#3.7 accordion

类别：Context Compression / Code Agent
来源/日期：GitHub，创建 2026-06-02，最近 pushed 2026-06-07
链接：https://github.com/a-Fig/accordion
核心信息：连续、可逆、turn-level context compression for AI coding agents。
为什么跟进：虽然 star 少，但“可逆 turn-level 压缩”切中长轨迹 Agent 的上下文瓶颈。

#4. 今日最值得精读的 3 篇

Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents

https://arxiv.org/abs/2606.05558

精读理由：最贴近 model-based RL / Dreamer for LLM Agent，可作为“先做离线 world model 评估，再做 policy improvement”的切入点。

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

https://arxiv.org/abs/2606.02373

精读理由：把“环境设计如何降低 Agent RL 难度”讲得很清楚，且有 repo，值得拆 harness/state/context rendering。

Latent Reasoning with Normalizing Flows

https://arxiv.org/abs/2606.06447

精读理由：latent reasoning 若要接 RL，必须解决可采样、可 likelihood、KV-cache 兼容问题；这篇提供了比较系统的接口。

备选第 4 篇：Rethinking Continual Experience Internalization for Self-Evolving LLM Agents，用于理解 self-evolving agent 为什么会多轮崩塌。

#5. 今日最值得跟进的 3 个 repo/model/dataset

Harness-1 repo：https://github.com/pat-jj/harness-1

看点：Search Agent RL、state-externalizing harness、context rendering、offline/online eval。

Code2LoRA / RepoPeftBench：https://huggingface.co/code2lora

看点：repo-level code knowledge 如何转成 adapter；适合连接代码数据质量、持续适配和 self-evolving code agent。

MLEvolve repo：https://github.com/InternScience/MLEvolve

看点：progressive search、retrospective memory、branch communication、算法发现中的 self-evolution。

#6. 研究机会 / idea

#Idea 1：从 ADWM 到 “Agent Dreamer”：用 world model 生成可验证中间 credit，而不只做 OPE

ADWM 目前重点是 off-policy evaluation。可以进一步做：

学一个 world model 预测下一 observation / tool result / verifier state；
在 world model 中 rollout 多条候选 Agent trajectory；
用 verifier 或 learned reward 对 simulated trajectory 做筛选；
只把高置信 simulated credit 用于真实 policy 更新。

关键研究问题：如何避免 world model hallucination 被 policy exploiting？可以借鉴 CVT-RL 的 intervention-validity gating 和 Harness-1 的 state externalization。

#Idea 2：Latent reasoning routing for long-horizon Agent：把 TARPO/ALAR 从 token-wise 扩展到 turn-wise/subgoal-wise

当前 latent reasoning 论文多在数学/代码生成 benchmark 上测试。Agent 场景更自然的粒度可能是：

routine observation summarization：latent；
tool selection：latent 或短显式；
关键分支/验证失败/用户反馈：显式 CoT；
memory update：latent + 可重构约束。

可设计一个 routing policy，以任务成功、token cost、可审计性为联合 reward。ReLAT 的 reconstruction loss 可用于确保 latent state 仍保留用户目标和环境约束。

#Idea 3：Code Agent 的 “state-externalizing harness + repo adapter” 结合

Harness-1 说状态管理应外置，Code2LoRA 说 repo knowledge 可转成 adapter。两者合并可能形成一个更强代码 Agent 训练框架：

harness 维护 repo graph、test history、patch attempts、dependency/API map；
hypernetwork 根据 repo snapshot/diff 生成 lightweight adapter；
policy 只决定下一步语义动作：读哪个文件、改哪个函数、运行哪些测试、是否回滚；
reward 来自编译/测试/verifier，并用 TAPO/ECPO 类方法给工具动作分配信用。

这条线很适合连接代码智能、agentic RL、环境设计与基础模型能力形成机制。

#7. 快速索引表

标题	类别	日期	来源	链接
Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents	Model-based RL / Agent	2026-06-04	arXiv	https://arxiv.org/abs/2606.05558
Harness-1: RL for Search Agents with State-Externalizing Harnesses	Agent RL / Tool-use	2026-06-01	arXiv/HF/GitHub	https://arxiv.org/abs/2606.02373
Rethinking Continual Experience Internalization for Self-Evolving LLM Agents	Continual Learning / Agent	2026-06-03	arXiv/HF	https://arxiv.org/abs/2606.04703
Latent Reasoning with Normalizing Flows	Latent Reasoning	2026-06-04	arXiv/HF	https://arxiv.org/abs/2606.06447
TARPO: Token-Wise Latent-Explicit Reasoning	Latent Reasoning / RL	2026-06-04	arXiv/GitHub	https://arxiv.org/abs/2606.05859
Closing the Loop on Latent Reasoning via Test-Time Reconstruction	Latent Reasoning	2026-06-04	arXiv	https://arxiv.org/abs/2606.06252
Adaptive Latent Agentic Reasoning	Latent Reasoning / Agent	2026-06-01	arXiv	https://arxiv.org/abs/2606.02871
Policy-Conditioned Counterfactual Credit	Agent RL / Credit	2026-06-03	arXiv	https://arxiv.org/abs/2606.05263
Evidence-Calibrated Policy Optimization	Agent RL / Credit	2026-06-04	arXiv	https://arxiv.org/abs/2606.05885
TAPO: Tool-Aware Policy Optimization	Tool-use / Agent RL	2026-06-04	arXiv	https://arxiv.org/abs/2606.05784
Synthesize and Reward / PROVE	Tool-use / MCP / RL	2026-06-02/03	arXiv	https://arxiv.org/abs/2606.03892
Scaling Self-Evolving Agents via Parametric Memory	Self-evolving Agent	2026-06-03	arXiv	https://arxiv.org/abs/2606.04536
Code2LoRA	Code Intelligence	2026-06-04	arXiv/HF	https://arxiv.org/abs/2606.06492
TensorBench	Code Agent / Eval	2026-06-04	arXiv	https://arxiv.org/abs/2606.05570
Asuka-Bench	Code Agent / Intent	2026-06-04	arXiv	https://arxiv.org/abs/2606.05920
Max@K Policy Gradients / MaxPO	RLVR / Post-training	2026-06-04	arXiv	https://arxiv.org/abs/2606.06080
SALT	RLVR / GRPO	2026-06-04	arXiv	https://arxiv.org/abs/2606.05800
OPRD	Distillation / Reasoning	2026-06-04	arXiv/HF/GitHub	https://arxiv.org/abs/2606.06021
Entropy Gate	Context Compression	2026-06-02	arXiv	https://arxiv.org/abs/2606.03739
MLEvolve	Self-evolving Code/ML Agent	2026-06-04	arXiv/HF/GitHub	https://arxiv.org/abs/2606.06473
DataCOPE	Skill Discovery / Agent	2026-06-04	arXiv/HF	https://arxiv.org/abs/2606.06416
SePO	Prompt Optimization / Self-evolving	2026-06-03	arXiv/HF/GitHub	https://arxiv.org/abs/2606.04465

#2026-06-08 AI/LLM 最新论文与研究热点简报

#0. 今日总判断

#1. 最重要论文/动态精读候选

#1.1 Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents

#1.2 Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

#1.3 Rethinking Continual Experience Internalization for Self-Evolving LLM Agents

#1.4 Latent Reasoning with Normalizing Flows

#1.5 TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization

#2. 其他值得扫读的论文

#2.1 Closing the Loop on Latent Reasoning via Test-Time Reconstruction

#2.2 Adaptive Latent Agentic Reasoning

#2.3 Policy-Conditioned Counterfactual Credit for Verifiable RL of Long-Horizon Language Agents

#2.4 When Denser Credit Is Not Enough: Evidence-Calibrated Policy Optimization

#2.5 TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents

#2.6 Synthesize and Reward -- RL for Multi-Step Tool Use in Live Environments

#2.7 Scaling Self-Evolving Agents via Parametric Memory

#2.8 Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution

#2.9 TensorBench: Benchmarking Coding Agents on a Compiler-Based Tensor Framework

#2.10 Asuka-Bench: Underspecified User Intent and Multi-Round Refinement

#2.11 On Advantage Estimates for Max@K Policy Gradients

#2.12 SALT: When More Rollouts Don't Help in Group-Based Policy Optimization

#2.13 OPRD: On-Policy Representation Distillation

#2.14 Entropy Gate: Entropy Quenching for Near-Lossless Token Compression

#2.15 MLEvolve: A Self-Evolving Framework for Automated ML Algorithm Discovery

#2.16 Unsupervised Skill Discovery for Agentic Data Analysis

#2.17 SePO: Self-Evolving Prompt Agent for System Prompt Optimization

#3. GitHub / 模型 / 数据集动态

#3.1 Harness-1

#3.2 Code2LoRA model/checkpoints/dataset

#3.3 MLEvolve

#3.4 TARPO-master

#3.5 sandboxd

#3.6 guard-skills

#3.7 accordion

#4. 今日最值得精读的 3 篇

#5. 今日最值得跟进的 3 个 repo/model/dataset

#6. 研究机会 / idea

#Idea 1：从 ADWM 到 “Agent Dreamer”：用 world model 生成可验证中间 credit，而不只做 OPE

#Idea 2：Latent reasoning routing for long-horizon Agent：把 TARPO/ALAR 从 token-wise 扩展到 turn-wise/subgoal-wise

#Idea 3：Code Agent 的 “state-externalizing harness + repo adapter” 结合

#7. 快速索引表