#2026-06-08 AI/LLM 最新论文与研究热点简报
检索时间:2026-06-08 08:00(Asia/Shanghai)
主要覆盖:arXiv 最近提交/更新、Hugging Face Daily Papers、GitHub 新近仓库/更新。
说明:arXiv/HF 在 6 月 4 日附近集中出现一批与 LLM Agent RL、latent reasoning、self-evolving agent、coding agent benchmark 高度相关的论文;严格 24-48 小时内新增论文密度不高,因此本期按要求扩展到最近约 3-7 天,并优先筛选与 wenjun 研究方向最相关的内容。X/Twitter 页面可访问但结构化检索受动态渲染/登录与反爬限制影响,本期不把 X 作为事实来源,转用 arXiv、HF、GitHub。
#0. 今日总判断
这两天最明显的趋势不是“又一个通用 Agent 框架”,而是 Agent RL 的训练信号正在从 terminal reward / GRPO 粗粒度优势,转向更细的 credit assignment、可验证环境、状态外置、world model / off-policy evaluation,以及 latent/parametric memory 的结合。
对 wenjun 当前关注的两条主线:
- LLM model-based RL / Dreamer for LLM Agent:本期的
ADWM、Harness-1、PROVE、CVT-RL、ECPO/TAPO都在回答同一个问题:长轨迹 Agent 不能只靠最终 reward,需要环境状态、反事实、工具调用语义和离线 world model 来提供更可靠训练/评估信号。 - 潜空间推理 latent-space reasoning:
NF-CoT、ReLAT、TARPO、ALAR几篇形成了一个小波峰:从“压缩 CoT token”推进到“latent thought 也要有概率建模、可采样、可重构、可被 RL 优化”。这和长轨迹 Agent 的 token budget、隐式规划、世界模型状态压缩强相关。
#1. 最重要论文/动态精读候选
#1.1 Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents
- 类别:Model-based RL / LLM Agent / Evaluation / World Model
- 来源/日期:arXiv,2026-06-04
- 链接:https://arxiv.org/abs/2606.05558
- 一句话核心贡献:提出 ADWM,用自回归的 latent diffusion world model 在离线轨迹上估计新 LLM Agent policy 的表现,避免真实环境在线交互成本和风险。
为什么值得关注:
这是最贴近 “Dreamer for LLM Agent / model-based RL for agents” 的一篇。它把 LLM Agent 的环境交互看成:Agent 根据当前观测采样离散文本动作,world model 生成下一步环境响应。不同于一次性生成整条轨迹的 diffusion OPE,它按因果顺序逐步 rollout,让被评估 policy 在每一步参与条件生成。
与 wenjun 研究方向的关系:
如果你要做 LLM Agent 的 model-based RL,一个核心瓶颈是:world model 到底模拟什么?是完整 observation 文本、工具结果、状态摘要,还是 latent state?ADWM 给了一个很直接的研究切口:把 offline evaluation 作为第一步,再扩展到 model-based policy improvement。可以进一步问:
- diffusion world model 是否能和 latent reasoning state 合并?
- world model 预测的是环境 observation,还是预测 verifier/reward/credit?
- 对代码 Agent,world model 能否模拟测试结果、编译错误、repo 状态变化?
#1.2 Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
- 类别:LLM Agent / Post-training RL / Tool-use / Context Compression
- 来源/日期:arXiv,2026-06-01;HF Daily Papers 近期收录
- 链接:https://arxiv.org/abs/2606.02373
- Repo:https://github.com/pat-jj/harness-1
- 一句话核心贡献:训练一个 20B 搜索 Agent,但把候选池、证据链接、验证记录、压缩去重 observation、预算渲染等状态管理外置给 harness,policy 只学语义决策。
为什么值得关注:
很多 Agent RL 失败不是因为模型不会推理,而是因为 policy 被迫同时做“搜索决策”和“可恢复的 bookkeeping”。Harness-1 的核心主张是:把机械状态管理交给环境/执行器,RL 只优化真正需要学习的语义动作。它在 8 个 retrieval benchmark 上平均 curated recall 达到 0.730,比下一个最强 open search subagent 高 11.4 个点,并且在 held-out transfer 上表现较强。
与 wenjun 研究方向的关系:
这对“环境设计催生自演化智能”很关键:能力不只来自模型参数,也来自 训练环境把哪些变量暴露给 policy、哪些变量外置给 harness。对长轨迹 RL 来说,这相当于把 POMDP 的一部分 belief state 显式化,减少策略学习难度。它还和通用上下文压缩器相关:context rendering 本身成为 agent harness 的一部分。
#1.3 Rethinking Continual Experience Internalization for Self-Evolving LLM Agents
- 类别:LLM Agent / Continual Learning / Self-evolving Agent
- 来源/日期:arXiv,2026-06-03;HF Daily Papers 近期收录
- 链接:https://arxiv.org/abs/2606.04703
- 一句话核心贡献:系统指出多轮 experience internalization 会出现 progressive capability collapse,并给出更稳定的经验内化 recipe:principle-level experience、step-wise injection、off-policy context distillation。
为什么值得关注:
这篇不是只宣称“Agent 能自我进化”,而是指出自我进化的一个反常现象:多轮学习不一定复利增长,反而会能力崩塌。作者从三方面解释:
- 经验粒度:原则级经验比实例级经验更耐用;
- 注入模式:step-wise injection 比 global injection 更适合长轨迹工具使用;
- 内化机制:高质量 teacher trajectory 上的 off-policy context distillation 比 on-policy local correction 稳定。
与 wenjun 研究方向的关系:
这直接对应 “agent 预训练数据如何塑造能力 / self-evolving code agent / 长轨迹 RL”。如果做代码 Agent,可以把每次 debug/patch/test 的经验抽象成 principle,再在相似中间状态 step-wise 注入,而不是把整条失败轨迹塞进 replay buffer。
#1.4 Latent Reasoning with Normalizing Flows
- 类别:Latent Reasoning / Reasoning Model / Post-training RL
- 来源/日期:arXiv,2026-06-04;HF Daily Papers 近期收录
- 链接:https://arxiv.org/abs/2606.06447
- 一句话核心贡献:提出 NF-CoT,在 LLM 内部用 normalizing flows 建模连续 latent thoughts,保留 left-to-right generation、概率采样、KV-cache 兼容和可计算 likelihood。
为什么值得关注:
很多 latent reasoning 方法的弱点是:latent state 不可采样、不可算 likelihood、和标准自回归生成不兼容,因此很难接 RL。NF-CoT 的价值在于把 latent thought 变成一个可概率建模的对象:连续 thought 位置由 NF head 生成,文本位置仍由 LM head 生成。
与 wenjun 研究方向的关系:
如果你想把 latent reasoning 接到 Agent RL,这篇提供了一个关键接口:latent thought 可以被 policy-gradient 优化。一个自然延伸是:在 Agent 轨迹里,哪些 token/turn 用 text CoT,哪些用 latent thought?这与 TARPO 和 ALAR 的 routing 思路可以合并。
#1.5 TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization
- 类别:Latent Reasoning / Post-training RL / Reasoning Model
- 来源/日期:arXiv,2026-06-04
- 链接:https://arxiv.org/abs/2606.05859
- Repo:https://github.com/NKU-LITI/TARPO-master
- 一句话核心贡献:用一个轻量 action router 在每个 step 决定走显式 token 还是连续 latent reasoning,并用 group-relative advantage 端到端 RL 优化。
为什么值得关注:
这篇把 latent/explicit 的选择本身建模成 action,而不是固定策略。它解决的问题是:连续 latent representation 本身偏确定性,不利于 RL 探索;通过二元 routing 保留离散 token sampling 的随机性,同时允许部分步骤进入 latent mode。
与 wenjun 研究方向的关系:
对 Agent 来说,不是每一步都值得输出长 CoT。TARPO 的 token-wise routing 可以推广为 turn-wise / subgoal-wise routing:简单工具调用用 latent state,关键分支点用显式 CoT 或 planner。这个方向很适合和长轨迹 credit assignment 结合。
#2. 其他值得扫读的论文
#2.1 Closing the Loop on Latent Reasoning via Test-Time Reconstruction
- 类别:Latent Reasoning / Test-time Training / Evaluation
- 来源/日期:arXiv,2026-06-04
- 链接:https://arxiv.org/abs/2606.06252
- 一句话核心贡献:提出 ReLAT,用 Query → Latent Thought → Query 的重构闭环在测试时约束 latent state,避免 latent reasoning 丢失题目约束。
简评:这篇抓住了 latent reasoning 的核心风险:不透明中间状态可能已经偏离问题,但我们不知道。用 query reconstruction 做 fidelity check 很适合迁移到 Agent:例如要求 latent plan 能重构用户目标、环境约束、当前未满足条件。
#2.2 Adaptive Latent Agentic Reasoning
- 类别:Latent Reasoning / LLM Agent / Efficiency
- 来源/日期:arXiv,2026-06-01
- 链接:https://arxiv.org/abs/2606.02871
- 一句话核心贡献:提出 ALAR,在多轮 Agent 轨迹中 routine turn 用 latent reasoning,困难决策再升级到显式 CoT,工具使用场景生成 token 最多减少 84.6%。
简评:非常适合作为“Agent 推理预算分配”的 baseline 思路。关键不是压缩所有 CoT,而是学习什么时候不必说出来。
#2.3 Policy-Conditioned Counterfactual Credit for Verifiable RL of Long-Horizon Language Agents
- 类别:LLM Agent / Post-training RL / Credit Assignment / Verifiable Reward
- 来源/日期:arXiv,2026-06-03
- 链接:https://arxiv.org/abs/2606.05263
- 一句话核心贡献:提出 CVT-RL,用 policy-conditioned counterfactual contribution、dense verifiable rewards 和约束项减少长轨迹 Agent 的 unsupported evidence chain、belief drift 与 reward hacking。
简评:这篇的关键词是“反事实信用分配”。对长轨迹 Agent,不能只问某一步长得像不像好步骤,而要问:干预替换/删除这一步后,最终验证成功概率如何变。
#2.4 When Denser Credit Is Not Enough: Evidence-Calibrated Policy Optimization
- 类别:LLM Agent / Post-training RL / Credit Assignment
- 来源/日期:arXiv,2026-06-04
- 链接:https://arxiv.org/abs/2606.05885
- 一句话核心贡献:提出 ECPO,指出 step-level dense credit 在 rollout 数有限时会高估 rare lucky actions,并用 action grouping、low-count shrinkage、variance-gated weighting 校准 step credit。
简评:它提醒我们:dense credit 不等于 reliable credit。对 Agent RL,给每个中间步骤 reward 只是开始,统计可靠性与方差控制可能更重要。
#2.5 TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents
- 类别:Tool-use / LLM Agent / Post-training RL / Multimodal Search
- 来源/日期:arXiv,2026-06-04
- 链接:https://arxiv.org/abs/2606.05784
- 一句话核心贡献:指出 GRPO 会把失败轨迹里的有效 tool-use token 一起惩罚,提出基于相似工具参数的 credit transfer 来修正 misassignment。
简评:工具调用不是普通 token。相同或相近 tool parameters 往往代表相同信息获取动作,可以跨轨迹转移信用。这对代码 Agent 的“运行测试/查看文件/应用 patch”等动作同样适用。
#2.6 Synthesize and Reward -- RL for Multi-Step Tool Use in Live Environments
- 类别:Tool-use / Post-training RL / MCP / Verifiable Reward
- 来源/日期:arXiv,2026-06-02,2026-06-03 更新
- 链接:https://arxiv.org/abs/2606.03892
- 一句话核心贡献:提出 PROVE:20 个 stateful MCP servers、343 个工具、状态机合成数据、程序化 reward + adaptive efficiency penalty,用 GRPO 训练多步工具调用。
简评:这是工具 RL 工程化很完整的一篇:真实 stateful environment、可执行轨迹、程序化 reward、效率惩罚。值得关注它的 MCP server 设计和 reward 结构。
#2.7 Scaling Self-Evolving Agents via Parametric Memory
- 类别:Self-evolving Agent / Continual Learning / Parametric Memory
- 来源/日期:arXiv,2026-06-03
- 链接:https://arxiv.org/abs/2606.04536
- 一句话核心贡献:提出 TMEM,把历史不仅压缩到文本 memory,还蒸馏进 fast LoRA weights,在单个 episode 内通过轻量 online update 改变未来行为。
简评:这是 prompt memory → parametric memory 的过渡。对长期 Agent,单靠 retrieval 只能“查到”,不能“学会”;fast weights 是一个可能的中间形态。
#2.8 Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution
- 类别:Code Intelligence / Pretraining-Adaptation / Repository-level Context
- 来源/日期:arXiv,2026-06-04;HF Daily Papers 近期收录
- 链接:https://arxiv.org/abs/2606.06492
- 模型/数据:https://huggingface.co/code2lora
- 一句话核心贡献:用 hypernetwork 为每个 repo 生成 LoRA adapter,静态 repo 和代码演化 diff 都可支持,避免长上下文注入的 token overhead。
简评:这篇对代码智能很有启发:repo knowledge 可以不只通过 RAG 塞上下文,也可以编译成 adapter。对 self-evolving code agent,diff → adapter state 的思路尤其值得看。
#2.9 TensorBench: Benchmarking Coding Agents on a Compiler-Based Tensor Framework
- 类别:Code Agent / Evaluation / Benchmark
- 来源/日期:arXiv,2026-06-04
- 链接:https://arxiv.org/abs/2606.05570
- 一句话核心贡献:构造 199 个基于 compiler tensor framework 的 feature-addition/refactoring 任务,用真实测试套件评估 coding agent。
简评:相比“修小 bug”的 SWE-bench 风格,TensorBench 更强调系统型代码、IR、scheduler、runtime 和 sparse tensor 支持。它可能更接近基础模型训练系统/编译器方向的代码 Agent 能力评估。
#2.10 Asuka-Bench: Underspecified User Intent and Multi-Round Refinement
- 类别:Code Agent / Evaluation / Intent Understanding
- 来源/日期:arXiv,2026-06-04
- 链接:https://arxiv.org/abs/2606.05920
- 一句话核心贡献:评估代码 Agent 在需求不完整、用户多轮反馈、浏览器渲染行为闭环中的 web 开发能力;最强模型三轮后也只完成 52%。
简评:这篇很好地对应“从指令理解走向意图理解”。真实用户很少一次性给完整 spec,Agent 需要从反馈中修正目标。
#2.11 On Advantage Estimates for Max@K Policy Gradients
- 类别:Post-training RL / RLVR / Test-time Scaling
- 来源/日期:arXiv,2026-06-04
- 链接:https://arxiv.org/abs/2606.06080
- 一句话核心贡献:分析 max@K/pass@K 目标的 policy gradient advantage 估计,提出 Leave-Two-Out baseline 和 MaxPO,降低方差并统一既有估计器视角。
简评:如果训练目标与推理时 best-of-K / max@K 一致,这类 policy gradient 估计会越来越重要。对 code/reasoning Agent,最终常常看多次采样中最好一次是否通过测试。
#2.12 SALT: When More Rollouts Don't Help in Group-Based Policy Optimization
- 类别:Post-training RL / RLVR / GRPO
- 来源/日期:arXiv,2026-06-04
- 链接:https://arxiv.org/abs/2606.05800
- 一句话核心贡献:指出 GRPO-style group normalization 下增加 rollout 不一定增强学习,可能因为 signed gradient geometry 抵消;提出 subspace-adaptive reweighting 插件 SALT。
简评:这篇和 Max@K/GRPO 系列一起看,可以帮助理解“为什么 rollout 数加了但效果没涨”。
#2.13 OPRD: On-Policy Representation Distillation
- 类别:Post-training / Distillation / Reasoning Model
- 来源/日期:arXiv,2026-06-04;HF Daily Papers 近期收录
- 链接:https://arxiv.org/abs/2606.06021
- Repo:https://github.com/ShenzhiYang2000/OPRD
- 一句话核心贡献:把 on-policy distillation 从输出 token KL 推到 hidden-state representation alignment,降低采样方差,训练更快、显存更低。
简评:适合作为“小模型继承 reasoning teacher”的训练机制参考,也可能与 latent reasoning distillation 结合。
#2.14 Entropy Gate: Entropy Quenching for Near-Lossless Token Compression
- 类别:Context Compression / Systems / Agent Efficiency
- 来源/日期:arXiv,2026-06-02
- 链接:https://arxiv.org/abs/2606.03739
- 一句话核心贡献:提出模型无关 token compression proxy,用多因素信息能量和自适应 quenching schedule 删除低信息 token,宣称 agentic workloads 可组合节省 88-96%。
简评:理论表述偏重,但方向与 Agent 上下文压缩强相关。可关注它的可逆性、失败 case 和在代码/工具日志上的实际保真度。
#2.15 MLEvolve: A Self-Evolving Framework for Automated ML Algorithm Discovery
- 类别:Self-evolving Agent / Code Agent / Scientific Discovery
- 来源/日期:arXiv,2026-06-04;HF Daily Papers 近期收录
- 链接:https://arxiv.org/abs/2606.06473
- Repo:https://github.com/InternScience/MLEvolve
- 一句话核心贡献:用 Progressive MCGS、跨分支 reference edge、Retrospective Memory 和规划/编码解耦实现自动 ML 算法发现。
简评:AlphaEvolve 类系统的 open-source 近邻。对 self-evolving code agent,关键是它把 long-horizon search 的 memory、branch communication、coding mode 分开设计。
#2.16 Unsupervised Skill Discovery for Agentic Data Analysis
- 类别:LLM Agent / Skill Discovery / Evaluation
- 来源/日期:arXiv,2026-06-04;HF Daily Papers 近期收录
- 链接:https://arxiv.org/abs/2606.06416
- 一句话核心贡献:提出 DataCOPE,在无人工监督下用 verifier-guided exploration、trajectory agreement/checklist signals 发现可复用数据分析技能。
简评:和“从经验中抽象 skill”相关。可以作为 self-evolving agent 中 skill extraction 的一个参考实现。
#2.17 SePO: Self-Evolving Prompt Agent for System Prompt Optimization
- 类别:Self-evolving Agent / Prompt Optimization / Tool-use
- 来源/日期:arXiv,2026-06-03;HF Daily Papers 近期收录
- 链接:https://arxiv.org/abs/2606.04465
- Repo:https://github.com/taowangcheng/SePO
- 一句话核心贡献:不仅优化 task agent 的 system prompt,也把 prompt optimizer 自己的 system prompt 纳入开放式进化搜索。
简评:这是“自指优化”的轻量版本。虽然不是参数训练,但适合作为 agent scaffold / prompt policy 的 evolution baseline。
#3. GitHub / 模型 / 数据集动态
#3.1 Harness-1
- 类别:LLM Agent / Search Agent / RL
- 来源/日期:GitHub,创建 2026-05-17,最近 pushed 2026-06-07
- 链接:https://github.com/pat-jj/harness-1
- 核心信息:长轨迹 Search Agent 训练 recipe;GitHub API 显示约 222 stars,描述为“Ultra Recipe for Training Long-Horizon Search Agents”。
- 为什么跟进:它把 state-externalizing harness 具体落到了 repo,可直接读训练/eval harness 设计。
#3.2 Code2LoRA model/checkpoints/dataset
- 类别:Code Intelligence / Repository Adaptation / Dataset
- 来源/日期:论文 2026-06-04;HF 资源页
- 链接:https://huggingface.co/code2lora
- 核心信息:RepoPeftBench 数据与 Code2LoRA 模型检查点,用于静态 repo 和 code evolution 两条轨道。
- 为什么跟进:repo-level knowledge 从“上下文检索”走向“adapter 编译”的可复现实验入口。
#3.3 MLEvolve
- 类别:Self-evolving Agent / Automated ML / Code Agent
- 来源/日期:GitHub,最近 pushed 2026-06-07
- 链接:https://github.com/InternScience/MLEvolve
- 核心信息:GitHub API 显示约 310 stars;Progressive search + experience-driven memory 的自动 ML 算法发现系统。
- 为什么跟进:适合拆解 long-horizon agent search 如何组织 memory、branch 和 coding mode。
#3.4 TARPO-master
- 类别:Latent Reasoning / RL
- 来源/日期:GitHub,创建 2026-06-01,最近 pushed 2026-06-05
- 链接:https://github.com/NKU-LITI/TARPO-master
- 核心信息:TARPO 论文官方代码入口。
- 为什么跟进:如果要复现实验或改成 turn-wise Agent routing,这是最直接起点。
#3.5 sandboxd
- 类别:Code Agent / Systems / Sandbox
- 来源/日期:GitHub,创建 2026-06-03,最近 pushed 2026-06-07
- 链接:https://github.com/tastyeffectco/sandboxd
- 核心信息:自托管开发 sandbox + preview URLs,面向 coding agents;GitHub API 显示约 494 stars。
- 为什么跟进:代码 Agent 的真实闭环需要低成本、可隔离、可预览的执行环境,这类 infra 会影响 agentic RL 数据采集。
#3.6 guard-skills
- 类别:Code Agent / Safety / Quality Gate
- 来源/日期:GitHub,创建 2026-06-06,最近 pushed 2026-06-07
- 链接:https://github.com/amElnagdy/guard-skills
- 核心信息:面向 coding agents 的质量门禁 skills,捕捉 AI 生成代码/测试/文档中的常见失败模式;GitHub API 显示约 305 stars。
- 为什么跟进:如果把 coding agent 的 evaluator/verifier 做成 skill library,它可以成为 RL reward 或 rejection sampling 的一部分。
#3.7 accordion
- 类别:Context Compression / Code Agent
- 来源/日期:GitHub,创建 2026-06-02,最近 pushed 2026-06-07
- 链接:https://github.com/a-Fig/accordion
- 核心信息:连续、可逆、turn-level context compression for AI coding agents。
- 为什么跟进:虽然 star 少,但“可逆 turn-level 压缩”切中长轨迹 Agent 的上下文瓶颈。
#4. 今日最值得精读的 3 篇
- Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents
https://arxiv.org/abs/2606.05558
精读理由:最贴近 model-based RL / Dreamer for LLM Agent,可作为“先做离线 world model 评估,再做 policy improvement”的切入点。
- Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
https://arxiv.org/abs/2606.02373
精读理由:把“环境设计如何降低 Agent RL 难度”讲得很清楚,且有 repo,值得拆 harness/state/context rendering。
- Latent Reasoning with Normalizing Flows
https://arxiv.org/abs/2606.06447
精读理由:latent reasoning 若要接 RL,必须解决可采样、可 likelihood、KV-cache 兼容问题;这篇提供了比较系统的接口。
备选第 4 篇:Rethinking Continual Experience Internalization for Self-Evolving LLM Agents,用于理解 self-evolving agent 为什么会多轮崩塌。
#5. 今日最值得跟进的 3 个 repo/model/dataset
- Harness-1 repo:https://github.com/pat-jj/harness-1
看点:Search Agent RL、state-externalizing harness、context rendering、offline/online eval。
- Code2LoRA / RepoPeftBench:https://huggingface.co/code2lora
看点:repo-level code knowledge 如何转成 adapter;适合连接代码数据质量、持续适配和 self-evolving code agent。
- MLEvolve repo:https://github.com/InternScience/MLEvolve
看点:progressive search、retrospective memory、branch communication、算法发现中的 self-evolution。
#6. 研究机会 / idea
#Idea 1:从 ADWM 到 “Agent Dreamer”:用 world model 生成可验证中间 credit,而不只做 OPE
ADWM 目前重点是 off-policy evaluation。可以进一步做:
- 学一个 world model 预测下一 observation / tool result / verifier state;
- 在 world model 中 rollout 多条候选 Agent trajectory;
- 用 verifier 或 learned reward 对 simulated trajectory 做筛选;
- 只把高置信 simulated credit 用于真实 policy 更新。
关键研究问题:如何避免 world model hallucination 被 policy exploiting?可以借鉴 CVT-RL 的 intervention-validity gating 和 Harness-1 的 state externalization。
#Idea 2:Latent reasoning routing for long-horizon Agent:把 TARPO/ALAR 从 token-wise 扩展到 turn-wise/subgoal-wise
当前 latent reasoning 论文多在数学/代码生成 benchmark 上测试。Agent 场景更自然的粒度可能是:
- routine observation summarization:latent;
- tool selection:latent 或短显式;
- 关键分支/验证失败/用户反馈:显式 CoT;
- memory update:latent + 可重构约束。
可设计一个 routing policy,以任务成功、token cost、可审计性为联合 reward。ReLAT 的 reconstruction loss 可用于确保 latent state 仍保留用户目标和环境约束。
#Idea 3:Code Agent 的 “state-externalizing harness + repo adapter” 结合
Harness-1 说状态管理应外置,Code2LoRA 说 repo knowledge 可转成 adapter。两者合并可能形成一个更强代码 Agent 训练框架:
- harness 维护 repo graph、test history、patch attempts、dependency/API map;
- hypernetwork 根据 repo snapshot/diff 生成 lightweight adapter;
- policy 只决定下一步语义动作:读哪个文件、改哪个函数、运行哪些测试、是否回滚;
- reward 来自编译/测试/verifier,并用 TAPO/ECPO 类方法给工具动作分配信用。
这条线很适合连接代码智能、agentic RL、环境设计与基础模型能力形成机制。
#7. 快速索引表
| 标题 | 类别 | 日期 | 来源 | 链接 |
|---|---|---|---|---|
| Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents | Model-based RL / Agent | 2026-06-04 | arXiv | https://arxiv.org/abs/2606.05558 |
| Harness-1: RL for Search Agents with State-Externalizing Harnesses | Agent RL / Tool-use | 2026-06-01 | arXiv/HF/GitHub | https://arxiv.org/abs/2606.02373 |
| Rethinking Continual Experience Internalization for Self-Evolving LLM Agents | Continual Learning / Agent | 2026-06-03 | arXiv/HF | https://arxiv.org/abs/2606.04703 |
| Latent Reasoning with Normalizing Flows | Latent Reasoning | 2026-06-04 | arXiv/HF | https://arxiv.org/abs/2606.06447 |
| TARPO: Token-Wise Latent-Explicit Reasoning | Latent Reasoning / RL | 2026-06-04 | arXiv/GitHub | https://arxiv.org/abs/2606.05859 |
| Closing the Loop on Latent Reasoning via Test-Time Reconstruction | Latent Reasoning | 2026-06-04 | arXiv | https://arxiv.org/abs/2606.06252 |
| Adaptive Latent Agentic Reasoning | Latent Reasoning / Agent | 2026-06-01 | arXiv | https://arxiv.org/abs/2606.02871 |
| Policy-Conditioned Counterfactual Credit | Agent RL / Credit | 2026-06-03 | arXiv | https://arxiv.org/abs/2606.05263 |
| Evidence-Calibrated Policy Optimization | Agent RL / Credit | 2026-06-04 | arXiv | https://arxiv.org/abs/2606.05885 |
| TAPO: Tool-Aware Policy Optimization | Tool-use / Agent RL | 2026-06-04 | arXiv | https://arxiv.org/abs/2606.05784 |
| Synthesize and Reward / PROVE | Tool-use / MCP / RL | 2026-06-02/03 | arXiv | https://arxiv.org/abs/2606.03892 |
| Scaling Self-Evolving Agents via Parametric Memory | Self-evolving Agent | 2026-06-03 | arXiv | https://arxiv.org/abs/2606.04536 |
| Code2LoRA | Code Intelligence | 2026-06-04 | arXiv/HF | https://arxiv.org/abs/2606.06492 |
| TensorBench | Code Agent / Eval | 2026-06-04 | arXiv | https://arxiv.org/abs/2606.05570 |
| Asuka-Bench | Code Agent / Intent | 2026-06-04 | arXiv | https://arxiv.org/abs/2606.05920 |
| Max@K Policy Gradients / MaxPO | RLVR / Post-training | 2026-06-04 | arXiv | https://arxiv.org/abs/2606.06080 |
| SALT | RLVR / GRPO | 2026-06-04 | arXiv | https://arxiv.org/abs/2606.05800 |
| OPRD | Distillation / Reasoning | 2026-06-04 | arXiv/HF/GitHub | https://arxiv.org/abs/2606.06021 |
| Entropy Gate | Context Compression | 2026-06-02 | arXiv | https://arxiv.org/abs/2606.03739 |
| MLEvolve | Self-evolving Code/ML Agent | 2026-06-04 | arXiv/HF/GitHub | https://arxiv.org/abs/2606.06473 |
| DataCOPE | Skill Discovery / Agent | 2026-06-04 | arXiv/HF | https://arxiv.org/abs/2606.06416 |
| SePO | Prompt Optimization / Self-evolving | 2026-06-03 | arXiv/HF/GitHub | https://arxiv.org/abs/2606.04465 |