#2026-06-08 AI/LLM 最新论文与研究热点简报

检索时间:2026-06-08 08:00(Asia/Shanghai)

主要覆盖:arXiv 最近提交/更新、Hugging Face Daily Papers、GitHub 新近仓库/更新。

说明:arXiv/HF 在 6 月 4 日附近集中出现一批与 LLM Agent RL、latent reasoning、self-evolving agent、coding agent benchmark 高度相关的论文;严格 24-48 小时内新增论文密度不高,因此本期按要求扩展到最近约 3-7 天,并优先筛选与 wenjun 研究方向最相关的内容。X/Twitter 页面可访问但结构化检索受动态渲染/登录与反爬限制影响,本期不把 X 作为事实来源,转用 arXiv、HF、GitHub。

#0. 今日总判断

这两天最明显的趋势不是“又一个通用 Agent 框架”,而是 Agent RL 的训练信号正在从 terminal reward / GRPO 粗粒度优势,转向更细的 credit assignment、可验证环境、状态外置、world model / off-policy evaluation,以及 latent/parametric memory 的结合

对 wenjun 当前关注的两条主线:

  1. LLM model-based RL / Dreamer for LLM Agent:本期的 ADWMHarness-1PROVECVT-RLECPO/TAPO 都在回答同一个问题:长轨迹 Agent 不能只靠最终 reward,需要环境状态、反事实、工具调用语义和离线 world model 来提供更可靠训练/评估信号。
  2. 潜空间推理 latent-space reasoningNF-CoTReLATTARPOALAR 几篇形成了一个小波峰:从“压缩 CoT token”推进到“latent thought 也要有概率建模、可采样、可重构、可被 RL 优化”。这和长轨迹 Agent 的 token budget、隐式规划、世界模型状态压缩强相关。

#1. 最重要论文/动态精读候选

#1.1 Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents

  • 类别:Model-based RL / LLM Agent / Evaluation / World Model
  • 来源/日期:arXiv,2026-06-04
  • 链接:https://arxiv.org/abs/2606.05558
  • 一句话核心贡献:提出 ADWM,用自回归的 latent diffusion world model 在离线轨迹上估计新 LLM Agent policy 的表现,避免真实环境在线交互成本和风险。

为什么值得关注

这是最贴近 “Dreamer for LLM Agent / model-based RL for agents” 的一篇。它把 LLM Agent 的环境交互看成:Agent 根据当前观测采样离散文本动作,world model 生成下一步环境响应。不同于一次性生成整条轨迹的 diffusion OPE,它按因果顺序逐步 rollout,让被评估 policy 在每一步参与条件生成。

与 wenjun 研究方向的关系

如果你要做 LLM Agent 的 model-based RL,一个核心瓶颈是:world model 到底模拟什么?是完整 observation 文本、工具结果、状态摘要,还是 latent state?ADWM 给了一个很直接的研究切口:把 offline evaluation 作为第一步,再扩展到 model-based policy improvement。可以进一步问:

  • diffusion world model 是否能和 latent reasoning state 合并?
  • world model 预测的是环境 observation,还是预测 verifier/reward/credit?
  • 对代码 Agent,world model 能否模拟测试结果、编译错误、repo 状态变化?

#1.2 Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

  • 类别:LLM Agent / Post-training RL / Tool-use / Context Compression
  • 来源/日期:arXiv,2026-06-01;HF Daily Papers 近期收录
  • 链接:https://arxiv.org/abs/2606.02373
  • Repo:https://github.com/pat-jj/harness-1
  • 一句话核心贡献:训练一个 20B 搜索 Agent,但把候选池、证据链接、验证记录、压缩去重 observation、预算渲染等状态管理外置给 harness,policy 只学语义决策。

为什么值得关注

很多 Agent RL 失败不是因为模型不会推理,而是因为 policy 被迫同时做“搜索决策”和“可恢复的 bookkeeping”。Harness-1 的核心主张是:把机械状态管理交给环境/执行器,RL 只优化真正需要学习的语义动作。它在 8 个 retrieval benchmark 上平均 curated recall 达到 0.730,比下一个最强 open search subagent 高 11.4 个点,并且在 held-out transfer 上表现较强。

与 wenjun 研究方向的关系

这对“环境设计催生自演化智能”很关键:能力不只来自模型参数,也来自 训练环境把哪些变量暴露给 policy、哪些变量外置给 harness。对长轨迹 RL 来说,这相当于把 POMDP 的一部分 belief state 显式化,减少策略学习难度。它还和通用上下文压缩器相关:context rendering 本身成为 agent harness 的一部分。


#1.3 Rethinking Continual Experience Internalization for Self-Evolving LLM Agents

  • 类别:LLM Agent / Continual Learning / Self-evolving Agent
  • 来源/日期:arXiv,2026-06-03;HF Daily Papers 近期收录
  • 链接:https://arxiv.org/abs/2606.04703
  • 一句话核心贡献:系统指出多轮 experience internalization 会出现 progressive capability collapse,并给出更稳定的经验内化 recipe:principle-level experience、step-wise injection、off-policy context distillation。

为什么值得关注

这篇不是只宣称“Agent 能自我进化”,而是指出自我进化的一个反常现象:多轮学习不一定复利增长,反而会能力崩塌。作者从三方面解释:

  1. 经验粒度:原则级经验比实例级经验更耐用;
  2. 注入模式:step-wise injection 比 global injection 更适合长轨迹工具使用;
  3. 内化机制:高质量 teacher trajectory 上的 off-policy context distillation 比 on-policy local correction 稳定。

与 wenjun 研究方向的关系

这直接对应 “agent 预训练数据如何塑造能力 / self-evolving code agent / 长轨迹 RL”。如果做代码 Agent,可以把每次 debug/patch/test 的经验抽象成 principle,再在相似中间状态 step-wise 注入,而不是把整条失败轨迹塞进 replay buffer。


#1.4 Latent Reasoning with Normalizing Flows

  • 类别:Latent Reasoning / Reasoning Model / Post-training RL
  • 来源/日期:arXiv,2026-06-04;HF Daily Papers 近期收录
  • 链接:https://arxiv.org/abs/2606.06447
  • 一句话核心贡献:提出 NF-CoT,在 LLM 内部用 normalizing flows 建模连续 latent thoughts,保留 left-to-right generation、概率采样、KV-cache 兼容和可计算 likelihood。

为什么值得关注

很多 latent reasoning 方法的弱点是:latent state 不可采样、不可算 likelihood、和标准自回归生成不兼容,因此很难接 RL。NF-CoT 的价值在于把 latent thought 变成一个可概率建模的对象:连续 thought 位置由 NF head 生成,文本位置仍由 LM head 生成。

与 wenjun 研究方向的关系

如果你想把 latent reasoning 接到 Agent RL,这篇提供了一个关键接口:latent thought 可以被 policy-gradient 优化。一个自然延伸是:在 Agent 轨迹里,哪些 token/turn 用 text CoT,哪些用 latent thought?这与 TARPOALAR 的 routing 思路可以合并。


#1.5 TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization

  • 类别:Latent Reasoning / Post-training RL / Reasoning Model
  • 来源/日期:arXiv,2026-06-04
  • 链接:https://arxiv.org/abs/2606.05859
  • Repo:https://github.com/NKU-LITI/TARPO-master
  • 一句话核心贡献:用一个轻量 action router 在每个 step 决定走显式 token 还是连续 latent reasoning,并用 group-relative advantage 端到端 RL 优化。

为什么值得关注

这篇把 latent/explicit 的选择本身建模成 action,而不是固定策略。它解决的问题是:连续 latent representation 本身偏确定性,不利于 RL 探索;通过二元 routing 保留离散 token sampling 的随机性,同时允许部分步骤进入 latent mode。

与 wenjun 研究方向的关系

对 Agent 来说,不是每一步都值得输出长 CoT。TARPO 的 token-wise routing 可以推广为 turn-wise / subgoal-wise routing:简单工具调用用 latent state,关键分支点用显式 CoT 或 planner。这个方向很适合和长轨迹 credit assignment 结合。


#2. 其他值得扫读的论文

#2.1 Closing the Loop on Latent Reasoning via Test-Time Reconstruction

  • 类别:Latent Reasoning / Test-time Training / Evaluation
  • 来源/日期:arXiv,2026-06-04
  • 链接:https://arxiv.org/abs/2606.06252
  • 一句话核心贡献:提出 ReLAT,用 Query → Latent Thought → Query 的重构闭环在测试时约束 latent state,避免 latent reasoning 丢失题目约束。

简评:这篇抓住了 latent reasoning 的核心风险:不透明中间状态可能已经偏离问题,但我们不知道。用 query reconstruction 做 fidelity check 很适合迁移到 Agent:例如要求 latent plan 能重构用户目标、环境约束、当前未满足条件。

#2.2 Adaptive Latent Agentic Reasoning

  • 类别:Latent Reasoning / LLM Agent / Efficiency
  • 来源/日期:arXiv,2026-06-01
  • 链接:https://arxiv.org/abs/2606.02871
  • 一句话核心贡献:提出 ALAR,在多轮 Agent 轨迹中 routine turn 用 latent reasoning,困难决策再升级到显式 CoT,工具使用场景生成 token 最多减少 84.6%。

简评:非常适合作为“Agent 推理预算分配”的 baseline 思路。关键不是压缩所有 CoT,而是学习什么时候不必说出来。

#2.3 Policy-Conditioned Counterfactual Credit for Verifiable RL of Long-Horizon Language Agents

  • 类别:LLM Agent / Post-training RL / Credit Assignment / Verifiable Reward
  • 来源/日期:arXiv,2026-06-03
  • 链接:https://arxiv.org/abs/2606.05263
  • 一句话核心贡献:提出 CVT-RL,用 policy-conditioned counterfactual contribution、dense verifiable rewards 和约束项减少长轨迹 Agent 的 unsupported evidence chain、belief drift 与 reward hacking。

简评:这篇的关键词是“反事实信用分配”。对长轨迹 Agent,不能只问某一步长得像不像好步骤,而要问:干预替换/删除这一步后,最终验证成功概率如何变。

#2.4 When Denser Credit Is Not Enough: Evidence-Calibrated Policy Optimization

  • 类别:LLM Agent / Post-training RL / Credit Assignment
  • 来源/日期:arXiv,2026-06-04
  • 链接:https://arxiv.org/abs/2606.05885
  • 一句话核心贡献:提出 ECPO,指出 step-level dense credit 在 rollout 数有限时会高估 rare lucky actions,并用 action grouping、low-count shrinkage、variance-gated weighting 校准 step credit。

简评:它提醒我们:dense credit 不等于 reliable credit。对 Agent RL,给每个中间步骤 reward 只是开始,统计可靠性与方差控制可能更重要。

#2.5 TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents

  • 类别:Tool-use / LLM Agent / Post-training RL / Multimodal Search
  • 来源/日期:arXiv,2026-06-04
  • 链接:https://arxiv.org/abs/2606.05784
  • 一句话核心贡献:指出 GRPO 会把失败轨迹里的有效 tool-use token 一起惩罚,提出基于相似工具参数的 credit transfer 来修正 misassignment。

简评:工具调用不是普通 token。相同或相近 tool parameters 往往代表相同信息获取动作,可以跨轨迹转移信用。这对代码 Agent 的“运行测试/查看文件/应用 patch”等动作同样适用。

#2.6 Synthesize and Reward -- RL for Multi-Step Tool Use in Live Environments

  • 类别:Tool-use / Post-training RL / MCP / Verifiable Reward
  • 来源/日期:arXiv,2026-06-02,2026-06-03 更新
  • 链接:https://arxiv.org/abs/2606.03892
  • 一句话核心贡献:提出 PROVE:20 个 stateful MCP servers、343 个工具、状态机合成数据、程序化 reward + adaptive efficiency penalty,用 GRPO 训练多步工具调用。

简评:这是工具 RL 工程化很完整的一篇:真实 stateful environment、可执行轨迹、程序化 reward、效率惩罚。值得关注它的 MCP server 设计和 reward 结构。

#2.7 Scaling Self-Evolving Agents via Parametric Memory

  • 类别:Self-evolving Agent / Continual Learning / Parametric Memory
  • 来源/日期:arXiv,2026-06-03
  • 链接:https://arxiv.org/abs/2606.04536
  • 一句话核心贡献:提出 TMEM,把历史不仅压缩到文本 memory,还蒸馏进 fast LoRA weights,在单个 episode 内通过轻量 online update 改变未来行为。

简评:这是 prompt memory → parametric memory 的过渡。对长期 Agent,单靠 retrieval 只能“查到”,不能“学会”;fast weights 是一个可能的中间形态。

#2.8 Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution

  • 类别:Code Intelligence / Pretraining-Adaptation / Repository-level Context
  • 来源/日期:arXiv,2026-06-04;HF Daily Papers 近期收录
  • 链接:https://arxiv.org/abs/2606.06492
  • 模型/数据:https://huggingface.co/code2lora
  • 一句话核心贡献:用 hypernetwork 为每个 repo 生成 LoRA adapter,静态 repo 和代码演化 diff 都可支持,避免长上下文注入的 token overhead。

简评:这篇对代码智能很有启发:repo knowledge 可以不只通过 RAG 塞上下文,也可以编译成 adapter。对 self-evolving code agent,diff → adapter state 的思路尤其值得看。

#2.9 TensorBench: Benchmarking Coding Agents on a Compiler-Based Tensor Framework

  • 类别:Code Agent / Evaluation / Benchmark
  • 来源/日期:arXiv,2026-06-04
  • 链接:https://arxiv.org/abs/2606.05570
  • 一句话核心贡献:构造 199 个基于 compiler tensor framework 的 feature-addition/refactoring 任务,用真实测试套件评估 coding agent。

简评:相比“修小 bug”的 SWE-bench 风格,TensorBench 更强调系统型代码、IR、scheduler、runtime 和 sparse tensor 支持。它可能更接近基础模型训练系统/编译器方向的代码 Agent 能力评估。

#2.10 Asuka-Bench: Underspecified User Intent and Multi-Round Refinement

  • 类别:Code Agent / Evaluation / Intent Understanding
  • 来源/日期:arXiv,2026-06-04
  • 链接:https://arxiv.org/abs/2606.05920
  • 一句话核心贡献:评估代码 Agent 在需求不完整、用户多轮反馈、浏览器渲染行为闭环中的 web 开发能力;最强模型三轮后也只完成 52%。

简评:这篇很好地对应“从指令理解走向意图理解”。真实用户很少一次性给完整 spec,Agent 需要从反馈中修正目标。

#2.11 On Advantage Estimates for Max@K Policy Gradients

  • 类别:Post-training RL / RLVR / Test-time Scaling
  • 来源/日期:arXiv,2026-06-04
  • 链接:https://arxiv.org/abs/2606.06080
  • 一句话核心贡献:分析 max@K/pass@K 目标的 policy gradient advantage 估计,提出 Leave-Two-Out baseline 和 MaxPO,降低方差并统一既有估计器视角。

简评:如果训练目标与推理时 best-of-K / max@K 一致,这类 policy gradient 估计会越来越重要。对 code/reasoning Agent,最终常常看多次采样中最好一次是否通过测试。

#2.12 SALT: When More Rollouts Don't Help in Group-Based Policy Optimization

  • 类别:Post-training RL / RLVR / GRPO
  • 来源/日期:arXiv,2026-06-04
  • 链接:https://arxiv.org/abs/2606.05800
  • 一句话核心贡献:指出 GRPO-style group normalization 下增加 rollout 不一定增强学习,可能因为 signed gradient geometry 抵消;提出 subspace-adaptive reweighting 插件 SALT。

简评:这篇和 Max@K/GRPO 系列一起看,可以帮助理解“为什么 rollout 数加了但效果没涨”。

#2.13 OPRD: On-Policy Representation Distillation

  • 类别:Post-training / Distillation / Reasoning Model
  • 来源/日期:arXiv,2026-06-04;HF Daily Papers 近期收录
  • 链接:https://arxiv.org/abs/2606.06021
  • Repo:https://github.com/ShenzhiYang2000/OPRD
  • 一句话核心贡献:把 on-policy distillation 从输出 token KL 推到 hidden-state representation alignment,降低采样方差,训练更快、显存更低。

简评:适合作为“小模型继承 reasoning teacher”的训练机制参考,也可能与 latent reasoning distillation 结合。

#2.14 Entropy Gate: Entropy Quenching for Near-Lossless Token Compression

  • 类别:Context Compression / Systems / Agent Efficiency
  • 来源/日期:arXiv,2026-06-02
  • 链接:https://arxiv.org/abs/2606.03739
  • 一句话核心贡献:提出模型无关 token compression proxy,用多因素信息能量和自适应 quenching schedule 删除低信息 token,宣称 agentic workloads 可组合节省 88-96%。

简评:理论表述偏重,但方向与 Agent 上下文压缩强相关。可关注它的可逆性、失败 case 和在代码/工具日志上的实际保真度。

#2.15 MLEvolve: A Self-Evolving Framework for Automated ML Algorithm Discovery

  • 类别:Self-evolving Agent / Code Agent / Scientific Discovery
  • 来源/日期:arXiv,2026-06-04;HF Daily Papers 近期收录
  • 链接:https://arxiv.org/abs/2606.06473
  • Repo:https://github.com/InternScience/MLEvolve
  • 一句话核心贡献:用 Progressive MCGS、跨分支 reference edge、Retrospective Memory 和规划/编码解耦实现自动 ML 算法发现。

简评:AlphaEvolve 类系统的 open-source 近邻。对 self-evolving code agent,关键是它把 long-horizon search 的 memory、branch communication、coding mode 分开设计。

#2.16 Unsupervised Skill Discovery for Agentic Data Analysis

  • 类别:LLM Agent / Skill Discovery / Evaluation
  • 来源/日期:arXiv,2026-06-04;HF Daily Papers 近期收录
  • 链接:https://arxiv.org/abs/2606.06416
  • 一句话核心贡献:提出 DataCOPE,在无人工监督下用 verifier-guided exploration、trajectory agreement/checklist signals 发现可复用数据分析技能。

简评:和“从经验中抽象 skill”相关。可以作为 self-evolving agent 中 skill extraction 的一个参考实现。

#2.17 SePO: Self-Evolving Prompt Agent for System Prompt Optimization

  • 类别:Self-evolving Agent / Prompt Optimization / Tool-use
  • 来源/日期:arXiv,2026-06-03;HF Daily Papers 近期收录
  • 链接:https://arxiv.org/abs/2606.04465
  • Repo:https://github.com/taowangcheng/SePO
  • 一句话核心贡献:不仅优化 task agent 的 system prompt,也把 prompt optimizer 自己的 system prompt 纳入开放式进化搜索。

简评:这是“自指优化”的轻量版本。虽然不是参数训练,但适合作为 agent scaffold / prompt policy 的 evolution baseline。


#3. GitHub / 模型 / 数据集动态

#3.1 Harness-1

  • 类别:LLM Agent / Search Agent / RL
  • 来源/日期:GitHub,创建 2026-05-17,最近 pushed 2026-06-07
  • 链接:https://github.com/pat-jj/harness-1
  • 核心信息:长轨迹 Search Agent 训练 recipe;GitHub API 显示约 222 stars,描述为“Ultra Recipe for Training Long-Horizon Search Agents”。
  • 为什么跟进:它把 state-externalizing harness 具体落到了 repo,可直接读训练/eval harness 设计。

#3.2 Code2LoRA model/checkpoints/dataset

  • 类别:Code Intelligence / Repository Adaptation / Dataset
  • 来源/日期:论文 2026-06-04;HF 资源页
  • 链接:https://huggingface.co/code2lora
  • 核心信息:RepoPeftBench 数据与 Code2LoRA 模型检查点,用于静态 repo 和 code evolution 两条轨道。
  • 为什么跟进:repo-level knowledge 从“上下文检索”走向“adapter 编译”的可复现实验入口。

#3.3 MLEvolve

  • 类别:Self-evolving Agent / Automated ML / Code Agent
  • 来源/日期:GitHub,最近 pushed 2026-06-07
  • 链接:https://github.com/InternScience/MLEvolve
  • 核心信息:GitHub API 显示约 310 stars;Progressive search + experience-driven memory 的自动 ML 算法发现系统。
  • 为什么跟进:适合拆解 long-horizon agent search 如何组织 memory、branch 和 coding mode。

#3.4 TARPO-master

  • 类别:Latent Reasoning / RL
  • 来源/日期:GitHub,创建 2026-06-01,最近 pushed 2026-06-05
  • 链接:https://github.com/NKU-LITI/TARPO-master
  • 核心信息:TARPO 论文官方代码入口。
  • 为什么跟进:如果要复现实验或改成 turn-wise Agent routing,这是最直接起点。

#3.5 sandboxd

  • 类别:Code Agent / Systems / Sandbox
  • 来源/日期:GitHub,创建 2026-06-03,最近 pushed 2026-06-07
  • 链接:https://github.com/tastyeffectco/sandboxd
  • 核心信息:自托管开发 sandbox + preview URLs,面向 coding agents;GitHub API 显示约 494 stars。
  • 为什么跟进:代码 Agent 的真实闭环需要低成本、可隔离、可预览的执行环境,这类 infra 会影响 agentic RL 数据采集。

#3.6 guard-skills

  • 类别:Code Agent / Safety / Quality Gate
  • 来源/日期:GitHub,创建 2026-06-06,最近 pushed 2026-06-07
  • 链接:https://github.com/amElnagdy/guard-skills
  • 核心信息:面向 coding agents 的质量门禁 skills,捕捉 AI 生成代码/测试/文档中的常见失败模式;GitHub API 显示约 305 stars。
  • 为什么跟进:如果把 coding agent 的 evaluator/verifier 做成 skill library,它可以成为 RL reward 或 rejection sampling 的一部分。

#3.7 accordion

  • 类别:Context Compression / Code Agent
  • 来源/日期:GitHub,创建 2026-06-02,最近 pushed 2026-06-07
  • 链接:https://github.com/a-Fig/accordion
  • 核心信息:连续、可逆、turn-level context compression for AI coding agents。
  • 为什么跟进:虽然 star 少,但“可逆 turn-level 压缩”切中长轨迹 Agent 的上下文瓶颈。

#4. 今日最值得精读的 3 篇

  1. Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM Agents

https://arxiv.org/abs/2606.05558

精读理由:最贴近 model-based RL / Dreamer for LLM Agent,可作为“先做离线 world model 评估,再做 policy improvement”的切入点。

  1. Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

https://arxiv.org/abs/2606.02373

精读理由:把“环境设计如何降低 Agent RL 难度”讲得很清楚,且有 repo,值得拆 harness/state/context rendering。

  1. Latent Reasoning with Normalizing Flows

https://arxiv.org/abs/2606.06447

精读理由:latent reasoning 若要接 RL,必须解决可采样、可 likelihood、KV-cache 兼容问题;这篇提供了比较系统的接口。

备选第 4 篇:Rethinking Continual Experience Internalization for Self-Evolving LLM Agents,用于理解 self-evolving agent 为什么会多轮崩塌。


#5. 今日最值得跟进的 3 个 repo/model/dataset

  1. Harness-1 repo:https://github.com/pat-jj/harness-1

看点:Search Agent RL、state-externalizing harness、context rendering、offline/online eval。

  1. Code2LoRA / RepoPeftBench:https://huggingface.co/code2lora

看点:repo-level code knowledge 如何转成 adapter;适合连接代码数据质量、持续适配和 self-evolving code agent。

  1. MLEvolve repo:https://github.com/InternScience/MLEvolve

看点:progressive search、retrospective memory、branch communication、算法发现中的 self-evolution。


#6. 研究机会 / idea

#Idea 1:从 ADWM 到 “Agent Dreamer”:用 world model 生成可验证中间 credit,而不只做 OPE

ADWM 目前重点是 off-policy evaluation。可以进一步做:

  • 学一个 world model 预测下一 observation / tool result / verifier state;
  • 在 world model 中 rollout 多条候选 Agent trajectory;
  • 用 verifier 或 learned reward 对 simulated trajectory 做筛选;
  • 只把高置信 simulated credit 用于真实 policy 更新。

关键研究问题:如何避免 world model hallucination 被 policy exploiting?可以借鉴 CVT-RL 的 intervention-validity gating 和 Harness-1 的 state externalization。

#Idea 2:Latent reasoning routing for long-horizon Agent:把 TARPO/ALAR 从 token-wise 扩展到 turn-wise/subgoal-wise

当前 latent reasoning 论文多在数学/代码生成 benchmark 上测试。Agent 场景更自然的粒度可能是:

  • routine observation summarization:latent;
  • tool selection:latent 或短显式;
  • 关键分支/验证失败/用户反馈:显式 CoT;
  • memory update:latent + 可重构约束。

可设计一个 routing policy,以任务成功、token cost、可审计性为联合 reward。ReLAT 的 reconstruction loss 可用于确保 latent state 仍保留用户目标和环境约束。

#Idea 3:Code Agent 的 “state-externalizing harness + repo adapter” 结合

Harness-1 说状态管理应外置,Code2LoRA 说 repo knowledge 可转成 adapter。两者合并可能形成一个更强代码 Agent 训练框架:

  • harness 维护 repo graph、test history、patch attempts、dependency/API map;
  • hypernetwork 根据 repo snapshot/diff 生成 lightweight adapter;
  • policy 只决定下一步语义动作:读哪个文件、改哪个函数、运行哪些测试、是否回滚;
  • reward 来自编译/测试/verifier,并用 TAPO/ECPO 类方法给工具动作分配信用。

这条线很适合连接代码智能、agentic RL、环境设计与基础模型能力形成机制。


#7. 快速索引表

标题类别日期来源链接
Autoregressive Diffusion World Models for Off-Policy Evaluation of LLM AgentsModel-based RL / Agent2026-06-04arXivhttps://arxiv.org/abs/2606.05558
Harness-1: RL for Search Agents with State-Externalizing HarnessesAgent RL / Tool-use2026-06-01arXiv/HF/GitHubhttps://arxiv.org/abs/2606.02373
Rethinking Continual Experience Internalization for Self-Evolving LLM AgentsContinual Learning / Agent2026-06-03arXiv/HFhttps://arxiv.org/abs/2606.04703
Latent Reasoning with Normalizing FlowsLatent Reasoning2026-06-04arXiv/HFhttps://arxiv.org/abs/2606.06447
TARPO: Token-Wise Latent-Explicit ReasoningLatent Reasoning / RL2026-06-04arXiv/GitHubhttps://arxiv.org/abs/2606.05859
Closing the Loop on Latent Reasoning via Test-Time ReconstructionLatent Reasoning2026-06-04arXivhttps://arxiv.org/abs/2606.06252
Adaptive Latent Agentic ReasoningLatent Reasoning / Agent2026-06-01arXivhttps://arxiv.org/abs/2606.02871
Policy-Conditioned Counterfactual CreditAgent RL / Credit2026-06-03arXivhttps://arxiv.org/abs/2606.05263
Evidence-Calibrated Policy OptimizationAgent RL / Credit2026-06-04arXivhttps://arxiv.org/abs/2606.05885
TAPO: Tool-Aware Policy OptimizationTool-use / Agent RL2026-06-04arXivhttps://arxiv.org/abs/2606.05784
Synthesize and Reward / PROVETool-use / MCP / RL2026-06-02/03arXivhttps://arxiv.org/abs/2606.03892
Scaling Self-Evolving Agents via Parametric MemorySelf-evolving Agent2026-06-03arXivhttps://arxiv.org/abs/2606.04536
Code2LoRACode Intelligence2026-06-04arXiv/HFhttps://arxiv.org/abs/2606.06492
TensorBenchCode Agent / Eval2026-06-04arXivhttps://arxiv.org/abs/2606.05570
Asuka-BenchCode Agent / Intent2026-06-04arXivhttps://arxiv.org/abs/2606.05920
Max@K Policy Gradients / MaxPORLVR / Post-training2026-06-04arXivhttps://arxiv.org/abs/2606.06080
SALTRLVR / GRPO2026-06-04arXivhttps://arxiv.org/abs/2606.05800
OPRDDistillation / Reasoning2026-06-04arXiv/HF/GitHubhttps://arxiv.org/abs/2606.06021
Entropy GateContext Compression2026-06-02arXivhttps://arxiv.org/abs/2606.03739
MLEvolveSelf-evolving Code/ML Agent2026-06-04arXiv/HF/GitHubhttps://arxiv.org/abs/2606.06473
DataCOPESkill Discovery / Agent2026-06-04arXiv/HFhttps://arxiv.org/abs/2606.06416
SePOPrompt Optimization / Self-evolving2026-06-03arXiv/HF/GitHubhttps://arxiv.org/abs/2606.04465