#2026-05-21 AI/LLM 最新论文与研究热点简报
检索时间:2026-05-21 08:00(Asia/Shanghai)
主要范围:Hugging Face Daily Papers 2026-05-19/20 与当日列表、arXiv 2605.* 近几日更新、GitHub 新建/更新仓库、Hugging Face models/datasets。
说明:arXiv API 在批量关键词检索时出现 429/timeout,因此本期以 Hugging Face Daily Papers API、单篇 Hugging Face paper API、arXiv HTML 页面、GitHub/HF API 交叉核验。X/Twitter 未作为主来源,避免在不可稳定访问环境中引用未核验消息。
#一句话总览
过去 24-48 小时里,与 wenjun 最相关的主线不是“又一个单点 agent benchmark”,而是 agentic RL 的可验证环境、可执行 harness、长上下文/上下文地图、以及 RLVR reward 设计 正在同时推进:
- OpenComputer / EnvFactory 把 agent 训练的瓶颈从“prompt 技巧”推进到“可验证软件世界 + 可合成环境 + 可审计轨迹奖励”。
- Code as Agent Harness / HASP 把“代码”从生成目标重新定义为 agent 的运行底座、环境建模接口和可执行 skill 机制。
- GoLongRL / PEEK / Context Memorization 都在回答一个问题:长轨迹 agent 的长期上下文不应只是塞进窗口,而应被压缩为可复用的 orientation / capability / memory。
- POW3R / AntiSD / mid-training self-generated data 显示 post-training RL 的关键正在从“有没有可验证 reward”转向“reward 信号是否仍有学习梯度、数据是否保留多路径探索”。
#重点论文与动态
#1. OpenComputer: Verifiable Software Worlds for Computer-Use Agents
- 链接:https://huggingface.co/papers/2605.19769 ,https://arxiv.org/abs/2605.19769
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-19
- 类别:LLM Agent / Tool-use / Evaluation / Post-training RL
- 一句话贡献:提出 OpenComputer,用真实桌面应用的结构化 state verifier、自演化验证层、任务生成管线和轨迹评测 harness,构建可验证的软件世界。
- 关键信息:覆盖 33 个桌面应用、1,000 个最终任务,包含浏览器、office、创意软件、开发环境、文件管理、通信应用等;评测记录完整轨迹,并支持可审计的 partial-credit reward。
为什么值得关注:
这篇直接击中 computer-use agent 的核心瓶颈:真实软件环境复杂,但 RL 需要稳定、可重复、可审计 reward。过去常见做法要么依赖昂贵 API,要么靠视觉截图和人工标注,要么只做 outcome-level 成败判断。OpenComputer 的重要性在于把“状态可验证性”变成环境设计的一等公民。
与 wenjun 研究方向的关系:
- 对 LLM Agent / long-horizon RL:它提供了从轨迹到 partial reward 的基础设施范式,可作为 agentic RL 的训练环境参考。
- 对 model-based RL / Dreamer for LLM Agent:如果 verifier 能提供结构化状态,就可以进一步学习 agent 的世界模型、状态转移模型和价值模型,而不是只在文本轨迹上做 hindsight 分析。
- 对 代码智能:开发环境是其覆盖应用之一,未来可扩展为 repo 操作、IDE 操作、测试修复等可验证软件任务。
#2. EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL
- 链接:https://huggingface.co/papers/2605.18703 ,https://arxiv.org/abs/2605.18703
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-18
- 类别:LLM Agent / Tool-use / Post-training RL / Environment Design
- 一句话贡献:提出自动化框架 EnvFactory,通过合成可执行、可验证、有状态工具环境和更自然的人类意图任务,扩展 tool-use agent 的 RL 训练。
为什么值得关注:
Agentic RL 的实际瓶颈不是算法公式,而是“可规模化环境 + 不过拟合的任务分布”。EnvFactory 把环境探索、状态验证、任务生成和 robust RL 连接起来,试图减少对真实 API、LLM simulator 和过度指定 synthetic trajectory 的依赖。
与 wenjun 研究方向的关系:
- 很适合连接 wenjun 关注的 “通过环境设计催生自演化智能”:环境不是被动 benchmark,而是训练信号的制造机。
- 与 agent 预训练数据如何塑造能力 也相关:自然人类意图 vs. 过度指定 instruction sequence,可能直接影响 agent 是否学到真正的 planning 和 tool abstraction。
- 可与 OpenComputer 对比:OpenComputer 更偏真实软件世界和 verifier;EnvFactory 更偏自动合成可执行环境和训练数据规模化。
#3. Code as Agent Harness
- 链接:https://huggingface.co/papers/2605.18747 ,https://arxiv.org/abs/2605.18747
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-18
- 类别:Code Agent / LLM Agent / Tool-use / Survey
- 一句话贡献:从“agent harness”的角度系统化总结代码如何成为 agent 推理、行动、环境建模和执行验证的运行底座,而不只是生成对象。
为什么值得关注:
这篇更像概念框架/综述,但对代码智能方向很关键。它把 code agent 的研究对象从“模型能否写代码”扩展为“代码如何承载 agent 的感知-行动循环”。这与近来的 coding agent、toolformer、sandbox execution、self-debugging、programmatic memory、workflow DSL 都能统一起来。
与 wenjun 研究方向的关系:
- 对 Code Agent / self-evolving code agent:可作为梳理代码 agent 能力形成机制的框架。
- 对 model-based agent:代码 harness 本身可看作环境模型、action schema 和 verification mechanism 的组合。
- 对 agent 预训练数据:如果训练数据中包含大量“代码作为过程/工具/环境”的轨迹,而不只是函数实现,可能会显著改变 agent 的可执行推理能力。
#4. AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs
- 链接:https://huggingface.co/papers/2605.15565 ,https://arxiv.org/abs/2605.15565 ,项目页:https://infini-ai-lab.github.io/astraflow/
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-15
- 类别:Systems / Post-training RL / LLM Agent
- 一句话贡献:提出面向 agentic LLM RL 的 dataflow-oriented RL 系统,把 trainer-centered 控制改成组件化 dataflow,以支持多策略协作、弹性异构跨地域算力和复杂 agentic workload。
为什么值得关注:
Agentic RL 的系统复杂度正在快速超过传统 RLHF/GRPO pipeline。多环境 rollout、多 policy 协作、tool execution、verifier、reward model、trainer、replay/trajectory store 都可能异步运行。AstraFlow 的价值在于从系统抽象上降低扩展成本。
与 wenjun 研究方向的关系:
如果 wenjun 做 long-horizon agent RL 或 model-based RL,系统层很快会成为瓶颈:rollout 慢、环境不稳定、reward 异步、训练资源碎片化。这篇值得作为 agent RL infrastructure 的参考。
#5. CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning
- 链接:https://huggingface.co/papers/2605.20075 ,https://arxiv.org/abs/2605.20075 ,项目页:https://copt-web.github.io/
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-19
- 类别:Latent Reasoning / LLM Agent / Test-time Scaling / Reasoning
- 一句话贡献:提出先给 draft answer、再基于自身答案进行 on-policy thinking 的 CopT,并把 continuous embeddings 用于判断答案可信度和触发反思修正。
为什么值得关注:
这篇与“latent-space reasoning”高度相关。传统 CoT 是先想再答,容易产生 performative reasoning 和 token 浪费;CopT 反过来先产出候选答案,再决定是否需要进一步思考。它把“是否继续思考”的判断引入连续空间,对 test-time compute allocation 很有启发。
与 wenjun 研究方向的关系:
- 对 潜空间推理:continuous embedding 不只是 hidden state 分析对象,而是可参与推理控制的信号。
- 对 Agent:长轨迹 agent 不应每一步都重度 CoT,而应根据状态不确定性自适应决定是否规划、反思或调用工具。
- 可延伸为:在 agent rollout 中用 latent confidence / contrastive state 判定何时进入 model-based imagination。
#6. PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents
- 链接:https://huggingface.co/papers/2605.19932 ,https://arxiv.org/abs/2605.19932 ,项目页:https://zhuohangu.github.io/blog-post-peek/
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-19
- 类别:LLM Agent / Context Compression / Long Context / Memory
- 一句话贡献:提出 PEEK,把反复出现的外部上下文(文档库、代码仓库等)压缩维护成小型 context map,作为 agent prompt 中的 orientation cache。
为什么值得关注:
长上下文 agent 的痛点不是一次能塞多少 token,而是多次任务中如何复用“我已经知道这个 repo/文档库怎么组织”的 orientation knowledge。PEEK 明确区分了 trajectory memory、raw context access、task strategy 与 context map。
与 wenjun 研究方向的关系:
- 对 通用上下文压缩器:PEEK 是一个很好的具体化方向——压缩目标不是完整复原,而是保留导航、实体、schema、历史有用线索。
- 对 代码 Agent:repo-level coding agent 反复进入同一代码库时,context map 可能比单纯 RAG 更有用。
- 对 agent 预训练数据:可思考预训练/微调是否应包含“构建和更新 context map”的轨迹。
#7. GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment
- 链接:https://huggingface.co/papers/2605.19577 ,https://arxiv.org/abs/2605.19577 ,HF collection:https://huggingface.co/collections/Kwai-Klear/golongrl
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-19;HF dataset/model 2026-05-20 有更新
- 类别:Long Context / Post-training RL / RLVR / Dataset
- 一句话贡献:提出开源长上下文 RLVR 后训练 recipe,发布 23K RLVR 样本、构造管线、训练代码、4B 与 30B-A3B 模型、评测集。
- 相关资源:HF models
Kwai-Klear/GoLongRL-4B、Kwai-Klear/GoLongRL-30B-A3B;datasetsKwai-Klear/GoLongRL、Kwai-Klear/GoLongRL-Eval。
为什么值得关注:
很多长上下文训练只强调 retrieval path 复杂度,GoLongRL 则按能力 taxonomy 构造数据,覆盖 9 类任务,并为每类配自然评测指标。这比“needle-in-haystack 越难越好”的路线更接近真实 agent 需求。
与 wenjun 研究方向的关系:
对 long-horizon agent 来说,长上下文能力不是单一 retrieval,而是任务持续、证据聚合、跨段推理、指令保持、状态更新等能力组合。GoLongRL 可作为长轨迹 RL 数据构造的参考,也可以被改造成 agent memory / repo navigation 场景。
#8. Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR
- 链接:https://huggingface.co/papers/2605.20164 ,https://arxiv.org/abs/2605.20164
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-19
- 类别:Post-training RL / RLVR / Reward Design
- 一句话贡献:提出 POW3R,指出 rubric reward 中人类权重不等于当前优化有效性,应根据 policy 当前状态动态评估 criterion 的学习信号。
为什么值得关注:
RLVR 不只适用于数学/代码这种二值正确性任务,很多 agent 行为需要 rubric:安全、简洁、覆盖性、工具选择、交互体验等。但静态 rubric 会出现两个问题:重要指标可能已饱和,或当前 policy 还学不到;真正区分 rollout 的指标未必权重最高。
与 wenjun 研究方向的关系:
如果做 agentic RL,尤其是软件工程 agent、研究 agent 或 long-horizon task,reward 很可能是多维 rubric。POW3R 提供了“reward curriculum / policy-aware signal selection”的思路。
#9. Harnessing LLM Agents with Skill Programs
- 链接:https://huggingface.co/papers/2605.17734 ,https://arxiv.org/abs/2605.17734
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-18
- 类别:LLM Agent / Tool-use / Skill Learning
- 一句话贡献:提出 HASP,把过往经验总结的 textual skill 升级为可执行 Program Function,在 agent loop 中按失败状态触发干预、修正下一步动作或注入上下文。
简评:
这和 Code as Agent Harness 形成呼应:skill 不再只是 advice,而是可执行控制逻辑。对 self-evolving agent 来说,真正重要的不是“会写经验总结”,而是经验能否被编译成可触发、可验证、可组合的程序。
#10. ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions
- 链接:https://huggingface.co/papers/2605.20087 ,https://arxiv.org/abs/2605.20087 ,项目页:https://thoughttrace-project.github.io/
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-19
- 类别:Intent Understanding / Dataset / Human-AI Interaction
- 一句话贡献:发布 ThoughtTrace,包含 1,058 用户、2,155 段真实多轮对话、17,058 turns、10,174 条用户自报告 thoughts,用于研究用户说了什么与真正想什么之间的差异。
简评:
对 wenjun 关注的“从指令理解走向意图理解”很相关。真实用户的 message 与 thought 语义不同,而且 frontier LLM 也难以仅从上下文推断 thought。这说明 intent modeling 可能需要显式数据、交互询问或 latent user-state tracking,而不是只靠更长上下文。
#11. Interactive Evaluation Requires a Design Science
- 链接:https://huggingface.co/papers/2605.17829 ,https://arxiv.org/abs/2605.17829
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-18
- 类别:Evaluation / LLM Agent / Benchmark Methodology
- 一句话贡献:主张 interactive evaluation 应被视为独立的设计科学,而不是 response-centered benchmark 的简单扩展。
简评:
这篇是 position paper,但与 OpenComputer、EnvFactory 同期出现很有信号意义:agent 评测正在从固定输入输出转向 trajectory、artifact、environment、user interaction 和 claim validity 的体系设计。
#12. Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models
- 链接:https://huggingface.co/papers/2605.08472 ,https://arxiv.org/abs/2605.08472
- 来源 / 日期:Hugging Face Daily Papers 当日列表;arXiv 2026-05-08
- 类别:Post-training RL / Synthetic Data / Continual Pretraining
- 一句话贡献:研究在 RL 前加入 self-generated data 的 mid-training,利用多样化解题路径提升后续 RL 效果。
简评:
虽然不是最近 48 小时新提交,但在 HF 当日列表重新出现,且非常贴合“RL 前数据分布如何塑造能力”。它支持一个判断:RL 的上限不只由 reward 决定,也由进入 RL 前模型是否见过足够多样的可行 reasoning paths 决定。
#13. Why Do Reasoning Models Lose Coverage? The Role of Data and Forks in the Road
- 链接:https://huggingface.co/papers/2605.17026 ,https://arxiv.org/abs/2605.17026 ,项目页:https://nnhieu.github.io/blog/2026/reasoning-forks/
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-16
- 类别:Reasoning / Post-training / Data Quality
- 一句话贡献:研究 reasoning model 经过 SFT 后 pass@1 提高但 pass@k coverage 缩小的现象,并把问题归因到数据中的“forks in the road”多路径决策点。
简评:
这对 agent RL 很重要:如果后训练让模型过早收缩到单一路径,长轨迹任务中的探索和 recovery 能力可能下降。与 Mid-Training self-generated data 可放在一起读。
#14. Context Memorization for Efficient Long Context Generation
- 链接:https://huggingface.co/papers/2605.18226 ,https://arxiv.org/abs/2605.18226
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-18
- 类别:Context Compression / Long Context / Inference Efficiency
- 一句话贡献:提出 training-free 的 attention-state memory,把长 prefix 外化成轻量查找式 memory,减少推理时持续关注长 prefix 的成本和影响衰减。
简评:
与 PEEK 相比,这篇更偏生成效率和 prefix influence preservation;PEEK 更偏 agent orientation。二者共同说明:长上下文优化正在从“窗口扩容”转向“可复用压缩结构”。
#15. Language-Switching Triggers Take a Latent Detour Through Language Models
- 链接:https://huggingface.co/papers/2605.18646 ,https://arxiv.org/abs/2605.18646
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-18
- 类别:Mechanistic Interpretability / Latent Representation / Safety
- 一句话贡献:分析 8B 自回归模型中 language-switching backdoor 的 circuit,发现触发信号通过与自然语言身份方向正交的 latent subspace 绕行传播,最后由 MLP 转成 French logits。
简评:
虽然偏安全和 mech interp,但“latent detour”对潜空间推理/控制很有启发:模型内部可能存在不对应显式 token 语义的控制通道,既可能被攻击利用,也可能是设计 latent reasoning controller 的线索。
#16. RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably
- 链接:https://huggingface.co/papers/2605.15514 ,https://arxiv.org/abs/2605.15514
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-15
- 类别:Long Context / Foundation Model Mechanism
- 一句话贡献:从理论上指出随着上下文变长,RoPE attention 会丧失 locality bias 与 token relevance consistency,并趋近随机判断。
简评:
对长上下文 agent 是底层提醒:如果位置编码机制本身在极长上下文下不稳定,那么单靠扩大 context window 并不能保证长轨迹记忆可靠。
#17. Post-Trained MoE Can Skip Half Experts via Self-Distillation
- 链接:https://huggingface.co/papers/2605.18643 ,https://arxiv.org/abs/2605.18643
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-18
- 类别:Systems / MoE / Inference Efficiency
- 一句话贡献:提出 ZEDA,用零专家自蒸馏把已训练静态 MoE 转成动态 MoE,让简单 token 跳过不必要专家,降低推理成本。
简评:
对 agent 系统也有间接意义:长轨迹 agent 的成本高度受模型调用成本影响,动态 expert skipping 可作为 serving 层优化方向。
#18. optimize_anything: A Universal API for Optimizing any Text Parameter
- 链接:https://huggingface.co/papers/2605.19633 ,https://arxiv.org/abs/2605.19633 ,项目页:https://gepa-ai.github.io/gepa/blog/2026/02/18/introducing-optimize-anything/
- 来源 / 日期:Hugging Face Daily Papers;arXiv 2026-05-19
- 类别:LLM Agent / Program Search / Optimization
- 一句话贡献:把多种优化问题统一成“改进文本 artifact 并由 scoring function 评价”的 API,在 agent architecture、CUDA kernel、调度算法等任务上展示强泛化。
简评:
它像是 prompt/program/agent-architecture search 的通用化接口。对 self-evolving code agent 来说,可作为“让 agent 优化自身文本参数、工具描述、workflow、代码模板”的外循环。
#GitHub / Model / Dataset 动态
#A. GoLongRL collection / models / datasets
- 链接:https://huggingface.co/collections/Kwai-Klear/golongrl
- 来源 / 日期:Hugging Face API;datasets
Kwai-Klear/GoLongRL、Kwai-Klear/GoLongRL-Eval在 2026-05-20 有更新 - 类别:Long Context / RLVR / Dataset / Model
- 一句话贡献:开源长上下文 RLVR 数据、评测集与 4B/30B-A3B 模型,适合复现实验和二次改造。
#B. Doorman11991/smallcode
- 链接:https://github.com/Doorman11991/smallcode
- 来源 / 日期:GitHub;created 2026-05-18,updated 2026-05-20
- 类别:Code Agent / Small LLM / Agentic Coding
- 一句话贡献:面向小模型优化的 AI coding agent,仓库描述声称 4B-active model 达到 87% benchmark。
- 备注:GitHub stars 增长快,但 benchmark 细节需进一步核验;适合作为“小模型代码 agent harness”观察对象。
#C. DenisSergeevitch/agents-best-practices
- 链接:https://github.com/DenisSergeevitch/agents-best-practices
- 来源 / 日期:GitHub;created 2026-05-15,updated 2026-05-20
- 类别:Code Agent / Agent Harness / Workflow
- 一句话贡献:面向 Codex、Claude Code 等 coding agent 的 provider-neutral agent skill 与 harness design 最佳实践。
- 备注:可作为整理“代码 agent 操作规范/skill 结构”的素材。
#D. agentic-in/elephant-agent
- 链接:https://github.com/agentic-in/elephant-agent
- 来源 / 日期:GitHub;created 2026-05-15,updated 2026-05-20
- 类别:Self-evolving Agent / Personal Model / Agent Framework
- 一句话贡献:仓库描述为 “Personal-Model First Self Evolving AI Agent”。
- 备注:概念贴合自演化 agent,但需阅读 README/实现后再判断是否有实质训练闭环。
#E. hunhee98/pluck
- 链接:https://github.com/hunhee98/pluck
- 来源 / 日期:GitHub;created 2026-05-15,updated 2026-05-20
- 类别:Code Agent / Context Compression / MCP
- 一句话贡献:MCP-native 代码检索工具,结合 BM25F、semantic search、AST chunks、session dedup,声称减少 84-88% read tokens。
- 备注:与 PEEK/context map 路线相关,值得观察其 repo-level agent token efficiency 设计。
#今日最值得精读的 3 篇
- OpenComputer: Verifiable Software Worlds for Computer-Use Agents
精读理由:可验证软件世界 + partial-credit trajectory reward,是 computer-use / software-use agentic RL 的关键基础设施。
- EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL
精读理由:把环境合成、可执行验证、自然意图任务和 robust RL 接起来,适合 wenjun 思考“环境设计如何催生自演化智能”。
- PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents
精读理由:直接对应长轨迹 agent 的上下文压缩和 reusable orientation knowledge,对代码 agent / research agent 都很有用。
备选:若今天更想看 post-training RL reward,可以把第三篇替换为 Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR。
#今日最值得跟进的 3 个 repo/model/dataset
- GoLongRL HF collection:https://huggingface.co/collections/Kwai-Klear/golongrl
跟进点:数据构造 taxonomy、23K RLVR 样本、4B/30B-A3B 模型、长上下文 capability evaluation。
- Doorman11991/smallcode:https://github.com/Doorman11991/smallcode
跟进点:小模型 coding agent 的 harness、工具调用方式、benchmark 设置与是否可复现。
- hunhee98/pluck:https://github.com/hunhee98/pluck
跟进点:MCP-native repo retrieval、AST chunk、session dedup 是否能成为 PEEK-style context map 的工程组件。
#研究机会 / Idea
#Idea 1:从 verifier-grounded software world 到 LLM Agent world model
OpenComputer 和 EnvFactory 都在提供可验证环境。如果把每一步的 structured state、action、verifier feedback、partial reward 收集起来,就可以训练一个 software-world dynamics model:
- 输入:当前软件状态 + agent action + 历史 context map;
- 输出:下一状态摘要、可能失败模式、reward 预测、需要调用的 verifier;
- 用途:在真实执行前做 imagination / planning,形成类似 Dreamer 的 latent rollout。
这正好对应 wenjun 的 LLM model-based RL / Dreamer for LLM Agent 主线。关键挑战是:软件状态高维且部分可观测,world model 不一定要复原 UI,而应预测“对任务进展有用的 verifier state”。
#Idea 2:把 context map 作为 agent 预训练目标,而不是推理时外挂
PEEK 把 context map 放在 prompt 中维护。进一步的问题是:能否构造预训练/持续预训练数据,让模型学会:
- 初次探索 repo/document corpus;
- 生成 compact context map;
- 后续任务中更新 map;
- 根据 map 决定 retrieval 和 tool-use。
这会把“上下文压缩器”从工程模块变成模型内化能力。可与代码仓库数据、issue/PR 轨迹、IDE 操作日志结合。
#Idea 3:Policy-aware reward curriculum for long-horizon agent
POW3R 的启发是:reward rubric 的每个维度不应固定权重,而应看当前 policy 是否还能从该维度学到东西。对 agent 长轨迹任务,可以设计:
- 早期强化 action validity、tool schema adherence、basic navigation;
- 中期强化 state progress、evidence gathering、context map quality;
- 后期强化 task completion、recovery、user intent satisfaction;
- 每个阶段根据 rollout variance / saturation 动态调权。
这比单一 scalar reward 更适合 long-horizon code/research agent。
#本期判断
今天最强信号是:Agent 研究正在从“模型能不能规划/调用工具”转向“怎样构造可验证、可训练、可复用的交互世界”。
对 wenjun 来说,可以优先围绕三条线做深入:
- 可验证环境 + model-based RL:OpenComputer、EnvFactory。
- 代码作为 agent harness:Code as Agent Harness、HASP、smallcode、agents-best-practices。
- 长上下文压缩与可复用 orientation:PEEK、GoLongRL、Context Memorization、pluck。