每日调研 2026-05-21 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-05-21 AI/LLM 最新论文与研究热点简报

检索时间：2026-05-21 08:00（Asia/Shanghai）
主要范围：Hugging Face Daily Papers 2026-05-19/20 与当日列表、arXiv 2605.* 近几日更新、GitHub 新建/更新仓库、Hugging Face models/datasets。
说明：arXiv API 在批量关键词检索时出现 429/timeout，因此本期以 Hugging Face Daily Papers API、单篇 Hugging Face paper API、arXiv HTML 页面、GitHub/HF API 交叉核验。X/Twitter 未作为主来源，避免在不可稳定访问环境中引用未核验消息。

#一句话总览

过去 24-48 小时里，与 wenjun 最相关的主线不是“又一个单点 agent benchmark”，而是 agentic RL 的可验证环境、可执行 harness、长上下文/上下文地图、以及 RLVR reward 设计 正在同时推进：

OpenComputer / EnvFactory 把 agent 训练的瓶颈从“prompt 技巧”推进到“可验证软件世界 + 可合成环境 + 可审计轨迹奖励”。
Code as Agent Harness / HASP 把“代码”从生成目标重新定义为 agent 的运行底座、环境建模接口和可执行 skill 机制。
GoLongRL / PEEK / Context Memorization 都在回答一个问题：长轨迹 agent 的长期上下文不应只是塞进窗口，而应被压缩为可复用的 orientation / capability / memory。
POW3R / AntiSD / mid-training self-generated data 显示 post-training RL 的关键正在从“有没有可验证 reward”转向“reward 信号是否仍有学习梯度、数据是否保留多路径探索”。

#重点论文与动态

#1. OpenComputer: Verifiable Software Worlds for Computer-Use Agents

链接：https://huggingface.co/papers/2605.19769 ，https://arxiv.org/abs/2605.19769
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-19
类别：LLM Agent / Tool-use / Evaluation / Post-training RL
一句话贡献：提出 OpenComputer，用真实桌面应用的结构化 state verifier、自演化验证层、任务生成管线和轨迹评测 harness，构建可验证的软件世界。
关键信息：覆盖 33 个桌面应用、1,000 个最终任务，包含浏览器、office、创意软件、开发环境、文件管理、通信应用等；评测记录完整轨迹，并支持可审计的 partial-credit reward。

为什么值得关注：

这篇直接击中 computer-use agent 的核心瓶颈：真实软件环境复杂，但 RL 需要稳定、可重复、可审计 reward。过去常见做法要么依赖昂贵 API，要么靠视觉截图和人工标注，要么只做 outcome-level 成败判断。OpenComputer 的重要性在于把“状态可验证性”变成环境设计的一等公民。

与 wenjun 研究方向的关系：

对 LLM Agent / long-horizon RL：它提供了从轨迹到 partial reward 的基础设施范式，可作为 agentic RL 的训练环境参考。
对 model-based RL / Dreamer for LLM Agent：如果 verifier 能提供结构化状态，就可以进一步学习 agent 的世界模型、状态转移模型和价值模型，而不是只在文本轨迹上做 hindsight 分析。
对 代码智能：开发环境是其覆盖应用之一，未来可扩展为 repo 操作、IDE 操作、测试修复等可验证软件任务。

#2. EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

链接：https://huggingface.co/papers/2605.18703 ，https://arxiv.org/abs/2605.18703
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-18
类别：LLM Agent / Tool-use / Post-training RL / Environment Design
一句话贡献：提出自动化框架 EnvFactory，通过合成可执行、可验证、有状态工具环境和更自然的人类意图任务，扩展 tool-use agent 的 RL 训练。

为什么值得关注：

Agentic RL 的实际瓶颈不是算法公式，而是“可规模化环境 + 不过拟合的任务分布”。EnvFactory 把环境探索、状态验证、任务生成和 robust RL 连接起来，试图减少对真实 API、LLM simulator 和过度指定 synthetic trajectory 的依赖。

与 wenjun 研究方向的关系：

很适合连接 wenjun 关注的 “通过环境设计催生自演化智能”：环境不是被动 benchmark，而是训练信号的制造机。
与 agent 预训练数据如何塑造能力 也相关：自然人类意图 vs. 过度指定 instruction sequence，可能直接影响 agent 是否学到真正的 planning 和 tool abstraction。
可与 OpenComputer 对比：OpenComputer 更偏真实软件世界和 verifier；EnvFactory 更偏自动合成可执行环境和训练数据规模化。

#3. Code as Agent Harness

链接：https://huggingface.co/papers/2605.18747 ，https://arxiv.org/abs/2605.18747
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-18
类别：Code Agent / LLM Agent / Tool-use / Survey
一句话贡献：从“agent harness”的角度系统化总结代码如何成为 agent 推理、行动、环境建模和执行验证的运行底座，而不只是生成对象。

为什么值得关注：

这篇更像概念框架/综述，但对代码智能方向很关键。它把 code agent 的研究对象从“模型能否写代码”扩展为“代码如何承载 agent 的感知-行动循环”。这与近来的 coding agent、toolformer、sandbox execution、self-debugging、programmatic memory、workflow DSL 都能统一起来。

与 wenjun 研究方向的关系：

对 Code Agent / self-evolving code agent：可作为梳理代码 agent 能力形成机制的框架。
对 model-based agent：代码 harness 本身可看作环境模型、action schema 和 verification mechanism 的组合。
对 agent 预训练数据：如果训练数据中包含大量“代码作为过程/工具/环境”的轨迹，而不只是函数实现，可能会显著改变 agent 的可执行推理能力。

#4. AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

链接：https://huggingface.co/papers/2605.15565 ，https://arxiv.org/abs/2605.15565 ，项目页：https://infini-ai-lab.github.io/astraflow/
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-15
类别：Systems / Post-training RL / LLM Agent
一句话贡献：提出面向 agentic LLM RL 的 dataflow-oriented RL 系统，把 trainer-centered 控制改成组件化 dataflow，以支持多策略协作、弹性异构跨地域算力和复杂 agentic workload。

为什么值得关注：

Agentic RL 的系统复杂度正在快速超过传统 RLHF/GRPO pipeline。多环境 rollout、多 policy 协作、tool execution、verifier、reward model、trainer、replay/trajectory store 都可能异步运行。AstraFlow 的价值在于从系统抽象上降低扩展成本。

与 wenjun 研究方向的关系：

如果 wenjun 做 long-horizon agent RL 或 model-based RL，系统层很快会成为瓶颈：rollout 慢、环境不稳定、reward 异步、训练资源碎片化。这篇值得作为 agent RL infrastructure 的参考。

#5. CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning

链接：https://huggingface.co/papers/2605.20075 ，https://arxiv.org/abs/2605.20075 ，项目页：https://copt-web.github.io/
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-19
类别：Latent Reasoning / LLM Agent / Test-time Scaling / Reasoning
一句话贡献：提出先给 draft answer、再基于自身答案进行 on-policy thinking 的 CopT，并把 continuous embeddings 用于判断答案可信度和触发反思修正。

为什么值得关注：

这篇与“latent-space reasoning”高度相关。传统 CoT 是先想再答，容易产生 performative reasoning 和 token 浪费；CopT 反过来先产出候选答案，再决定是否需要进一步思考。它把“是否继续思考”的判断引入连续空间，对 test-time compute allocation 很有启发。

与 wenjun 研究方向的关系：

对 潜空间推理：continuous embedding 不只是 hidden state 分析对象，而是可参与推理控制的信号。
对 Agent：长轨迹 agent 不应每一步都重度 CoT，而应根据状态不确定性自适应决定是否规划、反思或调用工具。
可延伸为：在 agent rollout 中用 latent confidence / contrastive state 判定何时进入 model-based imagination。

#6. PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents

链接：https://huggingface.co/papers/2605.19932 ，https://arxiv.org/abs/2605.19932 ，项目页：https://zhuohangu.github.io/blog-post-peek/
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-19
类别：LLM Agent / Context Compression / Long Context / Memory
一句话贡献：提出 PEEK，把反复出现的外部上下文（文档库、代码仓库等）压缩维护成小型 context map，作为 agent prompt 中的 orientation cache。

为什么值得关注：

长上下文 agent 的痛点不是一次能塞多少 token，而是多次任务中如何复用“我已经知道这个 repo/文档库怎么组织”的 orientation knowledge。PEEK 明确区分了 trajectory memory、raw context access、task strategy 与 context map。

与 wenjun 研究方向的关系：

对 通用上下文压缩器：PEEK 是一个很好的具体化方向——压缩目标不是完整复原，而是保留导航、实体、schema、历史有用线索。
对 代码 Agent：repo-level coding agent 反复进入同一代码库时，context map 可能比单纯 RAG 更有用。
对 agent 预训练数据：可思考预训练/微调是否应包含“构建和更新 context map”的轨迹。

#7. GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

链接：https://huggingface.co/papers/2605.19577 ，https://arxiv.org/abs/2605.19577 ，HF collection：https://huggingface.co/collections/Kwai-Klear/golongrl
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-19；HF dataset/model 2026-05-20 有更新
类别：Long Context / Post-training RL / RLVR / Dataset
一句话贡献：提出开源长上下文 RLVR 后训练 recipe，发布 23K RLVR 样本、构造管线、训练代码、4B 与 30B-A3B 模型、评测集。
相关资源：HF models Kwai-Klear/GoLongRL-4B、Kwai-Klear/GoLongRL-30B-A3B；datasets Kwai-Klear/GoLongRL、Kwai-Klear/GoLongRL-Eval。

为什么值得关注：

很多长上下文训练只强调 retrieval path 复杂度，GoLongRL 则按能力 taxonomy 构造数据，覆盖 9 类任务，并为每类配自然评测指标。这比“needle-in-haystack 越难越好”的路线更接近真实 agent 需求。

与 wenjun 研究方向的关系：

对 long-horizon agent 来说，长上下文能力不是单一 retrieval，而是任务持续、证据聚合、跨段推理、指令保持、状态更新等能力组合。GoLongRL 可作为长轨迹 RL 数据构造的参考，也可以被改造成 agent memory / repo navigation 场景。

#8. Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

链接：https://huggingface.co/papers/2605.20164 ，https://arxiv.org/abs/2605.20164
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-19
类别：Post-training RL / RLVR / Reward Design
一句话贡献：提出 POW3R，指出 rubric reward 中人类权重不等于当前优化有效性，应根据 policy 当前状态动态评估 criterion 的学习信号。

为什么值得关注：

RLVR 不只适用于数学/代码这种二值正确性任务，很多 agent 行为需要 rubric：安全、简洁、覆盖性、工具选择、交互体验等。但静态 rubric 会出现两个问题：重要指标可能已饱和，或当前 policy 还学不到；真正区分 rollout 的指标未必权重最高。

与 wenjun 研究方向的关系：

如果做 agentic RL，尤其是软件工程 agent、研究 agent 或 long-horizon task，reward 很可能是多维 rubric。POW3R 提供了“reward curriculum / policy-aware signal selection”的思路。

#9. Harnessing LLM Agents with Skill Programs

链接：https://huggingface.co/papers/2605.17734 ，https://arxiv.org/abs/2605.17734
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-18
类别：LLM Agent / Tool-use / Skill Learning
一句话贡献：提出 HASP，把过往经验总结的 textual skill 升级为可执行 Program Function，在 agent loop 中按失败状态触发干预、修正下一步动作或注入上下文。

简评：

这和 Code as Agent Harness 形成呼应：skill 不再只是 advice，而是可执行控制逻辑。对 self-evolving agent 来说，真正重要的不是“会写经验总结”，而是经验能否被编译成可触发、可验证、可组合的程序。

#10. ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions

链接：https://huggingface.co/papers/2605.20087 ，https://arxiv.org/abs/2605.20087 ，项目页：https://thoughttrace-project.github.io/
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-19
类别：Intent Understanding / Dataset / Human-AI Interaction
一句话贡献：发布 ThoughtTrace，包含 1,058 用户、2,155 段真实多轮对话、17,058 turns、10,174 条用户自报告 thoughts，用于研究用户说了什么与真正想什么之间的差异。

简评：

对 wenjun 关注的“从指令理解走向意图理解”很相关。真实用户的 message 与 thought 语义不同，而且 frontier LLM 也难以仅从上下文推断 thought。这说明 intent modeling 可能需要显式数据、交互询问或 latent user-state tracking，而不是只靠更长上下文。

#11. Interactive Evaluation Requires a Design Science

链接：https://huggingface.co/papers/2605.17829 ，https://arxiv.org/abs/2605.17829
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-18
类别：Evaluation / LLM Agent / Benchmark Methodology
一句话贡献：主张 interactive evaluation 应被视为独立的设计科学，而不是 response-centered benchmark 的简单扩展。

简评：

这篇是 position paper，但与 OpenComputer、EnvFactory 同期出现很有信号意义：agent 评测正在从固定输入输出转向 trajectory、artifact、environment、user interaction 和 claim validity 的体系设计。

#12. Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models

链接：https://huggingface.co/papers/2605.08472 ，https://arxiv.org/abs/2605.08472
来源 / 日期：Hugging Face Daily Papers 当日列表；arXiv 2026-05-08
类别：Post-training RL / Synthetic Data / Continual Pretraining
一句话贡献：研究在 RL 前加入 self-generated data 的 mid-training，利用多样化解题路径提升后续 RL 效果。

简评：

虽然不是最近 48 小时新提交，但在 HF 当日列表重新出现，且非常贴合“RL 前数据分布如何塑造能力”。它支持一个判断：RL 的上限不只由 reward 决定，也由进入 RL 前模型是否见过足够多样的可行 reasoning paths 决定。

#13. Why Do Reasoning Models Lose Coverage? The Role of Data and Forks in the Road

链接：https://huggingface.co/papers/2605.17026 ，https://arxiv.org/abs/2605.17026 ，项目页：https://nnhieu.github.io/blog/2026/reasoning-forks/
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-16
类别：Reasoning / Post-training / Data Quality
一句话贡献：研究 reasoning model 经过 SFT 后 pass@1 提高但 pass@k coverage 缩小的现象，并把问题归因到数据中的“forks in the road”多路径决策点。

简评：

这对 agent RL 很重要：如果后训练让模型过早收缩到单一路径，长轨迹任务中的探索和 recovery 能力可能下降。与 Mid-Training self-generated data 可放在一起读。

#14. Context Memorization for Efficient Long Context Generation

链接：https://huggingface.co/papers/2605.18226 ，https://arxiv.org/abs/2605.18226
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-18
类别：Context Compression / Long Context / Inference Efficiency
一句话贡献：提出 training-free 的 attention-state memory，把长 prefix 外化成轻量查找式 memory，减少推理时持续关注长 prefix 的成本和影响衰减。

简评：

与 PEEK 相比，这篇更偏生成效率和 prefix influence preservation；PEEK 更偏 agent orientation。二者共同说明：长上下文优化正在从“窗口扩容”转向“可复用压缩结构”。

#15. Language-Switching Triggers Take a Latent Detour Through Language Models

链接：https://huggingface.co/papers/2605.18646 ，https://arxiv.org/abs/2605.18646
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-18
类别：Mechanistic Interpretability / Latent Representation / Safety
一句话贡献：分析 8B 自回归模型中 language-switching backdoor 的 circuit，发现触发信号通过与自然语言身份方向正交的 latent subspace 绕行传播，最后由 MLP 转成 French logits。

简评：

虽然偏安全和 mech interp，但“latent detour”对潜空间推理/控制很有启发：模型内部可能存在不对应显式 token 语义的控制通道，既可能被攻击利用，也可能是设计 latent reasoning controller 的线索。

#16. RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably

链接：https://huggingface.co/papers/2605.15514 ，https://arxiv.org/abs/2605.15514
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-15
类别：Long Context / Foundation Model Mechanism
一句话贡献：从理论上指出随着上下文变长，RoPE attention 会丧失 locality bias 与 token relevance consistency，并趋近随机判断。

简评：

对长上下文 agent 是底层提醒：如果位置编码机制本身在极长上下文下不稳定，那么单靠扩大 context window 并不能保证长轨迹记忆可靠。

#17. Post-Trained MoE Can Skip Half Experts via Self-Distillation

链接：https://huggingface.co/papers/2605.18643 ，https://arxiv.org/abs/2605.18643
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-18
类别：Systems / MoE / Inference Efficiency
一句话贡献：提出 ZEDA，用零专家自蒸馏把已训练静态 MoE 转成动态 MoE，让简单 token 跳过不必要专家，降低推理成本。

简评：

对 agent 系统也有间接意义：长轨迹 agent 的成本高度受模型调用成本影响，动态 expert skipping 可作为 serving 层优化方向。

#18. optimize_anything: A Universal API for Optimizing any Text Parameter

链接：https://huggingface.co/papers/2605.19633 ，https://arxiv.org/abs/2605.19633 ，项目页：https://gepa-ai.github.io/gepa/blog/2026/02/18/introducing-optimize-anything/
来源 / 日期：Hugging Face Daily Papers；arXiv 2026-05-19
类别：LLM Agent / Program Search / Optimization
一句话贡献：把多种优化问题统一成“改进文本 artifact 并由 scoring function 评价”的 API，在 agent architecture、CUDA kernel、调度算法等任务上展示强泛化。

简评：

它像是 prompt/program/agent-architecture search 的通用化接口。对 self-evolving code agent 来说，可作为“让 agent 优化自身文本参数、工具描述、workflow、代码模板”的外循环。

#GitHub / Model / Dataset 动态

#A. GoLongRL collection / models / datasets

链接：https://huggingface.co/collections/Kwai-Klear/golongrl
来源 / 日期：Hugging Face API；datasets Kwai-Klear/GoLongRL、Kwai-Klear/GoLongRL-Eval 在 2026-05-20 有更新
类别：Long Context / RLVR / Dataset / Model
一句话贡献：开源长上下文 RLVR 数据、评测集与 4B/30B-A3B 模型，适合复现实验和二次改造。

#B. Doorman11991/smallcode

链接：https://github.com/Doorman11991/smallcode
来源 / 日期：GitHub；created 2026-05-18，updated 2026-05-20
类别：Code Agent / Small LLM / Agentic Coding
一句话贡献：面向小模型优化的 AI coding agent，仓库描述声称 4B-active model 达到 87% benchmark。
备注：GitHub stars 增长快，但 benchmark 细节需进一步核验；适合作为“小模型代码 agent harness”观察对象。

#C. DenisSergeevitch/agents-best-practices

链接：https://github.com/DenisSergeevitch/agents-best-practices
来源 / 日期：GitHub；created 2026-05-15，updated 2026-05-20
类别：Code Agent / Agent Harness / Workflow
一句话贡献：面向 Codex、Claude Code 等 coding agent 的 provider-neutral agent skill 与 harness design 最佳实践。
备注：可作为整理“代码 agent 操作规范/skill 结构”的素材。

#D. agentic-in/elephant-agent

链接：https://github.com/agentic-in/elephant-agent
来源 / 日期：GitHub；created 2026-05-15，updated 2026-05-20
类别：Self-evolving Agent / Personal Model / Agent Framework
一句话贡献：仓库描述为 “Personal-Model First Self Evolving AI Agent”。
备注：概念贴合自演化 agent，但需阅读 README/实现后再判断是否有实质训练闭环。

#E. hunhee98/pluck

链接：https://github.com/hunhee98/pluck
来源 / 日期：GitHub；created 2026-05-15，updated 2026-05-20
类别：Code Agent / Context Compression / MCP
一句话贡献：MCP-native 代码检索工具，结合 BM25F、semantic search、AST chunks、session dedup，声称减少 84-88% read tokens。
备注：与 PEEK/context map 路线相关，值得观察其 repo-level agent token efficiency 设计。

#今日最值得精读的 3 篇

OpenComputer: Verifiable Software Worlds for Computer-Use Agents

精读理由：可验证软件世界 + partial-credit trajectory reward，是 computer-use / software-use agentic RL 的关键基础设施。

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

精读理由：把环境合成、可执行验证、自然意图任务和 robust RL 接起来，适合 wenjun 思考“环境设计如何催生自演化智能”。

PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents

精读理由：直接对应长轨迹 agent 的上下文压缩和 reusable orientation knowledge，对代码 agent / research agent 都很有用。

备选：若今天更想看 post-training RL reward，可以把第三篇替换为 Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR。

#今日最值得跟进的 3 个 repo/model/dataset

GoLongRL HF collection：https://huggingface.co/collections/Kwai-Klear/golongrl

跟进点：数据构造 taxonomy、23K RLVR 样本、4B/30B-A3B 模型、长上下文 capability evaluation。

Doorman11991/smallcode：https://github.com/Doorman11991/smallcode

跟进点：小模型 coding agent 的 harness、工具调用方式、benchmark 设置与是否可复现。

hunhee98/pluck：https://github.com/hunhee98/pluck

跟进点：MCP-native repo retrieval、AST chunk、session dedup 是否能成为 PEEK-style context map 的工程组件。

#研究机会 / Idea

#Idea 1：从 verifier-grounded software world 到 LLM Agent world model

OpenComputer 和 EnvFactory 都在提供可验证环境。如果把每一步的 structured state、action、verifier feedback、partial reward 收集起来，就可以训练一个 software-world dynamics model：

输入：当前软件状态 + agent action + 历史 context map；
输出：下一状态摘要、可能失败模式、reward 预测、需要调用的 verifier；
用途：在真实执行前做 imagination / planning，形成类似 Dreamer 的 latent rollout。

这正好对应 wenjun 的 LLM model-based RL / Dreamer for LLM Agent 主线。关键挑战是：软件状态高维且部分可观测，world model 不一定要复原 UI，而应预测“对任务进展有用的 verifier state”。

#Idea 2：把 context map 作为 agent 预训练目标，而不是推理时外挂

PEEK 把 context map 放在 prompt 中维护。进一步的问题是：能否构造预训练/持续预训练数据，让模型学会：

初次探索 repo/document corpus；
生成 compact context map；
后续任务中更新 map；
根据 map 决定 retrieval 和 tool-use。

这会把“上下文压缩器”从工程模块变成模型内化能力。可与代码仓库数据、issue/PR 轨迹、IDE 操作日志结合。

#Idea 3：Policy-aware reward curriculum for long-horizon agent

POW3R 的启发是：reward rubric 的每个维度不应固定权重，而应看当前 policy 是否还能从该维度学到东西。对 agent 长轨迹任务，可以设计：

早期强化 action validity、tool schema adherence、basic navigation；
中期强化 state progress、evidence gathering、context map quality；
后期强化 task completion、recovery、user intent satisfaction；
每个阶段根据 rollout variance / saturation 动态调权。

这比单一 scalar reward 更适合 long-horizon code/research agent。

#本期判断

今天最强信号是：Agent 研究正在从“模型能不能规划/调用工具”转向“怎样构造可验证、可训练、可复用的交互世界”。

对 wenjun 来说，可以优先围绕三条线做深入：

可验证环境 + model-based RL：OpenComputer、EnvFactory。
代码作为 agent harness：Code as Agent Harness、HASP、smallcode、agents-best-practices。
长上下文压缩与可复用 orientation：PEEK、GoLongRL、Context Memorization、pluck。