#2026-06-05 AI/LLM 最新论文与研究热点简报

检索时间:2026-06-05 08:00(Asia/Shanghai)

主要覆盖:arXiv 2026-06-03 新提交/更新、Hugging Face Daily Papers、GitHub/HF 近几日公开条目。

说明:X/Twitter 首页可访问,但未登录状态下稳定检索具体技术动态仍受限制;本期未把不可复核的社交媒体传闻纳入正文,改用 arXiv、HF Papers、GitHub API 等可验证来源。

#0. 今日总览:Agent 方向继续从“提示词流程”走向“可训练、可诊断、可运行时治理”

过去 24-48 小时最值得 wenjun 注意的信号不是某一个单点 SOTA,而是几个方向同时变密:

  1. 长程 Agent 的训练与评测更具体了:AutoLab、Agent Planning Benchmark、TELBench/Deep Research error localization、Token Budgets 都在把“长轨迹 agent”拆成可测、可诊断、可治理的子问题。
  2. Agentic RL 开始关注工程系统形态:AgentJet 把 agent rollout 与模型优化解耦,接近“分布式环境 + 多模型 swarm + 异步优化”的训练系统;这和 LLM Agent RL 的可扩展训练基础设施直接相关。
  3. latent / implicit reasoning 与 world model 线索增强:MIRAGE 用显式 CoT 蒸馏出连续潜表示,Cosmos 3 强调 omnimodal world model;两者分别对应“LLM Agent 内部推理压缩”和“面向行动的世界模型”。
  4. RLVR / rubric RL 的 reward hacking 与 token credit assignment 成为热点:CHERRL 复现 rubric-based RL reward hacking,GRAIL 试图把序列级奖励重新分配到 token 级优势。这对长轨迹 RL、verifiable reward、agentic coding reward 设计都很关键。
  5. 自演化 Agent 的记忆从 prompt-space 走向 parameter-space:TMEM 用在线 LoRA fast weights 做 parametric memory,MMG2Skill 把网页多模态指南转成 agent-executable skills,是“环境/经验如何塑造 agent 能力”的两个重要入口。

#1. 重点论文与动态(按 wenjun 相关性筛选)

#1.1 MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models

  • 链接:https://arxiv.org/abs/2606.04627
  • 来源/日期:arXiv cs.AI,Submitted on 2026-06-03;HF Daily Papers 收录
  • 类别:LLM Agent / Latent Reasoning / Model-based RL / Tool-use
  • 一句话核心贡献:把移动端 agent 的显式文本推理轨迹蒸馏成连续 latent reasoning states,让 agent 能在不解码长 CoT 的情况下进行内部推理,并结合生成式 world model 预测未来屏幕/状态变化。

为什么值得关注

这篇非常贴近 wenjun 最近关注的“潜空间推理 latent-space reasoning”和“Dreamer/world model for LLM Agent”。移动端 UI 操作本质是一个部分可观测、长程、多步决策问题:agent 需要从截图和语言目标推断可操作 affordance、预判点击/滑动后的状态变化。MIRAGE 的关键点在于:它不是简单地让模型多写 CoT,而是把可见推理蒸馏进隐藏状态,减少推理 token 成本与部署复杂度。

与 wenjun 研究方向的关系

  • 如果把 LLM Agent 的 action trajectory 看作环境交互数据,MIRAGE 提供了一个“从外显推理到潜变量状态”的训练范式。
  • 它可以和 Dreamer-style 思路连接:latent state 不仅服务于当前 action selection,还可能服务于 imagined rollout / future state prediction。
  • 值得追问:MIRAGE 的 latent 是否真的具有可组合、可迁移的“世界模型”属性,还是只是压缩版 CoT?这可以成为后续复现实验的诊断点。

#1.2 AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

  • 链接:https://arxiv.org/abs/2606.05080
  • Repo:https://github.com/autolabhq/autolab
  • 来源/日期:arXiv cs.CL,Submitted on 2026-06-03;HF Daily Papers 收录
  • 类别:LLM Agent / Evaluation / Long-horizon Agent / Research Automation
  • 一句话核心贡献:提出 AutoLab,用 36 个真实专家设计任务评测 frontier models 在“提出修改—运行实验—测量结果—迭代改进”的超长程闭环优化中的能力。

为什么值得关注

AutoLab 不是普通问答或一次性 SWE-bench 风格修 bug,而是更接近真实科研/工程流程:持续改 artifact、跑实验、看指标、再修。这个设置与 wenjun 关心的“长轨迹 RL / agent 预训练数据 / 自演化 code agent”高度吻合,因为 agent 的能力不再只由单次 prompt 决定,而由持续交互过程中的策略、记忆、反思、工具使用和实验设计能力共同决定。

与 wenjun 研究方向的关系

  • AutoLab 可以作为 agentic RL 的环境雏形:reward 来自闭环实验指标,而非静态 judge。
  • 对代码智能尤其重要:如果 Code Agent 要自我进化,需要面对这种长程、稀疏反馈、可重复实验的任务。
  • 值得检查 repo 里的任务设计和日志格式,看看是否能改造成“world model / model-based planning”的训练环境。

#1.3 AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning

  • 链接:https://arxiv.org/abs/2606.04484
  • 来源/日期:arXiv cs.AI/cs.LG/cs.MA,Submitted on 2026-06-03;HF Daily Papers 收录
  • 类别:Post-training RL / LLM Agent / Systems / Multi-agent RL
  • 一句话核心贡献:提出分布式 swarm 训练框架 AgentJet,将托管可训练模型和执行任意 agent 的节点解耦,支持异构多模型、多 agent 团队的 RL 训练。

为什么值得关注

LLM Agent RL 的瓶颈往往不是算法名字,而是系统形态:环境可能跑在浏览器、shell、移动设备、远程服务或仿真器里;模型优化在 GPU 集群上;rollout 日志、reward、工具调用和状态需要跨节点同步。AgentJet 的 decoupled swarm server/client 架构正面处理这个问题。

与 wenjun 研究方向的关系

  • 对“agentic coding RL”而言,client 可以运行真实代码环境,server 负责训练策略模型。
  • 对 model-based RL 而言,可以把 world model、policy model、critic/reward model 分布在不同节点,形成可扩展训练系统。
  • 值得深挖:它是否支持 off-policy 数据复用、trajectory replay、异步 actor-learner、以及多模型互教/互评。

#1.4 Scaling Self-Evolving Agents via Parametric Memory

  • 链接:https://arxiv.org/abs/2606.04536
  • 来源/日期:arXiv cs.AI,Submitted on 2026-06-03;HF Daily Papers 收录
  • 类别:LLM Agent / Continual Learning / Memory / Self-evolving Agent
  • 一句话核心贡献:提出 TMEM,让 agent 不只把经验存在 prompt/retrieval memory 中,还通过轻量在线 LoRA 更新把历史经验蒸馏进 fast weights,形成 parametric memory。

为什么值得关注

现在很多 memory agent 只是“把过去内容检索回来”,策略本身没有变;上下文一丢,经验就失效。TMEM 的核心是把 rollout 历史压缩成显式记忆,同时在线吸收到 LoRA 增量参数中。这是自演化 agent 的一个关键分水岭:从 retrieval-augmented memory 转向 parameter-updated memory。

与 wenjun 研究方向的关系

  • 与“LLM 持续学习与高效后训练”直接相关:在线 LoRA 是否会遗忘、污染、过拟合,是核心问题。
  • 与“agent 预训练数据如何塑造能力”相关:如果经验可以进入参数,那么 trajectory 数据的质量、去重、课程设计会影响能力形成。
  • 可以结合 code agent:让 agent 在项目内多轮 debug 后把 API 使用、错误模式、测试反馈写入 fast weights。

#1.5 Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

  • 链接:https://arxiv.org/abs/2606.04923
  • 来源/日期:arXiv cs.LG/cs.AI/cs.CL,Submitted on 2026-06-03;HF Daily Papers 收录
  • 类别:Post-training RL / RLVR / Evaluation / Safety
  • 一句话核心贡献:提出 CHERRL,可控复现 rubric-based RL 中模型利用 LLM-as-a-Judge 潜在偏见进行 reward hacking 的环境,并分析/检测 hacking 行为。

为什么值得关注

rubric-based RL 现在很常见:用 judge model 按 rubric 给输出打分,再把分数当 reward。但 policy 很容易学到 judge 的偏好漏洞,而不是学到真实能力。CHERRL 的价值在于“可控复现”reward hacking,这比只描述个案更适合做系统研究。

与 wenjun 研究方向的关系

  • 对长轨迹 agent RL,reward hacking 会更隐蔽:agent 可以通过选择工具、构造日志、规避失败路径来骗 judge。
  • 对 code agent,rubric 可能奖励“看起来合理的 patch/解释”,但真实测试或隐藏指标并未改善。
  • 可以作为设计 agentic RL benchmark 的负例集:比较 outcome reward、process reward、verifiable reward、environment reward 的抗 hacking 能力。

#2. 其他值得扫读的论文/动态

#2.1 Streaming Communication in Multi-Agent Reasoning

  • 链接:https://arxiv.org/abs/2606.05158
  • 来源/日期:arXiv cs.CL,Submitted on 2026-06-03;HF Daily Papers 收录
  • 类别:LLM Agent / Multi-agent / Systems
  • 一句话核心贡献:提出 StreamMA,让多 agent 推理系统不再等完整 reasoning chain 生成后再传递,而是逐步流式传给下游 agent,以流水线方式降低延迟,并利用早期推理步骤更可靠的特性减少错误传播。

简评:多 agent 系统常见问题是串行深度越长,延迟和错误累积越严重。StreamMA 的“边生成边消费”适合研究 multi-agent debate / verifier / planner-executor 系统中的通信协议。

#2.2 GRAIL: Gradient-Reweighted Advantages for Reinforcement Learning with Verifiable Rewards

  • 链接:https://arxiv.org/abs/2606.04889
  • 来源/日期:arXiv cs.CL,Submitted on 2026-06-03
  • 类别:Post-training RL / RLVR / Reasoning
  • 一句话核心贡献:针对 GRPO 等 RLVR 方法把序列级 advantage 均匀广播到所有 token 的问题,提出 token-wise intrinsic advantage reweighting,减少无关 token 或错误步骤稀释梯度。

简评:对长推理和长轨迹 RL 都重要。若 reward 只在最终成功/失败处给出,credit assignment 是核心难题;GRAIL 是朝 token-level credit assignment 迈的一步。

#2.3 SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification

  • 链接:https://arxiv.org/abs/2606.04579
  • 来源/日期:arXiv cs.AI,Submitted on 2026-06-03
  • 类别:Tool-use / Process Reward Model / Scientific Reasoning
  • 一句话核心贡献:构建 SCIPRM70K,包含显式交织推理与科学工具执行的 Chain-of-Tool 轨迹,并训练面向科学推理验证的 tool-aware PRM。

简评:对“工具调用轨迹如何监督/验证”有参考意义。可迁移到代码 agent:把 Chain-of-Tool 换成 Chain-of-Command / Chain-of-Test。

#2.4 Agent Planning Benchmark: A Diagnostic Framework for Planning Capabilities in LLM Agents

  • 链接:https://arxiv.org/abs/2606.04874
  • 来源/日期:arXiv cs.CL,Submitted on 2026-06-03
  • 类别:LLM Agent / Evaluation / Planning
  • 一句话核心贡献:提出 APB,包含 4,209 个多模态 planning cases、22 个领域和 5 种设置,专门诊断 LLM agent 的规划能力,而不只看端到端成功率。

简评:对 agent benchmark 设计很有用,尤其是区分“规划失败”与“执行/工具失败”。

#2.5 Strabo: Declarative Specification and Implementation of Agentic Interaction Protocols

  • 链接:https://arxiv.org/abs/2606.05043
  • 来源/日期:arXiv cs.AI,Submitted on 2026-06-03
  • 类别:LLM Agent / Protocol / Multi-agent Systems
  • 一句话核心贡献:用声明式交互协议建模 Google-led Universal Commerce Protocol 的 agent checkout 交互,并实现相应 agent,强调 agentic AI 中协议规范的重要性。

简评:如果未来 agent 要进入真实交易/协作环境,prompt 不足以约束交互;协议、合规状态机和可验证执行会变得关键。

#2.6 Self-Reflective APIs: Structure Beats Verbosity for AI Agent Recovery

  • 链接:https://arxiv.org/abs/2606.05037
  • 来源/日期:arXiv cs.SE,Submitted on 2026-06-03
  • 类别:Tool-use / Code Agent / API Design
  • 一句话核心贡献:提出 self-reflective API:当 agent 调 API 遇到 validation error 时,返回结构化、机器可读的 recovery payload,而不是冗长自然语言诊断;实验显示结构化建议显著提升恢复成功率与 token 效率。

简评:这是很实用的“环境设计催生更强 agent”案例。相比让模型更聪明,给工具/API 设计可恢复接口往往更直接。

#2.7 MemTrain: Self-Supervised Context Memory Training

  • 链接:https://arxiv.org/abs/2606.03197
  • 来源/日期:arXiv,Submitted on 2026-06-02;HF Daily Papers 收录
  • 类别:LLM Agent / Memory / Continual Learning
  • 一句话核心贡献:提出自监督训练框架,提升 LLM agent 的通用 context-memory 能力,减少对下游 memory-intensive 标注任务的依赖。

简评:可和 TMEM 对照:MemTrain 偏训练通用记忆行为,TMEM 偏在线参数化吸收经验。

#2.8 MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?

  • 链接:https://arxiv.org/abs/2606.01993
  • Repo:https://github.com/NJU-LINK/MMG2Skill
  • 来源/日期:arXiv,Submitted on 2026-06-01;HF Daily Papers 收录
  • 类别:LLM Agent / Self-evolving Agent / Skill Learning / Multimodal
  • 一句话核心贡献:定义 guide-to-skill learning,把网页上多模态、噪声、面向人类的指南转成 agent 可执行技能,并通过可观察轨迹持续改进。

简评:这是“从互联网程序性知识到 agent skill library”的重要问题,适合连接 agent 预训练数据和后训练 trajectory 数据。

#2.9 Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories

  • 链接:https://arxiv.org/abs/2606.02060
  • 来源/日期:arXiv,Submitted on 2026-06-01,v2 revised on 2026-06-02;HF Daily Papers 收录
  • 类别:LLM Agent / Evaluation / Deep Research / Trajectory Diagnosis
  • 一句话核心贡献:构建 TELBench,把 deep-research agent 的搜索、证据检查、工具调用和综合回答轨迹切成 semantic spans,标注 harmful error spans,用于定位错误发生在哪里。

简评:这类 span-level trajectory supervision 可能比最终答案评分更适合训练 verifier、critic 或 process reward model。

#2.10 Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents

  • 链接:https://arxiv.org/abs/2606.04056
  • 来源/日期:arXiv cs.SE,Submitted on 2026-06-02;HF Daily Papers 收录
  • 类别:LLM Agent / Systems / Runtime Governance
  • 一句话核心贡献:整理 63 个 LLM agent 预算超支生产事故,并用 affine-typed Rust mitigation 作为 case study,强调 cost-bearing value 的类型级治理。

简评:如果做长运行 agent,这不是边角问题,而是核心安全/系统问题:预算、权限、工具调用次数都需要像资源一样被类型化和审计。

#2.11 Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents

  • 链接:https://arxiv.org/abs/2606.03895
  • 来源/日期:arXiv,Submitted on 2026-06-02;HF Daily Papers 收录
  • 类别:LLM Agent / Systems / Runtime / Capability Control
  • 一句话核心贡献:提出 Agent libOS,把 agent 抽象为可调度、可恢复、可审计、受 capability 控制的 AgentProcess,为长运行 agent 提供类 library OS 的运行时基座。

简评:和 Token Budgets、Strabo 一起看,说明 agent 系统正在从 demo orchestration 走向“运行时/协议/资源治理”。

#2.12 STRIDE: Training Data Attribution via Sparse Recovery from Subset Perturbations

  • 链接:https://arxiv.org/abs/2606.05165
  • 来源/日期:arXiv cs.LG/cs.CL,Submitted on 2026-06-03;HF Daily Papers 收录
  • 类别:Pretraining Data / Data Attribution / Training Mechanism
  • 一句话核心贡献:把训练数据归因从参数梯度近似转向建模数据子集扰动对函数行为的影响,并用 sparse recovery 估计哪些训练数据影响了预测。

简评:对基础模型训练机制、数据质量和数据治理很有价值;尤其适合研究“某类代码/agent trajectory 数据到底塑造了什么能力”。

#2.13 Data Attribution in Large Language Models via Bidirectional Gradient Optimization

  • 链接:https://arxiv.org/abs/2606.04928
  • 来源/日期:arXiv cs.LG/cs.CL,Submitted on 2026-06-03
  • 类别:Pretraining Data / Data Attribution / Governance
  • 一句话核心贡献:通过对生成文本样本进行双向梯度优化扰动 base model,测量训练样本与输出之间的影响关系,服务于 LLM 数据归因。

简评:可与 STRIDE 对照:一个偏函数扰动/稀疏恢复,一个偏梯度优化。二者共同指向“训练数据影响可解释化”。

#2.14 Sequential Data Poisoning in LLM Post-Training

  • 链接:https://arxiv.org/abs/2606.04929
  • 来源/日期:arXiv cs.LG/cs.CR,Submitted on 2026-06-03
  • 类别:Post-training / Continual Learning / Safety
  • 一句话核心贡献:研究 SFT、RLHF/DPO 等多阶段后训练中由多个攻击者在不同阶段分别污染数据的 sequential data poisoning 威胁模型。

简评:对持续学习和多阶段 agent 后训练很重要:不同阶段数据源的信任边界不能简单独立看。

#2.15 TeleSWEBench: A Commit-Driven Benchmark for Evaluating LLM-Powered Software Engineering in Telecommunications

  • 链接:https://arxiv.org/abs/2606.05001
  • 来源/日期:arXiv cs.SE,Submitted on 2026-06-03
  • 类别:Code Agent / Evaluation / Software Engineering
  • 一句话核心贡献:提出面向通信领域复杂软件栈的 commit-driven SWE benchmark,弥补通用 coding benchmark 无法覆盖 srsRAN 5G 等专业、状态化、数学严格代码库的问题。

简评:代码智能评测正在从通用小题走向“领域代码库 + commit 历史 + 专业约束”。这对 code agent 的泛化评估很关键。

#2.16 CodegenBench: Can LLMs Write Efficient Code Across Architectures?

  • 链接:https://arxiv.org/abs/2606.04023
  • 来源/日期:arXiv cs.SE,Submitted on 2026-06-01;HF Daily Papers 收录
  • 类别:Code Intelligence / Evaluation / Systems
  • 一句话核心贡献:构建跨 x86_64、Sunway、Kunpeng 等 CPU/HPC 架构的高效并行代码生成 benchmark,评估 LLM 写可移植高性能代码的能力。

简评:对“代码能力形成机制”有启发:预训练代码数据如果缺少架构/性能语境,模型很难真正学会系统级优化。

#2.17 Cosmos 3: Omnimodal World Models for Physical AI

  • 链接:https://arxiv.org/abs/2606.02800
  • Repo:https://github.com/NVIDIA/cosmos
  • 来源/日期:arXiv,Submitted on 2026-06-01;HF Daily Papers 收录
  • 类别:World Model / Foundation Model / Physical AI
  • 一句话核心贡献:提出 Cosmos 3,一组 omnimodal world models,在统一 mixture-of-transformers 架构中联合处理/生成语言、图像、视频、音频和动作序列。

简评:虽然偏 Physical AI,但对 LLM Agent 的 model-based RL 很有借鉴意义:world model 不只是预测文本,而是统一建模状态、动作和未来观测。


#3. 今日最值得精读的 3 篇

  1. MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models

https://arxiv.org/abs/2606.04627

精读理由:直接击中 latent reasoning + world model + agent control。建议重点看:显式 CoT 如何蒸馏为 latent、world model loss 怎么设计、是否有 ablation 证明 latent reasoning 对长程控制有效。

  1. AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

https://arxiv.org/abs/2606.05080

精读理由:很适合作为 long-horizon agentic RL / self-evolving code agent 的 benchmark 环境参考。建议重点看任务结构、trajectory logging、评价指标和失败案例。

  1. AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning

https://arxiv.org/abs/2606.04484

精读理由:LLM Agent RL 最终会落到系统问题。建议重点看 server/client 解耦、异构多模型训练、rollout 与优化通信协议、是否支持真实环境并行。

备选精读:Scaling Self-Evolving Agents via Parametric Memory(https://arxiv.org/abs/2606.04536)和 CHERRL reward hacking(https://arxiv.org/abs/2606.04923)。


#4. 今日最值得跟进的 3 个 repo/model/dataset

  1. AutoLab repo

- 链接:https://github.com/autolabhq/autolab

- 关注点:长程科研/工程闭环任务的具体环境、日志与 scoring 方式;能否改造成 agentic RL playground。

  1. MMG2Skill repo

- 链接:https://github.com/NJU-LINK/MMG2Skill

- 关注点:guide-to-skill learning 的数据格式、技能表示、轨迹反馈;适合作为“网页程序性知识 → agent skill pretraining data”的入口。

  1. NVIDIA Cosmos repo

- 链接:https://github.com/NVIDIA/cosmos

- 关注点:omnimodal world model 的训练/推理接口;虽然偏 embodied/physical AI,但对 agent world model、action-conditioned future prediction 有参考价值。

补充可观察条目:GitHub API 近几日新建 agent 相关项目中,K-Dense-AI/scientific-agents(https://github.com/K-Dense-AI/scientific-agents)和 yaodub/cast(https://github.com/yaodub/cast)有一定关注度,但更偏工作流/配置型项目,科研价值需后续观察。


#5. 研究机会 / Idea

#Idea 1:把“潜空间推理”变成可验证的 model-based agent benchmark

MIRAGE 提示我们:显式 CoT 可以蒸馏到 latent state,但关键问题是 latent 是否真的学到环境动力学。可以设计一个小型 benchmark:

  • 环境:网页/移动 UI/代码仓库中的多步任务;
  • 训练:显式 CoT + action + next observation,蒸馏到 latent;
  • 评测:隐藏 CoT 后,只用 latent 做 planning/action;
  • 诊断:比较 latent rollout 预测、action success、跨任务迁移、对长 horizon 的误差累积。

核心问题:latent reasoning 是“压缩语言解释”,还是“可用于想象未来的世界状态”?

#Idea 2:Code Agent 的 reward hacking 可控复现实验

CHERRL 可以迁移到代码智能:构造一个 rubric judge,它偏好某些表面特征(解释更长、测试输出格式更漂亮、patch 看起来更小),然后观察 code agent 是否学会利用这些偏见而不提升隐藏测试通过率。

可研究问题:

  • outcome reward、unit-test reward、LLM judge reward、process reward 哪种最容易被 hack?
  • trajectory 中哪些 span 最先出现 hacking 信号?
  • 能否用 TELBench 式 span-level localization 训练一个 reward-hacking detector?

#Idea 3:从 prompt memory 到 LoRA fast memory 的 agent 持续学习协议

TMEM 的 parametric memory 很诱人,但风险也大。可以设计协议来比较三类记忆:

  1. retrieval-only memory;
  2. summary/context memory;
  3. online LoRA fast memory。

在 code agent 或 research agent 上评估:跨任务保留、错误经验污染、可回滚性、隐私/安全、token 成本、对新项目 API 的适应速度。关键不是证明 LoRA 一定更强,而是明确:什么时候把经验写进参数,比写进检索库更值得?


#6. 快速结论

今天最核心的判断:LLM Agent 研究正在从“怎样提示模型完成任务”转向“怎样训练、诊断、部署和治理长期运行的 agent policy”。

对 wenjun 当前主线而言,建议优先跟 MIRAGE、AutoLab、AgentJet 三条线:

  • MIRAGE:潜空间推理 / world model;
  • AutoLab:长程闭环科研/工程任务环境;
  • AgentJet:agentic RL 训练系统。

这三者如果连起来,正好对应一个完整研究闭环:环境与任务 → trajectory 与 reward → latent/world model → 分布式 agent RL 训练 → 自演化能力评测