#2026-05-30 AI/LLM 最新论文与研究热点简报
时间范围:主要覆盖 Hugging Face Daily Papers 在 2026-05-29/05-30 页面收录、arXiv 提交日期集中在 2026-05-28 的工作;为避免漏掉与 wenjun 强相关的 agentic RL / world model / code agent 方向,少量高相关条目扩展到 2026-05-26—05-27。
检索来源:Hugging Face Daily Papers、arXiv abs 页面、HF paper 页面中披露的项目页 / GitHub / Dataset 链接、GitHub Search API。arXiv export API 本次触发 429 / timeout,因此没有使用其批量 API;X/Twitter 仍缺少稳定无需登录的结构化检索接口,本次未作为主要来源。
#一句话总览
今天的主线可以概括为:Agent 训练正在从“会不会调用工具/做任务”进入“环境可规模化、奖励可验证、技能可内化、记忆可诊断、安全可对齐”的工程化阶段。最贴近 wenjun 的几条是 LiteCoder-Terminal 的可验证终端训练环境、AXPO/Skill0.5/SkillGrad 代表的 agentic RL 与技能优化、minWM/YoCausal 对 world model 的构建与因果评测,以及 LaRA/SAERL/LoRA Memory Law 对后训练与参数记忆机制的分析。
#重点论文与动态筛选
#1. LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents
- 类别:Code Agent / LLM Agent / Agentic RL / Environment / Tool-use
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-28
- 链接:HF / arXiv / GitHub
- 一句话核心贡献:提出 LiteCoder-Terminal-Gen,一个零依赖的合成管线,可从领域规格自动生成可执行、可验证的终端训练环境,并构建 11,255 条 SFT 专家轨迹与 602 个可验证 RL 环境。
为什么值得关注:
这篇非常贴近 Code Agent / long-horizon agentic RL。当前训练终端 Agent 的瓶颈不是缺少“更多命令行 transcript”,而是缺少可控、可扩展、可验证的环境。LiteCoder-Terminal 把环境生成、专家轨迹、verifier、trajectory-level preference optimization 放在同一个管线里,等价于为代码/终端 Agent 做了一个 mini gym factory。
与 wenjun 研究方向的关系:
- 对 self-evolving code agent,关键在于能否持续生成“有明确状态转移和自动验收”的任务;这篇的环境合成思路可作为 agent 预训练/后训练数据工厂的参考。
- 对 model-based RL for LLM Agent,可把这些 terminal environments 作为真实环境,再训练 learned simulator / world model 来预测命令执行后的文件系统、测试结果与错误信息。
- 对代码数据质量研究,它把数据质量从“静态 repo 去重/过滤”推进到“交互轨迹是否可执行、可复现、可验证”。
#2. Agent Explorative Policy Optimization for Multimodal Agentic Reasoning
- 类别:LLM Agent / Tool-use / Post-training RL / Multimodal Reasoning
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-27
- 链接:HF / arXiv / 项目页
- 一句话核心贡献:提出 AXPO,针对 agentic reasoning 中 thinking 默认、tool-use 高方差的 Thinking-Acting Gap,在工具调用子组全错时固定思考前缀并重采样工具调用与后续轨迹,提高工具使用探索质量。
为什么值得关注:
标准 GRPO 在工具使用场景里容易出现两个问题:模型多数时候不主动调用工具;即便调用,某些问题的工具调用 rollout 又会集体失败,导致组内相对优势信号消失。AXPO 的关键是把探索预算集中投到 “acting branch”,而不是盲目增加完整 rollout 数量。
与 wenjun 研究方向的关系:
- Code Agent 的失败常发生在工具选择、命令参数、文件定位、测试解释,而不是自然语言思考本身;AXPO 的局部重采样思路可以迁移到 shell/action 级别。
- 如果结合 model-based RL,可让 world model 对工具分支做 counterfactual rollout,减少真实环境执行成本。
- 这也是“从指令理解走向意图理解”的训练信号设计:工具调用不是格式问题,而是 agent 对任务状态和外部世界的主动探测。
#3. Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning
- 类别:LLM Agent / Agentic RL / Skill Learning / Generalization
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-27
- 链接:HF / arXiv / GitHub
- 一句话核心贡献:提出 Skill0.5,用 difficulty-aware router 区分 general skill internalization 与 task-specific skill utilization,在内化泛化技能和外部调用任务技能之间做动态折中。
为什么值得关注:
Agent skill 的核心矛盾是:全部外部化会占上下文、检索和调用成本高;全部参数内化又容易过拟合、冲突、遗忘。Skill0.5 把技能分为“应该内化为通用能力”的部分和“应该按任务临时利用”的部分,是比简单 skill library 更接近训练机制的一步。
与 wenjun 研究方向的关系:
- 对代码 Agent,通用技能如 repo navigation、test triage、patch validation 可以内化;项目特定 API / 业务规则则更适合外部 skill/memory。
- 对 agent 预训练数据如何塑造能力,这篇提供了一个可检验问题:哪些轨迹知识会进入参数,哪些应留在上下文或工具库?
- 与 continual learning 相连:动态 skill treatment 可能缓解持续学习中的知识冲突。
#4. minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models
- 类别:Model-based RL / World Model / Interactive Simulation / Systems
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-28
- 链接:HF / arXiv / GitHub
- 一句话核心贡献:给出把双向 T2V/TI2V 视频扩散模型转换为相机可控、因果、低延迟交互式 world model 的全栈开源框架,覆盖数据构造、可控微调、自回归训练、few-step distillation 与 streaming inference。
为什么值得关注:
它不是单纯“视频生成更好看”,而是把 world model 所需的几个约束一次性工程化:controllable、causal、low-latency、autoregressive rollout。对 model-based RL 来说,world model 的价值取决于能否快速、因果地响应 action,而不是离线生成漂亮视频。
与 wenjun 研究方向的关系:
- 对 Dreamer for LLM Agent 的类比:LLM Agent world model 也需要从 bidirectional/offline 语言模型转成 action-conditioned causal rollout model。
- minWM 的 full-stack pipeline 值得借鉴到文本/代码环境:轨迹数据构造、action-conditioned fine-tuning、few-step rollout、streaming inference。
- 它也提示一个评测点:world model 不能只看 next observation likelihood,还要看交互闭环中的控制响应和延迟。
#5. LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training
- 类别:Post-training RL / Evaluation / Data Contamination / Mechanistic Analysis
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-28
- 链接:HF / arXiv
- 一句话核心贡献:提出 LaRA,用层级表示几何指标检测 RL post-training 中的数据污染,关注 perturbation sensitivity、directional collapse 与 local representation rigidity 等输出层信号之外的污染特征。
为什么值得关注:
RL 后训练会改变模型的 trajectory-level 行为,使传统基于 likelihood/entropy 的污染检测不稳定。LaRA 的重要性在于把污染检测从输出概率转向中间层表示几何:如果训练集污染导致模型对某类题出现异常刚性或方向坍缩,可能比最终答案更早暴露。
与 wenjun 研究方向的关系:
- 对 RLVR / Code RL,训练集和 benchmark 泄漏会严重误导能力判断;LaRA 可作为 post-training evaluation hygiene 的工具思路。
- 对基础模型训练机制,层级表示变化能帮助区分“泛化学到策略”与“记住了 benchmark 轨迹”。
- 对 agentic RL,未来可扩展到工具轨迹污染:模型是否记住了某些环境/任务模板而非学会交互策略?
#其他高相关条目
#6. YoCausal: How Far is Video Generation from World Model? A Causality Perspective
- 类别:World Model / Evaluation / Causality
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-28
- 链接:HF / arXiv
- 一句话核心贡献:提出 YoCausal,用真实视频时间反转构造零成本反事实样本,并用 Reverse Surprise Index / Causality Cognition Index 区分视频模型的时间偏置和真正因果认知。
- 简评:对 world model 研究很重要,因为它提醒我们:能预测时间顺序不等于理解因果。LLM Agent world model 也有类似问题:能续写 trace 不等于知道 action 会如何改变 state。
#7. GenClaw: Code-Driven Agentic Image Generation
- 类别:Code Agent / Tool-use / Multimodal Agent
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-28
- 链接:HF / arXiv / GitHub
- 一句话核心贡献:提出 code-driven 的 agentic image generation 范式,让 agent 先搜索/推理,再用 SVG/HTML/CSS 等代码直接构造草图与画布,减少只靠 prompt rewriting 控制黑盒图像模型的问题。
- 简评:虽然是图像生成,但对代码智能有启发:代码作为可执行中间表示可让 agent 对结果有更精确的局部控制,也更利于 verifier 和迭代修正。
#8. How LoRA Remembers? A Parametric Memory Law for LLM Finetuning
- 类别:Continual Learning / Parametric Memory / LoRA / Training Mechanism
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-28
- 链接:HF / arXiv
- 一句话核心贡献:把 LoRA 当作受控记忆探针,提出 Parametric Memory Law,刻画 loss reduction、有效参数量与序列长度之间的幂律关系,并分析 token-level verbatim recall 的相变条件。
- 简评:对持续学习很直接:LoRA 不是无限记忆容器,其 exact memory capacity 可能可被定量预测。可用于判断 agent 经验是否值得参数化内化。
#9. OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources
- 类别:Retrieval / Tool-use / LLM Agent / Knowledge Systems
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-28
- 链接:HF / arXiv
- 一句话核心贡献:提出统一异构知识源检索框架,让自然语言 query 能选择并派发到文本、关系表、知识图谱、属性图等 source-native 检索接口,而不是把所有知识强行压到同一 embedding 空间。
- 简评:对 Agent RAG 很实用:复杂任务往往需要 schema/ontology/operator,统一检索不应抹平结构信息。
#10. Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering
- 类别:Post-training RL / Verifiable Reward / Factuality / Process Supervision
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-28
- 链接:HF / arXiv / GitHub
- 一句话核心贡献:提出 CorVer,用 Wikipedia 共现统计和轻量抽取器给事实问答提供句子级、可扩展的 corpus-grounded process reward,试图把 verifiable reward 从数学/代码扩展到知识密集问答。
- 简评:这对 RLVR 很关键:如果可验证奖励只限于 math/code,agent 的事实检索与报告生成能力很难通过 RL 规模化提升。
#11. PhoneWorld: Scaling Phone-Use Agent Environments
- 类别:LLM Agent / GUI Agent / Environment / Evaluation
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-28
- 链接:HF / arXiv
- 一句话核心贡献:从真实 GUI 轨迹和截图构建可控 phone-use 环境、可执行任务、自动 verifier 与训练 rollout,提升移动端 agent 环境的可扩展性。
- 简评:与 LiteCoder-Terminal 一样,重点是“环境工厂 + verifier + rollout”,说明 agent 训练数据正从静态 instruction 转向可执行交互环境。
#12. WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction
- 类别:LLM Agent / Memory / Evaluation / Multimodal
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-28
- 链接:HF / arXiv / 项目页 / GitHub
- 一句话核心贡献:把多模态 agent memory 表述为 Action-World Interaction Loop,并构建 400 个多 session 任务来定位 writing、maintenance、retrieval、use 等不同记忆生命周期环节的错误。
- 简评:对长轨迹 Agent 重要:记忆不是最终 recall 分数,而是一条随行动和世界变化不断维护的链路。
#13. LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?
- 类别:LLM Agent / Search Agent / Evaluation / Tool-use
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-27
- 链接:HF / arXiv / Dataset
- 一句话核心贡献:指出搜索 Agent 在 BrowseComp 上常依赖模型内在知识而非真实搜索,并提出 LiveBrowseComp 用动态问题测试 evidence-driven discovery。
- 简评:这对 research agent / web agent 评测非常重要:benchmark 不能奖励“先猜答案再上网确认”。
#14. Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders
- 类别:Post-training RL / Mechanistic Interpretability / Data Engineering
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-26
- 链接:HF / arXiv
- 一句话核心贡献:提出 SAERL,用 Sparse Autoencoder 提取模型内部信号来建模数据多样性、难度和质量,并指导 RL batch mixing、curriculum ordering 与 filtering。
- 简评:这与 wenjun 关心的“基础模型训练与能力形成机制”很相关:后训练数据工程不只看外部标签,也可以看模型内部表征空间。
#15. GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection
- 类别:GUI Agent / Mid-training / Causal Knowledge / Agent Pretraining Data
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-27
- 链接:HF / arXiv / GitHub
- 一句话核心贡献:提出 GUI-CIDER,通过因果内化和密度感知样本重选,让 GUI Agent 在 mid-training 阶段显式学习 GUI 世界知识,而不是只靠 SFT/RL 在 action annotation 中隐式记忆。
- 简评:这条强调“world knowledge internalization”,与 Skill0.5/PEAM/LoRA Memory Law 一起构成了参数化内化 vs 外部记忆的连续谱。
#16. SkillGrad: Optimizing Agent Skills Like Gradient Descent
- 类别:LLM Agent / Skill Optimization / Self-evolving Agent
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-26
- 链接:HF / arXiv / GitHub
- 一句话核心贡献:把 skill package 看成结构化参数,用执行轨迹中的 loss evidence 生成文本梯度,并用 momentum agent 累积诊断模式,像梯度下降一样优化 agent skills。
- 简评:这是 self-evolving agent 的一个清晰抽象:不仅模型参数可训练,skill 文件、prompt、工具说明也可作为可优化对象。
#17. AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
- 类别:LLM Agent / Safety / Alignment / Tool-use Security
- 来源与日期:Hugging Face Daily Papers;arXiv 提交 2026-05-28
- 链接:HF / arXiv / 项目页
- 一句话核心贡献:面向 OpenClaw/Codex 等开放世界执行 Agent 的安全风险,提出 taxonomy-guided data engine 与轻量安全模型训练框架,用约 1k 样本训练 0.8B—8B AgentDoG 变体,并构建 agentic safety SFT/RL 流程。
- 简评:对真实可执行 Agent 来说,安全分类和低成本对齐会变成训练系统的一部分,而不是部署后的过滤器。
#今日最值得精读的 3 篇
- LiteCoder-Terminal:最贴近 Code Agent + 长轨迹终端环境 + 可验证 RL,建议优先读环境生成、verifier 和 RL 数据构造部分。
链接:https://arxiv.org/abs/2605.29559
- AXPO:直接讨论 tool-use RL 的探索和 credit assignment,适合和 GRPO / agentic RL 训练框架对照阅读。
链接:https://arxiv.org/abs/2605.28774
- Skill0.5:围绕技能内化与外部使用的折中,对 agent 预训练数据、持续学习、skill library 都有启发。
链接:https://arxiv.org/abs/2605.28424
备选精读:如果今天想偏 model-based RL,则把 minWM 或 YoCausal 放进前三;如果偏训练机制,则读 LaRA 和 SAERL。
#今日最值得跟进的 3 个 repo/model/dataset
- icip-cas/LiteCoder - 终端 Agent 的 SFT/RL 环境与轨迹资源,关注其 verifier 设计和任务生成 DSL。
https://github.com/icip-cas/LiteCoder
- shengshu-ai/minWM - 实时交互式视频 world model 全栈框架,可作为 model-based agent simulator 工程参考。
https://github.com/shengshu-ai/minWM
- UCSB-AI/WorldMemArena 或 Forival/LiveBrowseComp - 前者用于多模态长程记忆生命周期评测,后者用于搜索 Agent 是否真正检索的动态评测。
https://github.com/UCSB-AI/WorldMemArena
https://huggingface.co/datasets/Forival/LiveBrowseComp
#研究机会 / Idea
#Idea 1:面向代码 Agent 的“终端世界模型”
LiteCoder-Terminal 提供真实可执行环境,minWM 提供 action-conditioned causal rollout 的工程范式。可以考虑训练一个轻量 terminal world model:输入当前 workspace summary、命令、关键文件 diff,预测 stdout/stderr、测试结果、文件状态变化和潜在错误类型。这样可在真实执行前做 cheap counterfactual planning,用于 Code Agent 的 model-based RL / Dreamer-style training。
关键问题:
- 状态表示应是 raw file tree、retrieved snippets,还是 latent workspace embedding?
- world model 预测的是完整输出,还是 verifier-relevant state abstraction?
- 如何避免模型 hallucinate 通过测试,从而污染 policy learning?
#Idea 2:Agent skill 的“参数化内化阈值”
Skill0.5、SkillGrad、PEAM、LoRA Memory Law 都在讨论同一件事:经验、技能、记忆到底应该保存在参数里、上下文里、外部 skill 文件里,还是检索库里。可以设计一个 unified criterion:用任务频率、跨任务复用度、上下文成本、冲突风险、LoRA capacity 估计一个 parameterization-worthiness score。
可实验方向:
- 在代码 Agent 上,把 repo navigation/test debugging/patch style 分成通用技能和项目特定技能,比较内化与外部化的泛化差异。
- 用 LoRA Memory Law 估计某类 skill 的 exact recall 成本,用 SkillGrad 优化外部 skill 文件,再比较二者混合策略。
#Idea 3:RL 后训练中的污染与“虚假能力形成”诊断
LaRA 与 LiveBrowseComp 指向同一个风险:模型可能不是学会了解决问题,而是记住了 benchmark 或用内在知识绕过工具。对 agentic RL,可建立一个 contamination / shortcut diagnostic suite:
- 对同一任务构造环境扰动、路径扰动、工具输出扰动,检查 agent 是否真正跟随 evidence。
- 用表示几何检测某些任务模板是否导致 layer-wise rigidity。
- 对搜索/代码/终端任务分别设计“去除支持证据”或“替换环境状态”的反事实评测。
#小结
今天的材料最值得 wenjun 抓住三条线:
- 环境工厂化:LiteCoder-Terminal、PhoneWorld 把 Agent 训练从静态样本推向可执行环境 + verifier + rollout。
- 技能与记忆内化:Skill0.5、SkillGrad、LoRA Memory Law、WorldMemArena 都在回答经验如何沉淀为长期能力。
- world model 与因果评测:minWM、YoCausal 提醒我们,world model 要能交互、低延迟、因果响应,而不是只会离线生成。
如果今天只能读一条线,建议读 LiteCoder-Terminal + AXPO + Skill0.5:它们最直接支撑 Code Agent / LLM Agent 的 agentic RL 研究闭环。