每日调研 2026-05-30 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-05-30 AI/LLM 最新论文与研究热点简报

时间范围：主要覆盖 Hugging Face Daily Papers 在 2026-05-29/05-30 页面收录、arXiv 提交日期集中在 2026-05-28 的工作；为避免漏掉与 wenjun 强相关的 agentic RL / world model / code agent 方向，少量高相关条目扩展到 2026-05-26—05-27。
检索来源：Hugging Face Daily Papers、arXiv abs 页面、HF paper 页面中披露的项目页 / GitHub / Dataset 链接、GitHub Search API。arXiv export API 本次触发 429 / timeout，因此没有使用其批量 API；X/Twitter 仍缺少稳定无需登录的结构化检索接口，本次未作为主要来源。

#一句话总览

今天的主线可以概括为：Agent 训练正在从“会不会调用工具/做任务”进入“环境可规模化、奖励可验证、技能可内化、记忆可诊断、安全可对齐”的工程化阶段。最贴近 wenjun 的几条是 LiteCoder-Terminal 的可验证终端训练环境、AXPO/Skill0.5/SkillGrad 代表的 agentic RL 与技能优化、minWM/YoCausal 对 world model 的构建与因果评测，以及 LaRA/SAERL/LoRA Memory Law 对后训练与参数记忆机制的分析。

#重点论文与动态筛选

#1. LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

类别：Code Agent / LLM Agent / Agentic RL / Environment / Tool-use
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-28
链接：HF / arXiv / GitHub
一句话核心贡献：提出 LiteCoder-Terminal-Gen，一个零依赖的合成管线，可从领域规格自动生成可执行、可验证的终端训练环境，并构建 11,255 条 SFT 专家轨迹与 602 个可验证 RL 环境。

为什么值得关注：

这篇非常贴近 Code Agent / long-horizon agentic RL。当前训练终端 Agent 的瓶颈不是缺少“更多命令行 transcript”，而是缺少可控、可扩展、可验证的环境。LiteCoder-Terminal 把环境生成、专家轨迹、verifier、trajectory-level preference optimization 放在同一个管线里，等价于为代码/终端 Agent 做了一个 mini gym factory。

与 wenjun 研究方向的关系：

对 self-evolving code agent，关键在于能否持续生成“有明确状态转移和自动验收”的任务；这篇的环境合成思路可作为 agent 预训练/后训练数据工厂的参考。
对 model-based RL for LLM Agent，可把这些 terminal environments 作为真实环境，再训练 learned simulator / world model 来预测命令执行后的文件系统、测试结果与错误信息。
对代码数据质量研究，它把数据质量从“静态 repo 去重/过滤”推进到“交互轨迹是否可执行、可复现、可验证”。

#2. Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

类别：LLM Agent / Tool-use / Post-training RL / Multimodal Reasoning
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-27
链接：HF / arXiv / 项目页
一句话核心贡献：提出 AXPO，针对 agentic reasoning 中 thinking 默认、tool-use 高方差的 Thinking-Acting Gap，在工具调用子组全错时固定思考前缀并重采样工具调用与后续轨迹，提高工具使用探索质量。

为什么值得关注：

标准 GRPO 在工具使用场景里容易出现两个问题：模型多数时候不主动调用工具；即便调用，某些问题的工具调用 rollout 又会集体失败，导致组内相对优势信号消失。AXPO 的关键是把探索预算集中投到 “acting branch”，而不是盲目增加完整 rollout 数量。

与 wenjun 研究方向的关系：

Code Agent 的失败常发生在工具选择、命令参数、文件定位、测试解释，而不是自然语言思考本身；AXPO 的局部重采样思路可以迁移到 shell/action 级别。
如果结合 model-based RL，可让 world model 对工具分支做 counterfactual rollout，减少真实环境执行成本。
这也是“从指令理解走向意图理解”的训练信号设计：工具调用不是格式问题，而是 agent 对任务状态和外部世界的主动探测。

#3. Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

类别：LLM Agent / Agentic RL / Skill Learning / Generalization
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-27
链接：HF / arXiv / GitHub
一句话核心贡献：提出 Skill0.5，用 difficulty-aware router 区分 general skill internalization 与 task-specific skill utilization，在内化泛化技能和外部调用任务技能之间做动态折中。

为什么值得关注：

Agent skill 的核心矛盾是：全部外部化会占上下文、检索和调用成本高；全部参数内化又容易过拟合、冲突、遗忘。Skill0.5 把技能分为“应该内化为通用能力”的部分和“应该按任务临时利用”的部分，是比简单 skill library 更接近训练机制的一步。

与 wenjun 研究方向的关系：

对代码 Agent，通用技能如 repo navigation、test triage、patch validation 可以内化；项目特定 API / 业务规则则更适合外部 skill/memory。
对 agent 预训练数据如何塑造能力，这篇提供了一个可检验问题：哪些轨迹知识会进入参数，哪些应留在上下文或工具库？
与 continual learning 相连：动态 skill treatment 可能缓解持续学习中的知识冲突。

#4. minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

类别：Model-based RL / World Model / Interactive Simulation / Systems
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-28
链接：HF / arXiv / GitHub
一句话核心贡献：给出把双向 T2V/TI2V 视频扩散模型转换为相机可控、因果、低延迟交互式 world model 的全栈开源框架，覆盖数据构造、可控微调、自回归训练、few-step distillation 与 streaming inference。

为什么值得关注：

它不是单纯“视频生成更好看”，而是把 world model 所需的几个约束一次性工程化：controllable、causal、low-latency、autoregressive rollout。对 model-based RL 来说，world model 的价值取决于能否快速、因果地响应 action，而不是离线生成漂亮视频。

与 wenjun 研究方向的关系：

对 Dreamer for LLM Agent 的类比：LLM Agent world model 也需要从 bidirectional/offline 语言模型转成 action-conditioned causal rollout model。
minWM 的 full-stack pipeline 值得借鉴到文本/代码环境：轨迹数据构造、action-conditioned fine-tuning、few-step rollout、streaming inference。
它也提示一个评测点：world model 不能只看 next observation likelihood，还要看交互闭环中的控制响应和延迟。

#5. LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training

类别：Post-training RL / Evaluation / Data Contamination / Mechanistic Analysis
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-28
链接：HF / arXiv
一句话核心贡献：提出 LaRA，用层级表示几何指标检测 RL post-training 中的数据污染，关注 perturbation sensitivity、directional collapse 与 local representation rigidity 等输出层信号之外的污染特征。

为什么值得关注：

RL 后训练会改变模型的 trajectory-level 行为，使传统基于 likelihood/entropy 的污染检测不稳定。LaRA 的重要性在于把污染检测从输出概率转向中间层表示几何：如果训练集污染导致模型对某类题出现异常刚性或方向坍缩，可能比最终答案更早暴露。

与 wenjun 研究方向的关系：

对 RLVR / Code RL，训练集和 benchmark 泄漏会严重误导能力判断；LaRA 可作为 post-training evaluation hygiene 的工具思路。
对基础模型训练机制，层级表示变化能帮助区分“泛化学到策略”与“记住了 benchmark 轨迹”。
对 agentic RL，未来可扩展到工具轨迹污染：模型是否记住了某些环境/任务模板而非学会交互策略？

#其他高相关条目

#6. YoCausal: How Far is Video Generation from World Model? A Causality Perspective

类别：World Model / Evaluation / Causality
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-28
链接：HF / arXiv
一句话核心贡献：提出 YoCausal，用真实视频时间反转构造零成本反事实样本，并用 Reverse Surprise Index / Causality Cognition Index 区分视频模型的时间偏置和真正因果认知。
简评：对 world model 研究很重要，因为它提醒我们：能预测时间顺序不等于理解因果。LLM Agent world model 也有类似问题：能续写 trace 不等于知道 action 会如何改变 state。

#7. GenClaw: Code-Driven Agentic Image Generation

类别：Code Agent / Tool-use / Multimodal Agent
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-28
链接：HF / arXiv / GitHub
一句话核心贡献：提出 code-driven 的 agentic image generation 范式，让 agent 先搜索/推理，再用 SVG/HTML/CSS 等代码直接构造草图与画布，减少只靠 prompt rewriting 控制黑盒图像模型的问题。
简评：虽然是图像生成，但对代码智能有启发：代码作为可执行中间表示可让 agent 对结果有更精确的局部控制，也更利于 verifier 和迭代修正。

#8. How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

类别：Continual Learning / Parametric Memory / LoRA / Training Mechanism
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-28
链接：HF / arXiv
一句话核心贡献：把 LoRA 当作受控记忆探针，提出 Parametric Memory Law，刻画 loss reduction、有效参数量与序列长度之间的幂律关系，并分析 token-level verbatim recall 的相变条件。
简评：对持续学习很直接：LoRA 不是无限记忆容器，其 exact memory capacity 可能可被定量预测。可用于判断 agent 经验是否值得参数化内化。

#9. OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

类别：Retrieval / Tool-use / LLM Agent / Knowledge Systems
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-28
链接：HF / arXiv
一句话核心贡献：提出统一异构知识源检索框架，让自然语言 query 能选择并派发到文本、关系表、知识图谱、属性图等 source-native 检索接口，而不是把所有知识强行压到同一 embedding 空间。
简评：对 Agent RAG 很实用：复杂任务往往需要 schema/ontology/operator，统一检索不应抹平结构信息。

#10. Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering

类别：Post-training RL / Verifiable Reward / Factuality / Process Supervision
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-28
链接：HF / arXiv / GitHub
一句话核心贡献：提出 CorVer，用 Wikipedia 共现统计和轻量抽取器给事实问答提供句子级、可扩展的 corpus-grounded process reward，试图把 verifiable reward 从数学/代码扩展到知识密集问答。
简评：这对 RLVR 很关键：如果可验证奖励只限于 math/code，agent 的事实检索与报告生成能力很难通过 RL 规模化提升。

#11. PhoneWorld: Scaling Phone-Use Agent Environments

类别：LLM Agent / GUI Agent / Environment / Evaluation
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-28
链接：HF / arXiv
一句话核心贡献：从真实 GUI 轨迹和截图构建可控 phone-use 环境、可执行任务、自动 verifier 与训练 rollout，提升移动端 agent 环境的可扩展性。
简评：与 LiteCoder-Terminal 一样，重点是“环境工厂 + verifier + rollout”，说明 agent 训练数据正从静态 instruction 转向可执行交互环境。

#12. WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

类别：LLM Agent / Memory / Evaluation / Multimodal
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-28
链接：HF / arXiv / 项目页 / GitHub
一句话核心贡献：把多模态 agent memory 表述为 Action-World Interaction Loop，并构建 400 个多 session 任务来定位 writing、maintenance、retrieval、use 等不同记忆生命周期环节的错误。
简评：对长轨迹 Agent 重要：记忆不是最终 recall 分数，而是一条随行动和世界变化不断维护的链路。

#13. LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

类别：LLM Agent / Search Agent / Evaluation / Tool-use
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-27
链接：HF / arXiv / Dataset
一句话核心贡献：指出搜索 Agent 在 BrowseComp 上常依赖模型内在知识而非真实搜索，并提出 LiveBrowseComp 用动态问题测试 evidence-driven discovery。
简评：这对 research agent / web agent 评测非常重要：benchmark 不能奖励“先猜答案再上网确认”。

#14. Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders

类别：Post-training RL / Mechanistic Interpretability / Data Engineering
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-26
链接：HF / arXiv
一句话核心贡献：提出 SAERL，用 Sparse Autoencoder 提取模型内部信号来建模数据多样性、难度和质量，并指导 RL batch mixing、curriculum ordering 与 filtering。
简评：这与 wenjun 关心的“基础模型训练与能力形成机制”很相关：后训练数据工程不只看外部标签，也可以看模型内部表征空间。

#15. GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection

类别：GUI Agent / Mid-training / Causal Knowledge / Agent Pretraining Data
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-27
链接：HF / arXiv / GitHub
一句话核心贡献：提出 GUI-CIDER，通过因果内化和密度感知样本重选，让 GUI Agent 在 mid-training 阶段显式学习 GUI 世界知识，而不是只靠 SFT/RL 在 action annotation 中隐式记忆。
简评：这条强调“world knowledge internalization”，与 Skill0.5/PEAM/LoRA Memory Law 一起构成了参数化内化 vs 外部记忆的连续谱。

#16. SkillGrad: Optimizing Agent Skills Like Gradient Descent

类别：LLM Agent / Skill Optimization / Self-evolving Agent
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-26
链接：HF / arXiv / GitHub
一句话核心贡献：把 skill package 看成结构化参数，用执行轨迹中的 loss evidence 生成文本梯度，并用 momentum agent 累积诊断模式，像梯度下降一样优化 agent skills。
简评：这是 self-evolving agent 的一个清晰抽象：不仅模型参数可训练，skill 文件、prompt、工具说明也可作为可优化对象。

#17. AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

类别：LLM Agent / Safety / Alignment / Tool-use Security
来源与日期：Hugging Face Daily Papers；arXiv 提交 2026-05-28
链接：HF / arXiv / 项目页
一句话核心贡献：面向 OpenClaw/Codex 等开放世界执行 Agent 的安全风险，提出 taxonomy-guided data engine 与轻量安全模型训练框架，用约 1k 样本训练 0.8B—8B AgentDoG 变体，并构建 agentic safety SFT/RL 流程。
简评：对真实可执行 Agent 来说，安全分类和低成本对齐会变成训练系统的一部分，而不是部署后的过滤器。

#今日最值得精读的 3 篇

LiteCoder-Terminal：最贴近 Code Agent + 长轨迹终端环境 + 可验证 RL，建议优先读环境生成、verifier 和 RL 数据构造部分。

链接：https://arxiv.org/abs/2605.29559

AXPO：直接讨论 tool-use RL 的探索和 credit assignment，适合和 GRPO / agentic RL 训练框架对照阅读。

链接：https://arxiv.org/abs/2605.28774

Skill0.5：围绕技能内化与外部使用的折中，对 agent 预训练数据、持续学习、skill library 都有启发。

链接：https://arxiv.org/abs/2605.28424

备选精读：如果今天想偏 model-based RL，则把 minWM 或 YoCausal 放进前三；如果偏训练机制，则读 LaRA 和 SAERL。

#今日最值得跟进的 3 个 repo/model/dataset

icip-cas/LiteCoder - 终端 Agent 的 SFT/RL 环境与轨迹资源，关注其 verifier 设计和任务生成 DSL。

https://github.com/icip-cas/LiteCoder

shengshu-ai/minWM - 实时交互式视频 world model 全栈框架，可作为 model-based agent simulator 工程参考。

https://github.com/shengshu-ai/minWM

UCSB-AI/WorldMemArena 或 Forival/LiveBrowseComp - 前者用于多模态长程记忆生命周期评测，后者用于搜索 Agent 是否真正检索的动态评测。

https://github.com/UCSB-AI/WorldMemArena

https://huggingface.co/datasets/Forival/LiveBrowseComp

#研究机会 / Idea

#Idea 1：面向代码 Agent 的“终端世界模型”

LiteCoder-Terminal 提供真实可执行环境，minWM 提供 action-conditioned causal rollout 的工程范式。可以考虑训练一个轻量 terminal world model：输入当前 workspace summary、命令、关键文件 diff，预测 stdout/stderr、测试结果、文件状态变化和潜在错误类型。这样可在真实执行前做 cheap counterfactual planning，用于 Code Agent 的 model-based RL / Dreamer-style training。

关键问题：

状态表示应是 raw file tree、retrieved snippets，还是 latent workspace embedding？
world model 预测的是完整输出，还是 verifier-relevant state abstraction？
如何避免模型 hallucinate 通过测试，从而污染 policy learning？

#Idea 2：Agent skill 的“参数化内化阈值”

Skill0.5、SkillGrad、PEAM、LoRA Memory Law 都在讨论同一件事：经验、技能、记忆到底应该保存在参数里、上下文里、外部 skill 文件里，还是检索库里。可以设计一个 unified criterion：用任务频率、跨任务复用度、上下文成本、冲突风险、LoRA capacity 估计一个 parameterization-worthiness score。

可实验方向：

在代码 Agent 上，把 repo navigation/test debugging/patch style 分成通用技能和项目特定技能，比较内化与外部化的泛化差异。
用 LoRA Memory Law 估计某类 skill 的 exact recall 成本，用 SkillGrad 优化外部 skill 文件，再比较二者混合策略。

#Idea 3：RL 后训练中的污染与“虚假能力形成”诊断

LaRA 与 LiveBrowseComp 指向同一个风险：模型可能不是学会了解决问题，而是记住了 benchmark 或用内在知识绕过工具。对 agentic RL，可建立一个 contamination / shortcut diagnostic suite：

对同一任务构造环境扰动、路径扰动、工具输出扰动，检查 agent 是否真正跟随 evidence。
用表示几何检测某些任务模板是否导致 layer-wise rigidity。
对搜索/代码/终端任务分别设计“去除支持证据”或“替换环境状态”的反事实评测。

#小结

今天的材料最值得 wenjun 抓住三条线：

环境工厂化：LiteCoder-Terminal、PhoneWorld 把 Agent 训练从静态样本推向可执行环境 + verifier + rollout。
技能与记忆内化：Skill0.5、SkillGrad、LoRA Memory Law、WorldMemArena 都在回答经验如何沉淀为长期能力。
world model 与因果评测：minWM、YoCausal 提醒我们，world model 要能交互、低延迟、因果响应，而不是只会离线生成。

如果今天只能读一条线，建议读 LiteCoder-Terminal + AXPO + Skill0.5：它们最直接支撑 Code Agent / LLM Agent 的 agentic RL 研究闭环。