每日调研 2026-05-20 ★★★★☆ daily AI LLM Agent Code Intelligence Research Briefing

#2026-05-20 AI/LLM 最新论文与研究热点简报

检索时间：2026-05-20 08:00（Asia/Shanghai）
主要覆盖：Hugging Face Papers 2026-05-18 / 2026-05-19、arXiv 近期提交与更新、GitHub 搜索。
说明：arXiv API 在批量关键词检索时返回 429，因此本期采用 Hugging Face Daily Papers 列表做候选，再逐篇访问 arXiv 页面抽取摘要与日期；X/Twitter 未做登录态检索，本期用 HF / arXiv / GitHub 作为替代公开来源。

#0. 今日总判断

过去 24-48 小时与 wenjun 方向最相关的信号集中在三条线上：

Agent harness / agent skill / agent memory 正在成为 Agent 研究的新基础设施层：Code as Agent Harness、SkillsVote、MementoGUI、Auditing Agent Harness Safety 都在把 Agent 的能力边界从“模型输出”转向“执行环境、工具编排、可复用技能、轨迹治理”。这和代码智能、长轨迹 Agent RL、环境设计非常贴近。
Agentic RL 的系统化与可验证反馈仍在加速：AstraFlow 关注 agentic LLM RL 的系统框架，MetaAgent-X、Solvita、Correction-Oriented Policy Optimization、Strategy-Guided Exploration for RLVR 则分别从多智能体、代码竞赛、失败轨迹利用、探索效率切入。
长推理 / 潜表示 / 记忆压缩方向出现一批“机制层”工作：Stop When Reasoning Converges、Monitoring the Internal Monologue、DiHAL、EndPrompt、NGM、MixSD 都不是简单刷榜，而是在问：推理何时该停、隐藏态能否监控未来行为、连续/扩散式隐空间应接在 Transformer 哪里、如何低成本扩上下文或注入知识。

如果今天只能精读 3 篇，我建议优先看：

Code as Agent Harness：帮助建立“代码不只是输出，而是 Agent 操作系统/环境接口”的统一视角。
AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs：直接对应 agentic RL 系统工程，适合思考长轨迹 LLM Agent RL 的训练栈。
SkillsVote 或 MementoGUI：前者偏通用技能生命周期治理，后者偏长程 GUI Agent 记忆控制；都对“经验如何沉淀为可复用能力”有启发。

#1. 重点论文与动态详解

#1.1 Code as Agent Harness

链接：arXiv:2605.18747 / HF Papers
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 18 May 2026
类别：Code Agent / LLM Agent / Tool-use / Evaluation
一句话核心贡献：提出 code as agent harness 视角：代码不再只是 LLM 生成的目标，而是 Agent 进行推理、行动、环境建模与执行验证的操作基底。

为什么值得关注：

这篇的价值很可能不在某个单点算法，而在于给代码智能和 Agent 研究提供了一个统一抽象。近两年代码 Agent 的演化已经从“生成函数/修 bug”走向“用代码搭环境、跑测试、写脚本、调工具、构造验证器”。如果把 code 看作 harness，那么很多看似分散的问题——工具调用、sandbox、测试反馈、轨迹记录、agent skill、RL 环境接口——可以被放进同一个框架里分析。

与 wenjun 研究方向的关系：

对 LLM Agent / 代码智能很直接。尤其适合用来思考：代码环境是否可以成为 LLM model-based RL 的“可执行世界模型接口”？也即让 Agent 不只在自然语言里规划，而是通过代码维护状态、模拟后果、构造 reward checker、生成自训练任务。

#1.2 SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

链接：arXiv:2605.18401 / HF Papers / GitHub: MemTensor/skills-vote
来源：Hugging Face Daily Papers / arXiv / GitHub
日期：Submitted on 18 May 2026
类别：LLM Agent / Tool-use / Continual Learning / Agent Memory
一句话核心贡献：把长程 Agent 轨迹沉淀为“Agent Skills”，并提出从收集、推荐到演化的生命周期治理框架，避免冗余、低质、环境敏感的技能污染未来上下文。

为什么值得关注：

很多 Agent 论文都说要“从经验中学习”，但真正困难的是经验对象如何表示、如何筛选、如何更新、如何避免坏经验进入长期记忆。SkillsVote 把技能定义为可执行脚本 + 非执行指导，并强调开放技能生态里的冗余、质量不均、环境依赖问题。

与 wenjun 研究方向的关系：

这和“self-evolving code agent / agent 预训练数据如何塑造能力”很接近。一个值得追的问题是：Agent skills 能否成为代码 Agent 的持续预训练或 RL 后训练数据单元？比如把成功修复 bug 的 trajectory 压缩成 skill，再用 skill retrieval + execution feedback 训练策略。

#1.3 AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

链接：arXiv:2605.15565 / HF Papers
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 15 May 2026
类别：Post-training RL / LLM Agent / Systems / Model-based RL 相关基础设施
一句话核心贡献：提出面向 agentic LLM 的 dataflow-oriented RL 系统，以支持复杂 agentic RL workload、多策略协作训练、弹性异构/跨区域算力利用。

为什么值得关注：

Agentic RL 最大瓶颈往往不是单个算法，而是训练系统：环境交互慢、轨迹长、工具调用异步、多策略协同复杂、reward / verifier 分布式执行困难。AstraFlow 把问题明确定位为系统工程问题，是近期少见的直接针对 agentic LLM RL scaling 的论文。

与 wenjun 研究方向的关系：

如果要做 LLM Agent 的 Dreamer / model-based RL，必须先搞清楚数据流：真实环境 rollout、世界模型训练、想象轨迹生成、verifier reward、policy update 如何编排。AstraFlow 可以作为“agentic RL 训练栈”的参考底座，即便它不一定直接做 model-based RL。

#1.4 MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

链接：arXiv:2605.18652 / HF Papers / GitHub: zzzmyyzeng/MementoGUI
来源：Hugging Face Daily Papers / arXiv / GitHub
日期：Submitted on 18 May 2026
类别：LLM Agent / GUI Agent / Memory / Long-horizon Agent
一句话核心贡献：提出面向长程 GUI Agent 的多模态记忆控制插件，避免原始历史截图过载或纯文本记忆丢失局部视觉证据。

为什么值得关注：

GUI Agent 的长程任务天然有“状态追踪”问题：当前页面、历史输入、局部视觉证据、用户目标之间存在大量跨步依赖。MementoGUI 把 memory control 作为可学习模块，而不是简单拼接历史。

与 wenjun 研究方向的关系：

这对“通用上下文压缩器”和“长轨迹 Agent”很相关。代码 Agent 也有类似问题：历史日志、测试错误、文件 diff、工具输出都不能无限塞进上下文，需要可学习的任务状态压缩器。

#1.5 OProver: A Unified Framework for Agentic Formal Theorem Proving

链接：arXiv:2605.17283 / HF Papers
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 17 May 2026
类别：LLM Agent / Formal Reasoning / Post-training RL / Code Intelligence
一句话核心贡献：在 Lean 4 形式化证明中整合 agentic proving：失败证明尝试会利用检索到的 compiler-verified proofs 与 Lean 编译器反馈迭代修正，并通过 continued pretraining + iterative post-training 训练。

为什么值得关注：

形式化证明是非常好的“可验证 reward”场景：编译器反馈天然提供密集错误信号，成功/失败明确。OProver 的关键点是把 agentic 推理不只放在 inference time，而是进入 prover 的训练流程。

与 wenjun 研究方向的关系：

对代码 Agent RL 有直接启发：把 compiler/test/verifier feedback 变成训练数据，而不是只作为推理时修错工具。Lean 证明和代码修复的共性是：都有可执行验证器、失败轨迹丰富、可以做 iterative post-training。

#1.6 From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements

链接：arXiv:2605.17242 / HF Papers
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 17 May 2026
类别：Code Agent / Evaluation / Tool-use
一句话核心贡献：面向从需求生成完整 Web 应用的代码 Agent，强调“可运行”不等于“可交付”，需要部署、浏览器交互测试、失败信号转译与多 Agent TDD 流程。

为什么值得关注：

这篇抓住了代码 Agent 评测的痛点：只看源码或终端输出不够，Web 应用必须真实运行、交互、检查功能需求。它把测试驱动开发、多 Agent 分工、浏览器模拟反馈结合起来。

与 wenjun 研究方向的关系：

很适合作为 Code Agent RL 的环境设计参考：reward 不应只是单测通过，而要覆盖端到端用户行为、需求满足度、UI 状态与交互轨迹。

#1.7 AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

链接：arXiv:2605.16819 / HF Papers
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 16 May 2026
类别：Code Agent / Systems / Evaluation
一句话核心贡献：提出面向 GPU kernel 优化 Agent 的泛化感知评测，覆盖完整 agent workflow，而不只是单次 LLM kernel 生成。

为什么值得关注：

Kernel 优化是代码 Agent 的高价值硬核场景：需要读代码、调用编译器/Profiler、迭代修复和优化，还要在未见配置上泛化。这个 benchmark 比传统 coding benchmark 更能测 agentic loop。

与 wenjun 研究方向的关系：

可以作为“代码 Agent 环境 + 可验证 reward + 性能优化”的理想沙盒。相比 SWE-bench，kernel 场景 reward 更连续：正确性、latency、吞吐、硬件利用率都能构成训练信号。

#1.8 Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

链接：arXiv:2605.17672 / HF Papers
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 17 May 2026
类别：Latent Reasoning / Reasoning Model / Test-time Scaling / Systems
一句话核心贡献：针对 reasoning model 的“overthinking”问题，提出基于推理语义收敛而非仅答案置信度的一类 early-exit 思路。

为什么值得关注：

推理模型越来越依赖长 CoT，但并非越长越好。关键问题变成：模型什么时候已经稳定？答案级信号可能过早或过晚，而语义层面的 reasoning convergence 更接近“思考是否还在产生新信息”。

与 wenjun 研究方向的关系：

对 latent-space reasoning 很相关：如果能在隐藏态或语义轨迹上检测收敛，就可以把“思考预算控制”从 token 层提升到 state / representation 层。

#1.9 Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

链接：arXiv:2605.18549 / HF Papers
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 18 May 2026
类别：Latent Reasoning / Mechanistic Interpretability / Safety / Evaluation
一句话核心贡献：在 reasoning model 生成 CoT 的每个 token 上评估 probe，形成 probe trajectory，用隐藏表示动态预测未来行为，缓解 CoT 不忠实带来的监控问题。

为什么值得关注：

如果 CoT 不完全忠实，那么只读文本推理过程并不能可靠判断模型意图。probe trajectory 把监控对象转向 hidden representation 的时间演化，这对理解 reasoning dynamics 很重要。

与 wenjun 研究方向的关系：

这可以和 latent reasoning / 长轨迹 RL 结合：是否能用隐藏态 probe 作为 world model state、failure predictor 或 reward shaping 信号？比如提前判断 Agent 轨迹是否会失败，从而触发重新规划。

#1.10 Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

链接：arXiv:2605.14368 / HF Papers
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 14 May 2026
类别：Latent Reasoning / Foundation Model Architecture / Diffusion LM
一句话核心贡献：提出 DiHAL：用几何指标选择 diffusion-friendly 的 hidden-state interface，把 Transformer 低层前缀替换为 diffusion bridge，探索扩散应在语言模型哪里介入。

为什么值得关注：

连续扩散式语言模型常落后于自回归 Transformer，一个原因是 denoising 所在空间不适合语言恢复。DiHAL 的问题意识很关键：不要抽象地谈 diffusion LM，而要问具体接入哪一层 hidden state 最合理。

与 wenjun 研究方向的关系：

这和潜空间推理高度相关。一个自然延展是：不是让 diffusion 直接生成 token，而是让它在 latent state 中做 planning / refinement，再交给 AR decoder 输出。

#2. 其他值得扫读的论文

#2.1 Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

链接：arXiv:2605.14038
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 13 May 2026, revised 17 May 2026
类别：Tool-use / Evaluation / LLM Agent
一句话核心贡献：指出工具必要性不是模型无关属性，不同模型能力边界不同，因此需要 model-adaptive tool necessity 来揭示“知道但不会做/该用工具却不用”的 gap。

链接：arXiv:2605.16909
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 16 May 2026
类别：Tool-use / Multimodal Agent / Evaluation
一句话核心贡献：提出 MM-TOBench，评估真实专业工作流中的多模态输入理解、外部工具协调、中间产物检查与行动修正。

#2.3 CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

链接：arXiv:2605.16679
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 15 May 2026
类别：LLM Agent / Long-horizon Agent / Evaluation
一句话核心贡献：提出医疗运营长程 Agent benchmark，强调规则密集、多角色组合、多方交互对现有 Agent 的压力。

#2.4 AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents

链接：arXiv:2605.17933
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 18 May 2026
类别：LLM Agent / VLM Agent / Memory / Self-evolution
一句话核心贡献：提出 teacher-free 的视觉技能记忆，让 VLM Agent 避免把空间决策经验过度压缩成有损文本。

#2.5 NGM: A Plug-and-Play Training-Free Memory Module for LLMs

链接：arXiv:2605.16893
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 16 May 2026
类别：Memory / Context Compression / Foundation Model
一句话核心贡献：提出 N-gram Memory，作为无需训练、即插即用的显式查找式记忆模块，区别于依赖 learned memory embedding 的条件记忆。

#2.6 EndPrompt: Efficient Long-Context Extension via Terminal Anchoring

链接：arXiv:2605.14589
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 14 May 2026
类别：Context Compression / Long Context / Systems
一句话核心贡献：用短序列训练实现长上下文扩展，核心是通过 terminal anchoring 暴露长程相对位置距离，避免完整目标长度训练的二次成本。

#2.7 MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

链接：arXiv:2605.16865
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 16 May 2026
类别：Continual Learning / Knowledge Injection / Post-training
一句话核心贡献：针对 SFT 注入新知识时损伤预训练能力的问题，提出 external-teacher-free 的 mixed contextual self-distillation，降低目标分布偏移。

#2.8 Post-Trained MoE Can Skip Half Experts via Self-Distillation

链接：arXiv:2605.18643
来源：Hugging Face Daily Papers / arXiv
日期：Submitted on 18 May 2026
类别：Systems / MoE / Inference Efficiency / Self-distillation
一句话核心贡献：研究如何把已训练好的 MoE 转换为动态 MoE，让容易 token 跳过不必要专家，以降低推理成本。

#2.9 Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution

链接：arXiv:2605.15301
来源：Hugging Face Daily Papers 2026-05-18 / arXiv
日期：Submitted on 14 May 2026
类别：Code Agent / Self-evolving Agent / Continual Learning
一句话核心贡献：提出 agentic evolution 框架，让 LLM 在竞赛编程中沉淀以往解题和调试经验，而不是每题 stateless 地重新开始。

#2.10 MetaAgent-X: Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning

链接：arXiv:2605.14212 / GitHub: pettingllms-ai/PettingLLMs
来源：Hugging Face Daily Papers 2026-05-18 / arXiv / GitHub
日期：Submitted on 14 May 2026
类别：LLM Agent / Multi-Agent / Post-training RL
一句话核心贡献：尝试用端到端 RL 打破自动多智能体系统中“只优化 meta designer、执行 agent 冻结”的 ceiling。

#2.11 Look Before You Leap: Autonomous Exploration for LLM Agents

链接：arXiv:2605.16143
来源：Hugging Face Daily Papers 2026-05-18 / arXiv
日期：Submitted on 15 May 2026
类别：LLM Agent / Exploration / Evaluation
一句话核心贡献：提出 autonomous exploration 与 Exploration Checkpoint Coverage，用可验证指标衡量 Agent 在陌生环境中探索覆盖程度。

#2.12 Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

链接：arXiv:2605.14539
来源：Hugging Face Daily Papers 2026-05-18 / arXiv
日期：Submitted on 14 May 2026
类别：Post-training RL / RLVR / Reasoning Model
一句话核心贡献：针对 RLVR 稀疏二元奖励和信用分配弱的问题，利用失败轨迹中的可纠正信息构造更有效优化信号。

#2.13 Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

链接：arXiv:2605.15726
来源：Hugging Face Daily Papers 2026-05-18 / arXiv
日期：Submitted on 15 May 2026
类别：Post-training RL / RLVR / Exploration
一句话核心贡献：关注 RLVR 的探索瓶颈，用 strategy-guided exploration 避免单纯增加 rollout 数带来的高成本。

#2.14 Learning POMDP World Models from Observations with Language-Model Priors

链接：arXiv:2605.13740
来源：Hugging Face Daily Papers 2026-05-18 / arXiv
日期：Submitted on 13 May 2026
类别：Model-based RL / World Model / LLM Priors
一句话核心贡献：研究如何利用 language-model priors 从观察-动作轨迹学习 POMDP world model，降低纯交互学习世界模型的难度。

#2.15 Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces

链接：arXiv:2605.14786
来源：Hugging Face Daily Papers 2026-05-18 / arXiv
日期：Submitted on 14 May 2026
类别：LLM Agent / Browser Agent / Safety
一句话核心贡献：展示网站可以仅凭 UI 行为轨迹和交互时序识别底层 Agent 模型，提示 browser agent 的隐私和攻防风险。

#3. 今日最值得精读的 3 篇

Code as Agent Harness

理由：给代码智能和 Agent 环境设计提供统一框架，适合放进 wenjun 的长期研究地图。

AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

理由：直接针对 agentic LLM RL 的系统瓶颈；如果要做长轨迹 Agent RL / model-based RL，训练数据流和系统栈绕不开。

SkillsVote（若偏通用 Agent 记忆）或 MementoGUI（若偏 GUI/多模态长程 Agent）

理由：二者都触及“经验如何变成可复用能力”，这是 self-evolving Agent 和 agent 预训练数据的核心问题。

备选精读：Monitoring the Internal Monologue，如果今天更想看 latent reasoning / interpretability 机制。

#4. 今日最值得跟进的 repo / model / dataset

MemTensor/skills-vote

- 链接：https://github.com/MemTensor/skills-vote

- 关注点：Agent skill 的收集、推荐、演化流程是否可迁移到代码 Agent trajectory 数据治理。

pettingllms-ai/PettingLLMs

- 链接：https://github.com/pettingllms-ai/PettingLLMs

- 关注点：MetaAgent-X / Stronger-MAS 一类多智能体 RL 框架，适合看端到端训练 multi-agent workflow 的实现接口。

ZJU-REAL/SDAR

- 链接：https://github.com/ZJU-REAL/SDAR

- 关注点：GitHub 搜索中近期新建且已有较多 star 的 “Self-Distilled Agentic Reinforcement Learning” 官方代码，值得跟进其 agentic RL 数据、reward、self-distillation 设计。

补充可扫：zzzmyyzeng/MementoGUI（https://github.com/zzzmyyzeng/MementoGUI），目前 star 不多但与长程 GUI Agent 记忆直接相关。

#5. 研究机会 / idea

#Idea 1：把“Code as Harness”形式化成 Agentic RL 环境接口

问题：现在很多代码 Agent 只是把工具调用、测试、日志拼在一起，但缺少统一 MDP/POMDP 抽象。

可做方向：

state：repo snapshot + test history + issue spec + agent scratchpad；
action：edit / run test / search / create script / query docs；
transition：代码执行与环境状态变化；
reward：单测、端到端行为、性能、lint、安全约束；
model-based extension：训练一个 world model 预测测试结果、错误类型、修复收益，用于 imagination rollout。

这可以直接连接 wenjun 关注的 LLM model-based RL / Dreamer for LLM Agent。

#Idea 2：Agent skill 不是 prompt memory，而是“可执行数据单元”

问题：许多 memory 方法把经验压缩成文本，但代码 Agent 的真正经验往往是可执行脚本、测试模板、debug pattern、环境诊断命令。

可做方向：把 SkillsVote 类技能治理和 Code as Harness 结合，构造“executable skill bank”：

skill = 触发条件 + 脚本/patch 模板 + verifier + 失败模式；
训练目标不是单纯模仿轨迹，而是学会检索、组合、修改 skill；
reward 来自 skill 执行后的真实环境收益。

这比普通 RAG memory 更贴近 self-evolving code agent。

#Idea 3：用 hidden-state / probe trajectory 做长轨迹 Agent 的失败预警

问题：长程 Agent 的失败经常很晚才暴露，终局 reward 稀疏。

可做方向：借鉴 Monitoring the Internal Monologue，在每步 Agent 生成/工具调用前后训练 probe：预测未来是否会陷入循环、是否需要探索、是否应切换策略、是否需要调用工具。

这可以作为 RL 的 shaping signal 或 early intervention policy，连接 latent reasoning 与 long-horizon RL。

#6. 检索与可信度备注

本期候选主要来自 Hugging Face Papers 的 2026-05-19 与 2026-05-18 页面，并逐篇访问 arXiv 页面确认标题、摘要、日期、分类。
arXiv export.arxiv.org API 在关键词批量检索阶段返回 429，因此未使用 API 全量扫库；若后续 429 解除，可补一轮 cs.AI / cs.CL / cs.LG / cs.SE / stat.ML 的关键词检索。
GitHub 搜索受未认证 rate limit 限制，本期只做了少量关键词与论文名搜索；repo star 数只作为跟进优先级的弱信号，不代表论文质量。
X/Twitter 本期未做登录态检索，因此没有纳入 X 热点；已用 HF / arXiv / GitHub 替代。

#2026-05-20 AI/LLM 最新论文与研究热点简报

#0. 今日总判断

#1. 重点论文与动态详解

#1.1 Code as Agent Harness

#1.2 SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

#1.3 AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

#1.4 MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

#1.5 OProver: A Unified Framework for Agentic Formal Theorem Proving

#1.6 From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements

#1.7 AgentKernelArena: Generalization-Aware Benchmarking of GPU Kernel Optimization Agents

#1.8 Stop When Reasoning Converges: Semantic-Preserving Early Exit for Reasoning Models

#1.9 Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

#1.10 Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

#2. 其他值得扫读的论文

#2.1 Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

#2.2 TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

#2.3 CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

#2.4 AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents

#2.5 NGM: A Plug-and-Play Training-Free Memory Module for LLMs

#2.6 EndPrompt: Efficient Long-Context Extension via Terminal Anchoring

#2.7 MixSD: Mixed Contextual Self-Distillation for Knowledge Injection

#2.8 Post-Trained MoE Can Skip Half Experts via Self-Distillation

#2.9 Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution

#2.10 MetaAgent-X: Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning

#2.11 Look Before You Leap: Autonomous Exploration for LLM Agents

#2.12 Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

#2.13 Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR

#2.14 Learning POMDP World Models from Observations with Language-Model Priors

#2.15 Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces

#3. 今日最值得精读的 3 篇

#4. 今日最值得跟进的 repo / model / dataset

#5. 研究机会 / idea

#Idea 1：把“Code as Harness”形式化成 Agentic RL 环境接口

#Idea 2：Agent skill 不是 prompt memory，而是“可执行数据单元”

#Idea 3：用 hidden-state / probe trajectory 做长轨迹 Agent 的失败预警

#6. 检索与可信度备注