★★★★★ · 论文精读 · 2026-06-26
这篇论文把 Agent 的交互环境本身建模成一个语言世界模型:既可以作为可控模拟器给 Agent 做 RL,也可以作为 Agent 的预训练 warm-up,让模型在行动前学会预测下一步环境反馈。
★★★★★ · 主题归档 · 2026-06-24
Agents' Last Exam 试图把 Agent 评测从知识问答和短交互推进到真实职业工作流、长时程执行和可验证交付物。
★★★★★ · 论文精读 · 2026-06-23
详解 arXiv 2606.09828v1:Mirage 如何用 latent spatial memory 替代 RGB 点云缓存,让视频世界模型在保持 3D 一致性的同时显著降低速度和显存开销。
★★★★★ · 论文精读 · 2026-06-21
"详解 arXiv 2606.17024:ExpRL 如何用参考解答构造 dense reward,解决稀疏奖励 RL 在硬题上的探索覆盖不足问题。"
★★★★★ · 主题归档 · 2026-06-21
从 GRPO 到 GIGPO、HGPO,解释为什么长轨迹 Agent RL 需要从整条轨迹奖励走向分层、上下文一致的步级优势估计。