★★★★★ · 主题归档 · 2026-06-15
系统梳理 DPO 从 RLHF/PPO 替代方案到偏好优化基础组件的发展脉络,分析 IPO、KTO、ORPO、SimPO、Step-DPO、Online DPO 等后续路线,以及 DPO 在 reasoning 与 LLM Agent 场景中的核心瓶颈。
★★★★★ · 主题归档 · 2026-06-14
从不动点方程、压缩映射、采样估计、分布漂移和三重耦合出发,用小白能听懂的方式解释强化学习为什么比监督学习难。
★★★★★ · 主题归档 · 2026-06-14
用小白能听懂的方式拆解 V777 关于强化学习的知乎回答:对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC,以及这套叙事对 LLM Agent 的启发。
★★★★★ · 论文精读 · 2026-06-14
详细解读 τ0-WM 这篇机器人操作论文:它如何把 Video Action Model 和 Action-Conditioned Video Simulator 统一到一个视频-动作世界模型里,用异构数据训练,并在测试时通过候选动作筛选、未来模拟和动作修正提升长程操作成功率。
★★★★★ · 论文精读 · 2026-06-13
这篇论文用纤维丛、商空间、同胚等拓扑概念解释一个直觉:视觉理解不是记住像素,而是把许多外观变化压缩成少量稳定语义;这种压缩需要外部语义目标和能做“展开—咔哒归类”的模型结构。