★★★★★ · 主题归档 · 2026-06-14
从不动点方程、压缩映射、采样估计、分布漂移和三重耦合出发,用小白能听懂的方式解释强化学习为什么比监督学习难。
★★★★★ · 主题归档 · 2026-06-14
用小白能听懂的方式拆解 V777 关于强化学习的知乎回答:对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC,以及这套叙事对 LLM Agent 的启发。
★★★★★ · 论文精读 · 2026-06-14
详细解读 τ0-WM 这篇机器人操作论文:它如何把 Video Action Model 和 Action-Conditioned Video Simulator 统一到一个视频-动作世界模型里,用异构数据训练,并在测试时通过候选动作筛选、未来模拟和动作修正提升长程操作成功率。
★★★★★ · 论文精读 · 2026-06-13
这篇论文用纤维丛、商空间、同胚等拓扑概念解释一个直觉:视觉理解不是记住像素,而是把许多外观变化压缩成少量稳定语义;这种压缩需要外部语义目标和能做“展开—咔哒归类”的模型结构。
★★★★★ · 主题归档 · 2026-06-11
从 CoT、Self-Consistency、Verifier、ToT/ReAct/Reflexion 到 Stream of Search、Self-Backtracking 与 RL 长 CoT,梳理大模型“反思”和长推理能力到底是什么、哪里有效、哪里会失效,以及未来如何提升。