★★★★★ · 论文精读 · 2026-06-17
详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
★★★★★ · 主题归档 · 2026-06-17
详细解释 Meta 提出的 Mixture-of-Transformers(MoT)架构:它为什么不是普通 MoE,怎样按模态解耦 Transformer 参数、保留全局自注意力,以及为什么能显著降低多模态预训练 FLOPs 和 wall-clock time。
★★★★★ · 论文精读 · 2026-06-17
详解 VibeThinker-3B 技术报告:如何用 Spectrum-to-Signal 后训练范式、multi-domain RL、offline self-distillation 与 claim-level test-time scaling,把 3B dense 小模型推到数学和代码等可验证推理任务的一线性能区间。
★★★★★ · 主题归档 · 2026-06-17
以 LUFFY 为锚点,梳理 reasoning SFT 中 teacher trace 与 student policy 分布错配的问题,以及后续沿 RLVR、OPD、backtracking、agent step-wise distillation 等方向形成的研究现状。
★★★★★ · 主题归档 · 2026-06-17
用统一的动力系统视角解释 Flow Matching 与 Diffusion:ODE 视角把生成理解为确定性速度场搬运概率分布,SDE 视角把 diffusion 理解为带噪声的随机粒子系统,而“场”的视角则把两者统一为概率密度在空间中的连续流动。Flow Matching 直接学习速度场,Diffusion 先构造随机扩散再学习反向 score,两者最终可通过 probability flow ODE 连接起来。