详细解释 Meta 提出的 Mixture-of-Transformers(MoT)架构:它为什么不是普通 MoE,怎样按模态解耦 Transformer 参数、保留全局自注意力,以及为什么能显著降低多模态预训练 FLOPs 和 wall-clock time。
以 LUFFY 为锚点,梳理 reasoning SFT 中 teacher trace 与 student policy 分布错配的问题,以及后续沿 RLVR、OPD、backtracking、agent step-wise distillation 等方向形成的研究现状。
用统一的动力系统视角解释 Flow Matching 与 Diffusion:ODE 视角把生成理解为确定性速度场搬运概率分布,SDE 视角把 diffusion 理解为带噪声的随机粒子系统,而“场”的视角则把两者统一为概率密度在空间中的连续流动。Flow Matching 直接学习速度场,Diffusion 先构造随机扩散再学习反向 score,两者最终可通过 probability flow ODE 连接起来。
深度梳理 LLM 中 reflection、search trace、backtracking 与 test-time compute 的研究线:为什么错误轨迹有时有价值,什么时候回退有效,为什么直接 SFT 反思文本不等于学会搜索,以及这条线对 LLM Agent / Code Agent 的启发。
梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题,以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。
系统梳理 DPO 从 RLHF/PPO 替代方案到偏好优化基础组件的发展脉络,分析 IPO、KTO、ORPO、SimPO、Step-DPO、Online DPO 等后续路线,以及 DPO 在 reasoning 与 LLM Agent 场景中的核心瓶颈。
系统梳理 LLM 指令遵循从 prompt、多任务指令微调、RLHF、合成指令数据,到复杂约束评测、指令层级、prompt injection 与 agent 行动合规的发展脉络,并分析当前未解问题与研究机会。
系统梳理 think/reasoning 模型 SFT 与传统 instruction SFT 的差异,分析 DeepSeek-R1、s1、LIMO、STILL-2、Sky-T1、OpenThoughts、Qwen3 等代表工作,并讨论 long-CoT SFT、cold-start、蒸馏、verifier、RLVR、test-time compute 与 latent reasoning 的关系。