主题归档 · 2026-05-16
系统梳理大模型 On-Policy Distillation 的定义、经典工作、发展逻辑、方法谱系与当前开放问题。
主题归档 · 2026-04-30
对罗福莉长访谈的技术观点提炼:AI 正从 Chat/Pre-train 主导转向 Agent/Post-train 主导,胜负焦点变为模型、Agent 框架、长上下文、RL Infra 与群体智能的协同演化。
主题归档 · 2026-04-30
数学与代码能力确实存在迁移,但不是简单对称迁移:代码更像形式化执行与工具使用的底座,常常更强地反哺数学;数学数据更强地提升抽象推理与可验证训练信号,对代码的提升依赖任务形态与训练阶段。