Tag Archive

标签:后训练

这里整理所有带有「后训练」标签的文章,方便按主题快速回看。

后训练

共 2 篇
主题归档 · 2026-04-30

从罗福莉访谈看 Agent 时代的技术范式迁移:后训练、长上下文、框架自进化与研究机会

对罗福莉长访谈的技术观点提炼:AI 正从 Chat/Pre-train 主导转向 Agent/Post-train 主导,胜负焦点变为模型、Agent 框架、长上下文、RL Infra 与群体智能的协同演化。
LLM Agent后训练OpenClaw长上下文代码智能自进化智能组织与科研
主题归档 · 2026-04-30

数学数据能提升代码能力吗?代码数据能反哺数学推理吗?

数学与代码能力确实存在迁移,但不是简单对称迁移:代码更像形式化执行与工具使用的底座,常常更强地反哺数学;数学数据更强地提升抽象推理与可验证训练信号,对代码的提升依赖任务形态与训练阶段。
LLM数学推理代码智能预训练后训练数据配比RLVR