Tag Archive

标签:post-training

这里整理所有带有「post-training」标签的文章,方便按主题快速回看。

post-training

共 2 篇
主题归档 · 2026-05-14

大语言模型 Adaptive Thinking:从“会思考”到“知道该想多久”

梳理大语言模型 Adaptive Thinking / reasoning effort / thinking budget 的主流做法、think/no-think 开关机制、训练与推理控制路径,以及当前研究机会。
LLMadaptive-thinkingreasoningtest-time-computepost-training
主题归档 · 2026-05-06

大模型预训练与 Mid-training 数据的差距:阶段定位、数据配方与准备方法

系统梳理大模型训练中 pretraining 与 mid-training 的定位差异:预训练数据负责建立通用语言、知识与表征底座,mid-training 数据则作为从通用预训练分布到后训练目标分布的桥梁,面向数学、代码、QA、长上下文、指令与推理等能力做高质量、低比例、强评估闭环的阶段性注入。
LLMpretrainingmid-trainingdata curationpost-trainingfoundation modelOLMoLlama