Tag Archive
标签:code RL
这里整理所有带有「code RL」标签的文章,方便按主题快速回看。
首页
每日调研
论文精读
主题归档
实验分析
复现指南
code RL
共 1 篇
论文精读 · 2026-06-08
MiMo-7B 训练过程详解:一个 7B 推理模型是怎样从预训练到 RL 被“养出来”的
详细拆解小米 MiMo-7B 技术报告中的训练流程:推理导向预训练、MTP 架构、SFT 冷启动、可验证数学/代码 RL、test-difficulty reward、dynamic sampling 与 Seamless Rollout Engine。
MiMo-7B
reasoning model
pretraining
reinforcement learning
GRPO
code RL