Tag Archive

标签：code RL

这里整理所有带有「code RL」标签的文章，方便按主题快速回看。

code RL

共 1 篇

论文精读 · 2026-06-08

详细拆解小米 MiMo-7B 技术报告中的训练流程：推理导向预训练、MTP 架构、SFT 冷启动、可验证数学/代码 RL、test-difficulty reward、dynamic sampling 与 Seamless Rollout Engine。