#预训练数据能否像人类教育一样组织?Curriculum Learning、数据混合与 Developmental Pretraining 研究脉络
#0. 一句话结论
有现有研究支撑这个方向,但目前证据更支持“软课程 / 动态数据混合 / 高质量教育型数据 / 发展式预训练”,而不是简单地把数据硬排序为“小学 → 初中 → 高中 → 大学”。
你的想法可以放在一个更大的研究问题里:
LLM 预训练是否应该从固定随机混合,走向依据数据难度、概念依赖、模型当前能力和训练阶段动态调度的数据课程?
现有研究给出四类支撑:
- 经典 Curriculum Learning 证明“从易到难”可以改善优化路径与泛化,但大多不是 LLM 预训练规模。
- NLP/NMT 的 competence-based curriculum 证明基于模型能力增长逐步开放更难数据,能减少训练时间、提升效果。
- BabyLM / TinyStories / Textbooks Are All You Need 说明“发展式、儿童式、教材式、高质量合成数据”能显著提高小模型数据效率。
- DoReMi / Online Data Mixing / Irreducible Curriculum / Beyond Random Sampling 等工作开始直接研究 LLM 预训练中的数据混合、数据顺序和样本可学习性,说明预训练数据不是只要随机混合就够了。
但也有一个冷静判断:
对现代 LLM 来说,“人类年级”只是一个弱难度信号。真正可研究的是如何把年级、概念依赖、模型 loss、数据质量、结构复杂度、推理深度和下游能力联系起来,形成可扩展的数据调度机制。
#1. 你的想法属于哪条研究线?
你提出的是:
按照人类学习方式组织预训练数据:
一年级 → 二年级 → 三年级 → 小学 → 初中 → 高中 → 大学
用难度递进达到最高效的数据课程学习效果
这在机器学习里对应几个关键词:
- Curriculum Learning:课程学习,从易到难训练。
- Self-Paced Learning:自步学习,让模型先学自己当前能学会的样本。
- Competence-Based Curriculum:基于模型能力增长逐渐开放更难样本。
- Data Curriculum / Data Ordering:训练数据顺序设计。
- Data Mixture Optimization:不同数据域采样比例优化。
- Developmentally Plausible Pretraining:更接近人类儿童输入和发展阶段的预训练。
- Textbook-quality Data:教材式、高解释性、高密度、低噪声数据。
如果用一句研究化表达,可以写成:
Developmental Curriculum for LLM Pretraining:根据人类教育顺序、概念依赖图、数据结构复杂度和模型当前能力,动态组织预训练数据,以提高样本效率、能力形成质量和跨领域迁移。
这个表述比“按年级排序”更强,因为它允许年级只是一个信号,而不是唯一原则。
#2. 第一阶段:经典 Curriculum Learning——“从易到难”为什么可能有用?
#2.1 Bengio et al. 2009:Curriculum Learning
经典起点通常追溯到 Bengio 等人的 Curriculum Learning。核心思想是:
训练样本的呈现顺序会影响优化过程;从简单样本开始,再逐渐引入复杂样本,可能让模型进入更好的参数区域。
它解决的是传统随机训练的一个问题:
- 一开始就把所有难样本、噪声样本、长尾样本混在一起,优化信号可能非常混乱;
- 简单样本可以提供更稳定的梯度,让模型先形成基础表示;
- 随后逐渐增加难度,可以提升泛化和收敛效率。
这和你说的人类学习顺序非常接近:
先学基本字词和运算
再学复杂句法、方程、函数、证明、专业知识
不过,Bengio 这条线的早期实验主要在较小任务上,不直接等同于 LLM 预训练。它提供的是原则层支撑:数据顺序可能改变学习动态。
#2.2 Self-Paced Learning:从“人给课程”到“模型自己决定难度”
Kumar, Packer & Koller 的 Self-Paced Learning 进一步提出:不是固定一个人类设计的课程,而是让模型从当前容易学的样本开始,再逐步纳入更难样本。
这和你的想法有一个关键差别:
- 人类年级 curriculum 是外部定义的难度;
- self-paced curriculum 是模型当前状态定义的难度。
对于 LLM,这一点很重要,因为:
人类觉得难的数据,不一定是模型觉得难;模型 loss 高的数据,也不一定是真正有教学价值,可能只是脏数据。
因此,未来更好的方向可能不是纯人类年级排序,而是:
人类教育难度 + 模型当前 loss/learnability + 数据质量过滤
#3. 第二阶段:NLP/NMT 中的课程学习——“模型能力增长曲线”比硬排序更稳
#3.1 Platanios et al. 2019:Competence-based Curriculum Learning for NMT
NMT 里的代表工作是 Competence-based Curriculum Learning for Neural Machine Translation。它提出一个很有启发的思路:
不要一次性给模型所有训练样本,而是根据训练进度定义模型 competence,逐渐扩大可见数据范围。
直观地说,模型一开始只接触较容易的句子;随着训练推进,模型“能力”提升,再逐渐加入更长、更复杂、更难的句子。
它的重要性在于:
- 课程不是硬切阶段,而是逐渐扩大数据分布;
- 难度可以由句长、词频、模型困惑度等定义;
- 目标不是模拟学校年级,而是匹配模型当前学习能力。
这对 LLM 预训练非常有启发:
不是 0-10% steps 只看小学数据,10-20% steps 只看初中数据;
而是基础数据从高权重开始,复杂数据逐步升权,同时保留混合 replay。
也就是软课程而不是硬课程。
#3.2 Multilingual NMT:不同语言也有不同“学习能力阶段”
后续还有 multilingual NMT 的 competence-based curriculum,用模型对不同语言的学习能力来缓解多语言训练中的不平衡问题。这和 LLM 数据混合很像:
- 不同语言、领域、难度的数据不是同等容易;
- 固定比例混合可能让模型过早或过度拟合某些数据域;
- 动态调度可以减少低资源/高难度领域被淹没的问题。
这条线提供了一个重要抽象:
课程学习不只是“样本从易到难”,也可以是“领域、语言、技能、任务的学习节奏控制”。
#4. 第三阶段:BabyLM 与发展式预训练——更接近人类输入是否更高效?
你的想法和 BabyLM 非常接近。BabyLM Challenge 的核心问题是:
儿童可以用少于 1 亿词的输入学会语言,而 LLM 往往需要大几个数量级的数据。能不能用更 developmentally plausible 的数据和训练方式提高样本效率?
#4.1 BabyLM Challenge:少数据、儿童式输入、发展合理性
BabyLM 关注 sample-efficient pretraining,强调用更接近儿童语言输入的数据来训练小模型。2025 年的 BabyLM 总结论文明确把问题放在“developmentally plausible corpora”上:儿童输入远少于 LLM 训练数据,因此需要研究更高效的数据选择与训练方式。
这对你的想法的支撑是:
- “人类学习顺序/输入分布”不是纯直觉,已经成为一个研究 benchmark;
- 研究者确实在探索更像人类发展过程的数据组织;
- 但 BabyLM 主要关注语言获得,不是完整 LLM 预训练,也不是数学/科学/代码年级体系。
#4.2 Lil-Bevo:短序列先于长序列
BabyLM 相关工作 Lil-Bevo 使用了一些更“人类式”的策略,例如:
- 先训练较短序列,再训练较长序列;
- 使用音乐数据预训练;
- 针对特定语法现象设计 mask。
它发现:短序列训练比长序列训练更好一些,但收益有限,说明发展式训练有一定信号,但不是简单套用就一定大幅提升。
这对你的想法是一个很好的提醒:
curriculum 的方向是合理的,但具体 curriculum 设计非常敏感;不是只要像人类就一定更好。
#4.3 Developmentally plausible curriculum 与人类阅读行为对齐
还有工作研究用 developmentally plausible data curriculum 训练语言模型,是否能更好对齐人类阅读行为。它们发现有一些 tentative evidence:先用 BabyLM 数据课程再随机训练,可能让模型更容易获得语法知识。
这类工作说明:
发展式数据顺序可能不仅影响 loss,还可能影响模型内部语言知识获得路径和人类行为对齐。
这和你关心的“能力形成机制”高度相关。
#5. 第四阶段:TinyStories / Textbooks Are All You Need——教材式数据比随机网页更高效
你的想法中有一个隐含假设:人类教育数据之所以有效,不只是因为顺序,还因为它是“教学型”的。
这条线最直接的证据来自 TinyStories 和 phi 系列。
#5.1 TinyStories:儿童词汇与简单故事让小模型也能学会连贯语言
TinyStories 构造了只包含 3-4 岁儿童通常理解词汇的短故事数据。它发现很小的语言模型也能生成相当连贯的英文故事。
这说明一个重要事实:
数据分布如果被限制在合适复杂度、合适概念范围、合适风格上,小模型也能学到看似需要大模型才会出现的能力。
对你的想法而言,这不是“年级排序”的直接证明,但它强烈支持:
- 数据难度可以被设计;
- 儿童式/低复杂度数据可以作为基础能力训练场;
- 高质量、低噪声、概念清晰的数据能提升样本效率。
#5.2 Textbooks Are All You Need / phi-1:教材式代码数据提升小模型代码能力
Textbooks Are All You Need 训练 phi-1,用的是高质量 textbook-like 代码数据和合成练习。1.3B 模型在 HumanEval 和 MBPP 上取得了很强效果。
这个工作对你想法很关键,因为它说明:
对代码模型来说,教材式数据 + 练习题式数据,比随机代码网页更像“有效学习材料”。
这背后的机制可能是:
- 教材数据解释性强;
- 概念组织更清楚;
- 例题和练习构成隐式 curriculum;
- 合成数据可以覆盖基础概念到复杂组合。
#5.3 phi-1.5:从代码 textbook 到自然语言 reasoning textbook
phi-1.5 继续沿用 textbook-quality data 思路,面向 common sense reasoning 和自然语言能力。它报告 1.3B 模型在自然语言任务上可与更大模型比较,并在 grade-school mathematics 和 basic coding 上表现突出。
这说明“教材式预训练”不是代码领域特例,而可能是小模型高效学习的一般路线。
对你的想法,可以这样理解:
真正有价值的不只是把数据排成小学、初中、高中,而是构造一种“概念清晰、解释充分、例题递进、练习覆盖”的 textbook curriculum。
#6. 第五阶段:数据混合优化——LLM 预训练已经在从固定配比走向动态调度
现代 LLM 预训练通常不是简单把所有数据随机混在一起,而是需要设计 data mixture:网页、书籍、代码、数学、论文、百科、问答、论坛等各占多少比例。
这与 curriculum 的关系是:
- Data mixture 关注“采多少”;
- Curriculum 关注“什么时候采、按什么顺序采”;
- 动态 data mixture 就是 curriculum 的一种现代形式。
#6.1 DoReMi:自动优化数据域比例
DoReMi (Optimizing Data Mixtures Speeds Up Language Model Pretraining) 证明预训练数据域比例显著影响模型表现。它用小 proxy model 通过 Group DRO 学出不同数据域的权重,再用于训练大模型。
关键结果包括:
- 在 The Pile 上改善多个 domain 的 perplexity;
- 下游 few-shot 平均准确率比默认配比提升;
- 达到 baseline 准确率所需训练步数减少,报告约 2.6x fewer training steps。
这对你的想法的意义是:
数据组织不是细枝末节;不同领域数据的采样比例可以显著改变训练效率和最终能力。
但 DoReMi 主要优化的是领域配比,不是人类年级式难度顺序。它支撑的是更广义的结论:预训练数据分布应被优化,而不是默认随机。
#6.2 Online Data Mixing:训练中动态调整数据比例
Efficient Online Data Mixing for Language Model Pre-Training 进一步指出,固定的数据混合比例不能适应训练动态。它用 multi-armed bandit 思路在训练中优化数据混合比例。
这更接近你的想法,因为 curriculum 本质上就是:
training step t 的数据分布 p_t(d) 不应固定
ODM 的结果显示,在线数据混合可以用更少训练完成相同 perplexity,说明动态调度有实际价值。
#6.3 Data Mixing Laws:数据配比可能存在可预测规律
近期关于 data mixing laws 的工作尝试建立不同数据源比例、模型规模、训练 token 和下游能力之间的规律。这类工作虽然不一定直接研究 curriculum,但它们把问题推进到一个更基础层面:
能否像 scaling law 一样,为 data mixture 建立可预测的规律?
如果未来要做“年级式数据课程”,也需要类似规律:
不同难度桶在不同训练阶段的最优比例是什么?
基础数据是否应该递减?
高级数据何时开始升权?
不同模型规模的 curriculum 是否不同?
#7. 第六阶段:直接面向 LLM 预训练的数据顺序与课程研究
最近几年已经开始出现更直接研究 LLM pretraining curriculum 的工作。
#7.1 Irreducible Curriculum for Language Model Pretraining
Irreducible Curriculum for Language Model Pretraining 指出:为大语言模型做自动数据选择和 curriculum 很难,现有方法多集中在 domain-level,忽略单个训练样本的细粒度贡献。
它提出 prioritizing samples with higher learnability:优先选择更“可学习”的样本。为了避免对大模型做昂贵的在线样本选择,它用小 proxy model 模拟主模型训练轨迹上的 sample loss。
这个工作对你的想法非常关键:
它不是用人类年级定义难度,而是用“learnability”定义训练价值。
这给出一个很强的升级方向:
年级难度只是 curriculum 的一个显式先验;
真正的采样权重应结合样本在当前模型阶段的可学习性。
它也提醒我们:
- 最难样本不一定最好;
- 最简单样本也不一定最有用;
- 最有教学价值的可能是模型“刚好能学会”的样本。
这和 Vygotsky 的“最近发展区”很像。
#7.2 Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning
2025 年的 Beyond Random Sampling 更直接研究 LLM 预训练中的 curriculum。根据其公开摘要,它训练了 200+ 个模型、最多 100B tokens,对比 vanilla curriculum、pacing-based sampling、interleaved curricula,并使用六种 difficulty metrics,包括语言学和信息论角度的指标。
其主要结论包括:
- curriculum learning 在早期和中期训练阶段能稳定提升收敛;
- 作为 warmup 使用时可能带来持久收益,公开摘要中提到最高约 3.5% improvement;
- compression ratio、lexical diversity、readability 等难度信号比较有效。
这几乎是对你想法的直接支撑:
数据顺序确实可以影响 LLM 预训练效率;但有效难度信号未必是人类年级,而可能是可压缩性、词汇多样性、可读性等模型相关指标。
#7.3 Curriculum-Guided Layer Scaling
Curriculum-Guided Layer Scaling for Language Model Pretraining 从另一个角度借鉴认知发展:人类随着成长逐渐构建知识,大脑也在发育;模型训练是否也可以逐渐扩展模型结构?
它不只是数据 curriculum,而是把 curriculum 和模型层数增长结合。这个方向说明:
发展式预训练可以同时作用于数据难度、模型容量和训练目标,而不必只在数据排序上做文章。
这对长期方向很有启发:如果你想做 foundation model training mechanism,可以把 curriculum 扩展成:
数据复杂度 schedule
上下文长度 schedule
模型容量 schedule
任务/verifier schedule
工具使用 schedule
#8. 第七阶段:序列组织也是课程——不是只排文档,还要排上下文
你的想法主要关注“数据难度顺序”,但 LLM 预训练还有一个经常被忽略的问题:sequence composition。
#8.1 Analysing the Impact of Sequence Composition on LM Pre-Training
这篇工作指出,常见预训练会把多个文档拼接进固定长度序列,然后用 causal masking 预测 token。但这种做法可能让模型在预测一个文档时看到前一个无关文档,形成 distracting information。
它提出 intra-document causal masking,以及 BM25Chunk 这种把相关文档拼在一起的方法,报告能改善 in-context learning、knowledge memorisation 和 context utilisation。
这和你的想法的关系是:
数据组织不只是全局难度排序,也包括局部上下文如何组织。把相关概念、前置材料、例题和练习放在同一个上下文里,可能比随机拼接更像人类学习。
如果做“年级式 LLM 预训练”,不能只控制文档顺序,还要控制:
一个训练 sequence 内部是否概念连贯?
是否先给定义再给例子?
是否先给简单题再给变式题?
是否把相关知识组织在相邻上下文中?
这可能是比全局排序更可操作的方向。
#9. 第八阶段:Instruction Curriculum 与复杂度进化
虽然你的问题是预训练,但后训练中的 curriculum 也提供了很强的旁证。
#9.1 WizardLM / Evol-Instruct
WizardLM 提出 Evol-Instruct:从简单 instruction 出发,逐步重写成更复杂 instruction。它发现复杂 instruction fine-tuning 能显著提升模型 follow complex instructions 的能力。
这说明:
训练数据的复杂度不是静态属性,可以被生成和演化;从简单任务逐步进化到复杂任务,是有效的后训练数据构造方法。
#9.2 WizardCoder
WizardCoder 把 Evol-Instruct 迁移到代码领域,用复杂代码 instruction fine-tuning 强化 Code LLM,在 HumanEval、MBPP、DS-1000 等 benchmark 上取得强表现。
对你的预训练想法而言,Evol-Instruct 提供了一个可借鉴机制:
不是只收集现成小学/初中/大学数据,
而是让模型/规则自动生成“难度递进”的教材、例题、变式题、代码任务。
未来可以做:
Evol-Textbook
Evol-Math-Curriculum
Evol-Code-Curriculum
Evol-Agent-Curriculum
#10. 这些工作对“按年级组织预训练数据”的支持程度
可以把证据分成三层。
#10.1 强支持:数据质量、数据混合、数据顺序确实重要
强证据包括:
- DoReMi:数据域比例显著影响预训练效率和下游能力;
- Online Data Mixing:训练中动态调整比例有效;
- Textbooks Are All You Need:教材式高质量数据对小模型极有效;
- TinyStories:低复杂度儿童式数据可让小模型学会连贯语言;
- Beyond Random Sampling:LLM 预训练 curriculum 可改善早中期收敛,并可能带来持久收益。
这说明你的大方向是成立的:
预训练数据不是越随机越好;组织方式、质量、难度和采样节奏都重要。
#10.2 中等支持:人类发展顺序可能有帮助
BabyLM、developmentally plausible curriculum、短序列先训练等工作说明:
- 更接近人类儿童输入的数据值得研究;
- 先短后长、先简单后复杂可能有收益;
- 但效果通常不是压倒性的,且依赖具体设计。
这说明“人类年级顺序”可以作为 hypothesis,但不是已经被大规模证明的 recipe。
#10.3 弱支持 / 待验证:严格“小学 → 初中 → 高中 → 大学”硬排序
目前还缺少强证据证明:
对大规模 LLM 预训练,严格按人类年级硬排序
一定优于随机混合或动态混合
原因包括:
- 人类年级难度不等于模型难度;
- LLM 的 next-token prediction 和人类课堂学习不同;
- 硬切换可能导致 distribution shift;
- 后期可能遗忘基础数据;
- 现代预训练通常需要稳定覆盖最终分布。
所以更稳的判断是:
年级式 curriculum 是一个很好的先验,但需要改造成软调度、动态调度和概念图调度。
#11. 技术分类:这个方向可以拆成哪些路线?
| 路线 | 核心问题 | 代表工作/方向 | 对你的想法的启发 |
|---|---|---|---|
| 经典 Curriculum | 从易到难是否改善优化? | Bengio 2009 | 数据顺序会影响学习动态 |
| Self-Paced | 模型应先学当前能学的样本吗? | Kumar et al. 2010 | 难度应随模型状态变化 |
| Competence-based | 如何随训练进度开放更难样本? | Platanios 2019 | 用软课程替代硬排序 |
| Developmental LM | 儿童式输入是否提高样本效率? | BabyLM, Lil-Bevo | 人类发展输入可作为研究基准 |
| Textbook Data | 教材式数据是否更高效? | TinyStories, phi-1/1.5 | 高质量教育数据比随机网页更像“学习材料” |
| Data Mixture | 哪些领域该采多少? | DoReMi, ODM | curriculum 可以视为时间变化的数据混合 |
| Learnability Curriculum | 哪些样本在当前阶段最有教学价值? | Irreducible Curriculum | 年级难度应结合可学习性 |
| LLM Pretraining Curriculum | 预训练中难度排序是否有效? | Beyond Random Sampling | 开始有直接证据支持 LLM 预训练课程学习 |
| Sequence Composition | 训练上下文内部如何组织? | BM25Chunk, intra-document masking | 学习材料应概念连贯,而非随机拼接 |
| Instruction Complexity | 后训练任务复杂度如何进化? | Evol-Instruct, WizardCoder | 可自动生成难度递进任务 |
#12. 对你的想法,最推荐的研究表述
不建议把 proposal 写成:
我们按照小学、初中、高中、大学顺序喂数据。
这太容易被质疑:人类年级不等于模型难度,而且硬排序未必稳定。
更推荐写成:
我们研究 LLM 预训练中的 Developmental Data Curriculum:根据教育体系中的概念先修关系、文本结构复杂度、模型当前可学习性和下游能力需求,动态调度不同难度与领域的数据,使模型先建立基础表示,再逐步学习组合推理、专业知识和工具化能力。
这样就把想法从“人类类比”提升为一个可实验验证的机制问题。
#13. 可以如何设计实验?
#13.1 数据构造
选一个可控领域,比如数学或代码。
数学可以分成:
D1: 小学算术、基础应用题
D2: 初中代数、几何、方程
D3: 高中函数、概率、数列、立体几何
D4: 大学微积分、线代、离散数学
D5: 竞赛数学、证明题、形式化证明
代码可以分成:
C1: 变量、表达式、条件、循环
C2: 函数、数组、字符串、基础数据结构
C3: 算法题、递归、动态规划、图算法
C4: 工程代码、API、测试、debug
C5: repo-level issue、agentic coding trajectory
#13.2 训练组设计
必须控制变量,用同一批数据对比不同顺序:
| 组别 | 数据顺序 |
|---|---|
| Random Mix | 全程随机混合 |
| Hard Curriculum | D1 → D2 → D3 → D4 → D5 |
| Soft Curriculum | D1 高占比起步,D5 逐步升权,始终混合 replay |
| Anti-Curriculum | D5 → D4 → D3 → D2 → D1 |
| Dynamic Curriculum | 根据 loss / learnability / eval 动态调权 |
| Concept Graph Curriculum | 按概念依赖开放数据 |
关键是不要只和“低质量随机网页”比较,否则会把 curriculum 效果和数据质量效果混在一起。
#13.3 评估指标
不能只看 loss。要看能力形成:
训练 loss / validation loss
GSM8K / MATH / OlympiadBench
HumanEval / MBPP / APPS / CodeContests
变量绑定 probe
长程依赖 probe
组合泛化 probe
checkpoint emergence curve
OOD generalization
特别重要的是 checkpoint 曲线:
curriculum 是否让某些能力更早出现?最终是否仍然更强?还是只是 early loss 更快?
#13.4 最有研究价值的观测
可以重点看:
- soft curriculum 是否优于 hard curriculum;
- dynamic curriculum 是否优于固定年级顺序;
- 人类年级难度和模型 loss 难度是否一致;
- curriculum 是否提升推理/迁移,而不只是 perplexity;
- 基础数据 replay 对防止遗忘是否必要;
- 不同模型规模是否需要不同 curriculum。
#14. 我对这个方向的研究判断
这个方向值得做,但不要把它定位成“模仿人类教育”这么简单。更本质的问题是:
数据的时间结构是否是 foundation model 能力形成的一阶变量?
当前 scaling law 主要讨论:
模型参数
训练 token
计算量
数据质量
但对数据“顺序”和“发展结构”关注还不够。你的想法可以切入这个空白:
同样 token,总量不变,顺序和采样节奏改变,能力是否改变?
如果答案是肯定的,它会影响基础模型训练范式:从静态数据配比走向动态课程调度。
我认为最值得探索的是三条线:
#14.1 人类教育先验 + 模型可学习性
不要只按年级,也不要只按 loss,而是二者结合:
difficulty = f(education_level, concept_prerequisite, model_loss, data_quality, structural_complexity)
#14.2 Curriculum for reasoning, not just language modeling
普通文本 loss 可能看不出推理收益。应该重点看:
数学推理
代码推理
工具使用
长程任务
agentic trajectory
这些能力更可能受课程影响。
#14.3 从数据 curriculum 走向环境 curriculum
对 Agent 来说,未来不是简单文本顺序,而是:
单步任务 → 多步任务 → 工具调用 → 调试 → 长程项目 → 自主探索
这和你关心的 agentic RL / self-evolving code agent 很接近。真正的课程可能不是文档 curriculum,而是环境 curriculum。
#15. 最终结论
现有研究总体支持你的大方向:
- 课程学习有经典理论和实验基础,从易到难可能改善优化路径。
- NLP/NMT 已验证 competence-based curriculum 有效,说明模型能力增长曲线可用于数据调度。
- BabyLM/TinyStories/phi 系列支持发展式、儿童式、教材式数据提高样本效率。
- DoReMi/ODM 等工作说明数据混合比例对 LLM 预训练非常关键,而且可以自动优化。
- Irreducible Curriculum 和 Beyond Random Sampling 已经开始直接研究 LLM 预训练 curriculum,支持数据顺序和难度信号确实会影响预训练效率。
但现有研究也提醒我们:
简单硬排“小学 → 初中 → 高中 → 大学”不是最稳的方案。更有前途的是 soft curriculum、dynamic data mixing、concept prerequisite graph、learnability-based sampling 和 textbook-quality data 的结合。
如果用一句话概括这个研究方向:
未来 LLM 预训练可能不只是 scaling data quantity,而是 scaling data pedagogy:让数据像教材、课程和环境一样被组织,使模型按更高效的路径形成基础表示、组合推理和专业能力。
#参考与延伸阅读
- Bengio et al., Curriculum Learning, 2009.
- Kumar, Packer, Koller, Self-Paced Learning for Latent Variable Models, 2010.
- Graves et al., Automated Curriculum Learning for Neural Networks, 2017.
- Platanios et al., Competence-based Curriculum Learning for Neural Machine Translation, 2019.
- Warstadt et al. / BabyLM Challenge, Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora, 2025.
- Govindarajan et al., Lil-Bevo: Explorations of Strategies for Training Language Models in More Humanlike Ways, 2023.
- Eldan & Li, TinyStories: How Small Can Language Models Be and Still Speak Coherent English?, 2023.
- Gunasekar et al., Textbooks Are All You Need, 2023.
- Li et al., Textbooks Are All You Need II: phi-1.5 technical report, 2023.
- Xie et al., DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, 2023.
- Albalak et al., Efficient Online Data Mixing For Language Model Pre-Training, 2023.
- Fan & Jaggi, Irreducible Curriculum for Language Model Pretraining, 2023.
- Zhao et al., Analysing The Impact of Sequence Composition on Language Model Pre-Training, 2024.
- Xu et al., WizardLM: Empowering Large Pre-trained Language Models to Follow Complex Instructions, 2023.
- Luo et al., WizardCoder: Empowering Code Large Language Models with Evol-Instruct, 2023.
- Zhang et al., Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning, 2025.
- Zhang et al., Curriculum-Guided Layer Scaling for Language Model Pretraining, 2025.