主题归档 2026-04-30 ★★★★★ LLM 预训练 curriculum-learning data-mixture developmental-learning data-centric-ai

#预训练数据能否像人类教育一样组织？Curriculum Learning、数据混合与 Developmental Pretraining 研究脉络

#0. 一句话结论

有现有研究支撑这个方向，但目前证据更支持“软课程 / 动态数据混合 / 高质量教育型数据 / 发展式预训练”，而不是简单地把数据硬排序为“小学 → 初中 → 高中 → 大学”。

你的想法可以放在一个更大的研究问题里：

LLM 预训练是否应该从固定随机混合，走向依据数据难度、概念依赖、模型当前能力和训练阶段动态调度的数据课程？

现有研究给出四类支撑：

经典 Curriculum Learning 证明“从易到难”可以改善优化路径与泛化，但大多不是 LLM 预训练规模。
NLP/NMT 的 competence-based curriculum 证明基于模型能力增长逐步开放更难数据，能减少训练时间、提升效果。
BabyLM / TinyStories / Textbooks Are All You Need 说明“发展式、儿童式、教材式、高质量合成数据”能显著提高小模型数据效率。
DoReMi / Online Data Mixing / Irreducible Curriculum / Beyond Random Sampling 等工作开始直接研究 LLM 预训练中的数据混合、数据顺序和样本可学习性，说明预训练数据不是只要随机混合就够了。

但也有一个冷静判断：

对现代 LLM 来说，“人类年级”只是一个弱难度信号。真正可研究的是如何把年级、概念依赖、模型 loss、数据质量、结构复杂度、推理深度和下游能力联系起来，形成可扩展的数据调度机制。

#1. 你的想法属于哪条研究线？

你提出的是：

按照人类学习方式组织预训练数据：
一年级 → 二年级 → 三年级 → 小学 → 初中 → 高中 → 大学
用难度递进达到最高效的数据课程学习效果

这在机器学习里对应几个关键词：

Curriculum Learning：课程学习，从易到难训练。
Self-Paced Learning：自步学习，让模型先学自己当前能学会的样本。
Competence-Based Curriculum：基于模型能力增长逐渐开放更难样本。
Data Curriculum / Data Ordering：训练数据顺序设计。
Data Mixture Optimization：不同数据域采样比例优化。
Developmentally Plausible Pretraining：更接近人类儿童输入和发展阶段的预训练。
Textbook-quality Data：教材式、高解释性、高密度、低噪声数据。

如果用一句研究化表达，可以写成：

Developmental Curriculum for LLM Pretraining：根据人类教育顺序、概念依赖图、数据结构复杂度和模型当前能力，动态组织预训练数据，以提高样本效率、能力形成质量和跨领域迁移。

这个表述比“按年级排序”更强，因为它允许年级只是一个信号，而不是唯一原则。

#2. 第一阶段：经典 Curriculum Learning——“从易到难”为什么可能有用？

#2.1 Bengio et al. 2009：Curriculum Learning

经典起点通常追溯到 Bengio 等人的 Curriculum Learning。核心思想是：

训练样本的呈现顺序会影响优化过程；从简单样本开始，再逐渐引入复杂样本，可能让模型进入更好的参数区域。

它解决的是传统随机训练的一个问题：

一开始就把所有难样本、噪声样本、长尾样本混在一起，优化信号可能非常混乱；
简单样本可以提供更稳定的梯度，让模型先形成基础表示；
随后逐渐增加难度，可以提升泛化和收敛效率。

这和你说的人类学习顺序非常接近：

先学基本字词和运算
再学复杂句法、方程、函数、证明、专业知识

不过，Bengio 这条线的早期实验主要在较小任务上，不直接等同于 LLM 预训练。它提供的是原则层支撑：数据顺序可能改变学习动态。

#2.2 Self-Paced Learning：从“人给课程”到“模型自己决定难度”

Kumar, Packer & Koller 的 Self-Paced Learning 进一步提出：不是固定一个人类设计的课程，而是让模型从当前容易学的样本开始，再逐步纳入更难样本。

这和你的想法有一个关键差别：

人类年级 curriculum 是外部定义的难度；
self-paced curriculum 是模型当前状态定义的难度。

对于 LLM，这一点很重要，因为：

人类觉得难的数据，不一定是模型觉得难；模型 loss 高的数据，也不一定是真正有教学价值，可能只是脏数据。

因此，未来更好的方向可能不是纯人类年级排序，而是：

人类教育难度 + 模型当前 loss/learnability + 数据质量过滤

#3. 第二阶段：NLP/NMT 中的课程学习——“模型能力增长曲线”比硬排序更稳

#3.1 Platanios et al. 2019：Competence-based Curriculum Learning for NMT

NMT 里的代表工作是 Competence-based Curriculum Learning for Neural Machine Translation。它提出一个很有启发的思路：

不要一次性给模型所有训练样本，而是根据训练进度定义模型 competence，逐渐扩大可见数据范围。

直观地说，模型一开始只接触较容易的句子；随着训练推进，模型“能力”提升，再逐渐加入更长、更复杂、更难的句子。

它的重要性在于：

课程不是硬切阶段，而是逐渐扩大数据分布；
难度可以由句长、词频、模型困惑度等定义；
目标不是模拟学校年级，而是匹配模型当前学习能力。

这对 LLM 预训练非常有启发：

不是 0-10% steps 只看小学数据，10-20% steps 只看初中数据；
而是基础数据从高权重开始，复杂数据逐步升权，同时保留混合 replay。

也就是软课程而不是硬课程。

#3.2 Multilingual NMT：不同语言也有不同“学习能力阶段”

后续还有 multilingual NMT 的 competence-based curriculum，用模型对不同语言的学习能力来缓解多语言训练中的不平衡问题。这和 LLM 数据混合很像：

不同语言、领域、难度的数据不是同等容易；
固定比例混合可能让模型过早或过度拟合某些数据域；
动态调度可以减少低资源/高难度领域被淹没的问题。

这条线提供了一个重要抽象：

课程学习不只是“样本从易到难”，也可以是“领域、语言、技能、任务的学习节奏控制”。

#4. 第三阶段：BabyLM 与发展式预训练——更接近人类输入是否更高效？

你的想法和 BabyLM 非常接近。BabyLM Challenge 的核心问题是：

儿童可以用少于 1 亿词的输入学会语言，而 LLM 往往需要大几个数量级的数据。能不能用更 developmentally plausible 的数据和训练方式提高样本效率？

#4.1 BabyLM Challenge：少数据、儿童式输入、发展合理性

BabyLM 关注 sample-efficient pretraining，强调用更接近儿童语言输入的数据来训练小模型。2025 年的 BabyLM 总结论文明确把问题放在“developmentally plausible corpora”上：儿童输入远少于 LLM 训练数据，因此需要研究更高效的数据选择与训练方式。

这对你的想法的支撑是：

“人类学习顺序/输入分布”不是纯直觉，已经成为一个研究 benchmark；
研究者确实在探索更像人类发展过程的数据组织；
但 BabyLM 主要关注语言获得，不是完整 LLM 预训练，也不是数学/科学/代码年级体系。

#4.2 Lil-Bevo：短序列先于长序列

BabyLM 相关工作 Lil-Bevo 使用了一些更“人类式”的策略，例如：

先训练较短序列，再训练较长序列；
使用音乐数据预训练；
针对特定语法现象设计 mask。

它发现：短序列训练比长序列训练更好一些，但收益有限，说明发展式训练有一定信号，但不是简单套用就一定大幅提升。

这对你的想法是一个很好的提醒：

curriculum 的方向是合理的，但具体 curriculum 设计非常敏感；不是只要像人类就一定更好。

#4.3 Developmentally plausible curriculum 与人类阅读行为对齐

还有工作研究用 developmentally plausible data curriculum 训练语言模型，是否能更好对齐人类阅读行为。它们发现有一些 tentative evidence：先用 BabyLM 数据课程再随机训练，可能让模型更容易获得语法知识。

这类工作说明：

发展式数据顺序可能不仅影响 loss，还可能影响模型内部语言知识获得路径和人类行为对齐。

这和你关心的“能力形成机制”高度相关。

#5. 第四阶段：TinyStories / Textbooks Are All You Need——教材式数据比随机网页更高效

你的想法中有一个隐含假设：人类教育数据之所以有效，不只是因为顺序，还因为它是“教学型”的。

这条线最直接的证据来自 TinyStories 和 phi 系列。

#5.1 TinyStories：儿童词汇与简单故事让小模型也能学会连贯语言

TinyStories 构造了只包含 3-4 岁儿童通常理解词汇的短故事数据。它发现很小的语言模型也能生成相当连贯的英文故事。

这说明一个重要事实：

数据分布如果被限制在合适复杂度、合适概念范围、合适风格上，小模型也能学到看似需要大模型才会出现的能力。

对你的想法而言，这不是“年级排序”的直接证明，但它强烈支持：

数据难度可以被设计；
儿童式/低复杂度数据可以作为基础能力训练场；
高质量、低噪声、概念清晰的数据能提升样本效率。

#5.2 Textbooks Are All You Need / phi-1：教材式代码数据提升小模型代码能力

Textbooks Are All You Need 训练 phi-1，用的是高质量 textbook-like 代码数据和合成练习。1.3B 模型在 HumanEval 和 MBPP 上取得了很强效果。

这个工作对你想法很关键，因为它说明：

对代码模型来说，教材式数据 + 练习题式数据，比随机代码网页更像“有效学习材料”。

这背后的机制可能是：

教材数据解释性强；
概念组织更清楚；
例题和练习构成隐式 curriculum；
合成数据可以覆盖基础概念到复杂组合。

#5.3 phi-1.5：从代码 textbook 到自然语言 reasoning textbook

phi-1.5 继续沿用 textbook-quality data 思路，面向 common sense reasoning 和自然语言能力。它报告 1.3B 模型在自然语言任务上可与更大模型比较，并在 grade-school mathematics 和 basic coding 上表现突出。

这说明“教材式预训练”不是代码领域特例，而可能是小模型高效学习的一般路线。

对你的想法，可以这样理解：

真正有价值的不只是把数据排成小学、初中、高中，而是构造一种“概念清晰、解释充分、例题递进、练习覆盖”的 textbook curriculum。

#6. 第五阶段：数据混合优化——LLM 预训练已经在从固定配比走向动态调度

现代 LLM 预训练通常不是简单把所有数据随机混在一起，而是需要设计 data mixture：网页、书籍、代码、数学、论文、百科、问答、论坛等各占多少比例。

这与 curriculum 的关系是：

Data mixture 关注“采多少”；
Curriculum 关注“什么时候采、按什么顺序采”；
动态 data mixture 就是 curriculum 的一种现代形式。

#6.1 DoReMi：自动优化数据域比例

DoReMi (Optimizing Data Mixtures Speeds Up Language Model Pretraining) 证明预训练数据域比例显著影响模型表现。它用小 proxy model 通过 Group DRO 学出不同数据域的权重，再用于训练大模型。

关键结果包括：

在 The Pile 上改善多个 domain 的 perplexity；
下游 few-shot 平均准确率比默认配比提升；
达到 baseline 准确率所需训练步数减少，报告约 2.6x fewer training steps。

这对你的想法的意义是：

数据组织不是细枝末节；不同领域数据的采样比例可以显著改变训练效率和最终能力。

但 DoReMi 主要优化的是领域配比，不是人类年级式难度顺序。它支撑的是更广义的结论：预训练数据分布应被优化，而不是默认随机。

#6.2 Online Data Mixing：训练中动态调整数据比例

Efficient Online Data Mixing for Language Model Pre-Training 进一步指出，固定的数据混合比例不能适应训练动态。它用 multi-armed bandit 思路在训练中优化数据混合比例。

这更接近你的想法，因为 curriculum 本质上就是：

training step t 的数据分布 p_t(d) 不应固定

ODM 的结果显示，在线数据混合可以用更少训练完成相同 perplexity，说明动态调度有实际价值。

#6.3 Data Mixing Laws：数据配比可能存在可预测规律

近期关于 data mixing laws 的工作尝试建立不同数据源比例、模型规模、训练 token 和下游能力之间的规律。这类工作虽然不一定直接研究 curriculum，但它们把问题推进到一个更基础层面：

能否像 scaling law 一样，为 data mixture 建立可预测的规律？

如果未来要做“年级式数据课程”，也需要类似规律：

不同难度桶在不同训练阶段的最优比例是什么？
基础数据是否应该递减？
高级数据何时开始升权？
不同模型规模的 curriculum 是否不同？

#7. 第六阶段：直接面向 LLM 预训练的数据顺序与课程研究

最近几年已经开始出现更直接研究 LLM pretraining curriculum 的工作。

#7.1 Irreducible Curriculum for Language Model Pretraining

Irreducible Curriculum for Language Model Pretraining 指出：为大语言模型做自动数据选择和 curriculum 很难，现有方法多集中在 domain-level，忽略单个训练样本的细粒度贡献。

它提出 prioritizing samples with higher learnability：优先选择更“可学习”的样本。为了避免对大模型做昂贵的在线样本选择，它用小 proxy model 模拟主模型训练轨迹上的 sample loss。

这个工作对你的想法非常关键：

它不是用人类年级定义难度，而是用“learnability”定义训练价值。

这给出一个很强的升级方向：

年级难度只是 curriculum 的一个显式先验；
真正的采样权重应结合样本在当前模型阶段的可学习性。

它也提醒我们：

最难样本不一定最好；
最简单样本也不一定最有用；
最有教学价值的可能是模型“刚好能学会”的样本。

这和 Vygotsky 的“最近发展区”很像。

#7.2 Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning

2025 年的 Beyond Random Sampling 更直接研究 LLM 预训练中的 curriculum。根据其公开摘要，它训练了 200+ 个模型、最多 100B tokens，对比 vanilla curriculum、pacing-based sampling、interleaved curricula，并使用六种 difficulty metrics，包括语言学和信息论角度的指标。

其主要结论包括：

curriculum learning 在早期和中期训练阶段能稳定提升收敛；
作为 warmup 使用时可能带来持久收益，公开摘要中提到最高约 3.5% improvement；
compression ratio、lexical diversity、readability 等难度信号比较有效。

这几乎是对你想法的直接支撑：

数据顺序确实可以影响 LLM 预训练效率；但有效难度信号未必是人类年级，而可能是可压缩性、词汇多样性、可读性等模型相关指标。

#7.3 Curriculum-Guided Layer Scaling

Curriculum-Guided Layer Scaling for Language Model Pretraining 从另一个角度借鉴认知发展：人类随着成长逐渐构建知识，大脑也在发育；模型训练是否也可以逐渐扩展模型结构？

它不只是数据 curriculum，而是把 curriculum 和模型层数增长结合。这个方向说明：

发展式预训练可以同时作用于数据难度、模型容量和训练目标，而不必只在数据排序上做文章。

这对长期方向很有启发：如果你想做 foundation model training mechanism，可以把 curriculum 扩展成：

数据复杂度 schedule
上下文长度 schedule
模型容量 schedule
任务/verifier schedule
工具使用 schedule

#8. 第七阶段：序列组织也是课程——不是只排文档，还要排上下文

你的想法主要关注“数据难度顺序”，但 LLM 预训练还有一个经常被忽略的问题：sequence composition。

#8.1 Analysing the Impact of Sequence Composition on LM Pre-Training

这篇工作指出，常见预训练会把多个文档拼接进固定长度序列，然后用 causal masking 预测 token。但这种做法可能让模型在预测一个文档时看到前一个无关文档，形成 distracting information。

它提出 intra-document causal masking，以及 BM25Chunk 这种把相关文档拼在一起的方法，报告能改善 in-context learning、knowledge memorisation 和 context utilisation。

这和你的想法的关系是：

数据组织不只是全局难度排序，也包括局部上下文如何组织。把相关概念、前置材料、例题和练习放在同一个上下文里，可能比随机拼接更像人类学习。

如果做“年级式 LLM 预训练”，不能只控制文档顺序，还要控制：

一个训练 sequence 内部是否概念连贯？
是否先给定义再给例子？
是否先给简单题再给变式题？
是否把相关知识组织在相邻上下文中？

这可能是比全局排序更可操作的方向。

#9. 第八阶段：Instruction Curriculum 与复杂度进化

虽然你的问题是预训练，但后训练中的 curriculum 也提供了很强的旁证。

#9.1 WizardLM / Evol-Instruct

WizardLM 提出 Evol-Instruct：从简单 instruction 出发，逐步重写成更复杂 instruction。它发现复杂 instruction fine-tuning 能显著提升模型 follow complex instructions 的能力。

这说明：

训练数据的复杂度不是静态属性，可以被生成和演化；从简单任务逐步进化到复杂任务，是有效的后训练数据构造方法。

#9.2 WizardCoder

WizardCoder 把 Evol-Instruct 迁移到代码领域，用复杂代码 instruction fine-tuning 强化 Code LLM，在 HumanEval、MBPP、DS-1000 等 benchmark 上取得强表现。

对你的预训练想法而言，Evol-Instruct 提供了一个可借鉴机制：

不是只收集现成小学/初中/大学数据，
而是让模型/规则自动生成“难度递进”的教材、例题、变式题、代码任务。

未来可以做：

Evol-Textbook
Evol-Math-Curriculum
Evol-Code-Curriculum
Evol-Agent-Curriculum

#10. 这些工作对“按年级组织预训练数据”的支持程度

可以把证据分成三层。

#10.1 强支持：数据质量、数据混合、数据顺序确实重要

强证据包括：

DoReMi：数据域比例显著影响预训练效率和下游能力；
Online Data Mixing：训练中动态调整比例有效；
Textbooks Are All You Need：教材式高质量数据对小模型极有效；
TinyStories：低复杂度儿童式数据可让小模型学会连贯语言；
Beyond Random Sampling：LLM 预训练 curriculum 可改善早中期收敛，并可能带来持久收益。

这说明你的大方向是成立的：

预训练数据不是越随机越好；组织方式、质量、难度和采样节奏都重要。

#10.2 中等支持：人类发展顺序可能有帮助

BabyLM、developmentally plausible curriculum、短序列先训练等工作说明：

更接近人类儿童输入的数据值得研究；
先短后长、先简单后复杂可能有收益；
但效果通常不是压倒性的，且依赖具体设计。

这说明“人类年级顺序”可以作为 hypothesis，但不是已经被大规模证明的 recipe。

#10.3 弱支持 / 待验证：严格“小学 → 初中 → 高中 → 大学”硬排序

目前还缺少强证据证明：

对大规模 LLM 预训练，严格按人类年级硬排序
一定优于随机混合或动态混合

原因包括：

人类年级难度不等于模型难度；
LLM 的 next-token prediction 和人类课堂学习不同；
硬切换可能导致 distribution shift；
后期可能遗忘基础数据；
现代预训练通常需要稳定覆盖最终分布。

所以更稳的判断是：

年级式 curriculum 是一个很好的先验，但需要改造成软调度、动态调度和概念图调度。

#11. 技术分类：这个方向可以拆成哪些路线？

路线	核心问题	代表工作/方向	对你的想法的启发
经典 Curriculum	从易到难是否改善优化？	Bengio 2009	数据顺序会影响学习动态
Self-Paced	模型应先学当前能学的样本吗？	Kumar et al. 2010	难度应随模型状态变化
Competence-based	如何随训练进度开放更难样本？	Platanios 2019	用软课程替代硬排序
Developmental LM	儿童式输入是否提高样本效率？	BabyLM, Lil-Bevo	人类发展输入可作为研究基准
Textbook Data	教材式数据是否更高效？	TinyStories, phi-1/1.5	高质量教育数据比随机网页更像“学习材料”
Data Mixture	哪些领域该采多少？	DoReMi, ODM	curriculum 可以视为时间变化的数据混合
Learnability Curriculum	哪些样本在当前阶段最有教学价值？	Irreducible Curriculum	年级难度应结合可学习性
LLM Pretraining Curriculum	预训练中难度排序是否有效？	Beyond Random Sampling	开始有直接证据支持 LLM 预训练课程学习
Sequence Composition	训练上下文内部如何组织？	BM25Chunk, intra-document masking	学习材料应概念连贯，而非随机拼接
Instruction Complexity	后训练任务复杂度如何进化？	Evol-Instruct, WizardCoder	可自动生成难度递进任务

#12. 对你的想法，最推荐的研究表述

不建议把 proposal 写成：

我们按照小学、初中、高中、大学顺序喂数据。

这太容易被质疑：人类年级不等于模型难度，而且硬排序未必稳定。

更推荐写成：

我们研究 LLM 预训练中的 Developmental Data Curriculum：根据教育体系中的概念先修关系、文本结构复杂度、模型当前可学习性和下游能力需求，动态调度不同难度与领域的数据，使模型先建立基础表示，再逐步学习组合推理、专业知识和工具化能力。

这样就把想法从“人类类比”提升为一个可实验验证的机制问题。

#13. 可以如何设计实验？

#13.1 数据构造

选一个可控领域，比如数学或代码。

数学可以分成：

D1: 小学算术、基础应用题
D2: 初中代数、几何、方程
D3: 高中函数、概率、数列、立体几何
D4: 大学微积分、线代、离散数学
D5: 竞赛数学、证明题、形式化证明

代码可以分成：

C1: 变量、表达式、条件、循环
C2: 函数、数组、字符串、基础数据结构
C3: 算法题、递归、动态规划、图算法
C4: 工程代码、API、测试、debug
C5: repo-level issue、agentic coding trajectory

#13.2 训练组设计

必须控制变量，用同一批数据对比不同顺序：

组别	数据顺序
Random Mix	全程随机混合
Hard Curriculum	D1 → D2 → D3 → D4 → D5
Soft Curriculum	D1 高占比起步，D5 逐步升权，始终混合 replay
Anti-Curriculum	D5 → D4 → D3 → D2 → D1
Dynamic Curriculum	根据 loss / learnability / eval 动态调权
Concept Graph Curriculum	按概念依赖开放数据

关键是不要只和“低质量随机网页”比较，否则会把 curriculum 效果和数据质量效果混在一起。

#13.3 评估指标

不能只看 loss。要看能力形成：

训练 loss / validation loss
GSM8K / MATH / OlympiadBench
HumanEval / MBPP / APPS / CodeContests
变量绑定 probe
长程依赖 probe
组合泛化 probe
checkpoint emergence curve
OOD generalization

特别重要的是 checkpoint 曲线：

curriculum 是否让某些能力更早出现？最终是否仍然更强？还是只是 early loss 更快？

#13.4 最有研究价值的观测

可以重点看：

soft curriculum 是否优于 hard curriculum；
dynamic curriculum 是否优于固定年级顺序；
人类年级难度和模型 loss 难度是否一致；
curriculum 是否提升推理/迁移，而不只是 perplexity；
基础数据 replay 对防止遗忘是否必要；
不同模型规模是否需要不同 curriculum。

#14. 我对这个方向的研究判断

这个方向值得做，但不要把它定位成“模仿人类教育”这么简单。更本质的问题是：

数据的时间结构是否是 foundation model 能力形成的一阶变量？

当前 scaling law 主要讨论：

模型参数
训练 token
计算量
数据质量

但对数据“顺序”和“发展结构”关注还不够。你的想法可以切入这个空白：

同样 token，总量不变，顺序和采样节奏改变，能力是否改变？

如果答案是肯定的，它会影响基础模型训练范式：从静态数据配比走向动态课程调度。

我认为最值得探索的是三条线：

#14.1 人类教育先验 + 模型可学习性

不要只按年级，也不要只按 loss，而是二者结合：

difficulty = f(education_level, concept_prerequisite, model_loss, data_quality, structural_complexity)

#14.2 Curriculum for reasoning, not just language modeling

普通文本 loss 可能看不出推理收益。应该重点看：

数学推理
代码推理
工具使用
长程任务
agentic trajectory

这些能力更可能受课程影响。

#14.3 从数据 curriculum 走向环境 curriculum

对 Agent 来说，未来不是简单文本顺序，而是：

单步任务 → 多步任务 → 工具调用 → 调试 → 长程项目 → 自主探索

这和你关心的 agentic RL / self-evolving code agent 很接近。真正的课程可能不是文档 curriculum，而是环境 curriculum。

#15. 最终结论

现有研究总体支持你的大方向：

课程学习有经典理论和实验基础，从易到难可能改善优化路径。
NLP/NMT 已验证 competence-based curriculum 有效，说明模型能力增长曲线可用于数据调度。
BabyLM/TinyStories/phi 系列支持发展式、儿童式、教材式数据提高样本效率。
DoReMi/ODM 等工作说明数据混合比例对 LLM 预训练非常关键，而且可以自动优化。
Irreducible Curriculum 和 Beyond Random Sampling 已经开始直接研究 LLM 预训练 curriculum，支持数据顺序和难度信号确实会影响预训练效率。

但现有研究也提醒我们：

简单硬排“小学 → 初中 → 高中 → 大学”不是最稳的方案。更有前途的是 soft curriculum、dynamic data mixing、concept prerequisite graph、learnability-based sampling 和 textbook-quality data 的结合。

如果用一句话概括这个研究方向：

未来 LLM 预训练可能不只是 scaling data quantity，而是 scaling data pedagogy：让数据像教材、课程和环境一样被组织，使模型按更高效的路径形成基础表示、组合推理和专业能力。

#参考与延伸阅读

Bengio et al., Curriculum Learning, 2009.
Kumar, Packer, Koller, Self-Paced Learning for Latent Variable Models, 2010.
Graves et al., Automated Curriculum Learning for Neural Networks, 2017.
Platanios et al., Competence-based Curriculum Learning for Neural Machine Translation, 2019.
Warstadt et al. / BabyLM Challenge, Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora, 2025.
Govindarajan et al., Lil-Bevo: Explorations of Strategies for Training Language Models in More Humanlike Ways, 2023.
Eldan & Li, TinyStories: How Small Can Language Models Be and Still Speak Coherent English?, 2023.
Gunasekar et al., Textbooks Are All You Need, 2023.
Li et al., Textbooks Are All You Need II: phi-1.5 technical report, 2023.
Xie et al., DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, 2023.
Albalak et al., Efficient Online Data Mixing For Language Model Pre-Training, 2023.
Fan & Jaggi, Irreducible Curriculum for Language Model Pretraining, 2023.
Zhao et al., Analysing The Impact of Sequence Composition on Language Model Pre-Training, 2024.
Xu et al., WizardLM: Empowering Large Pre-trained Language Models to Follow Complex Instructions, 2023.
Luo et al., WizardCoder: Empowering Code Large Language Models with Evol-Instruct, 2023.
Zhang et al., Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning, 2025.
Zhang et al., Curriculum-Guided Layer Scaling for Language Model Pretraining, 2025.