主题归档 2026-05-04 ★★★★★ deep-learning-theory learning-mechanics neural-network scaling-laws NTK muP tutorial

#用人话讲清 Learning Mechanics：深度学习真的找到“牛顿定律”了吗？

这篇笔记是对机器之心文章《终于，学界找到了深度学习的“牛顿定律”》以及论文 There Will Be a Scientific Theory of Deep Learning 的小白版解读。

论文链接：https://arxiv.org/abs/2604.21691

论文 PDF：https://arxiv.org/pdf/2604.21691

先说结论：这篇论文不是说“深度学习的牛顿三定律已经被找到了”，而是说：过去十几年深度学习理论里散落的很多结果，正在慢慢长成一个类似物理学的理论体系。作者建议把这个正在形成的体系叫做 Learning Mechanics，也就是“学习力学”。

所以机器之心标题里的“终于找到了牛顿定律”，更像是一个比较激动的传播说法。更准确的理解是：

深度学习现在还没有真正的牛顿定律，但已经出现了一批像“开普勒定律”“理想气体定律”“量纲分析”“可解玩具模型”这样的理论碎片。作者认为，这些碎片可能会逐渐拼成一门关于神经网络学习过程的科学。

这篇文章数学味和物理味比较重。下面我会尽量不靠公式，用人话拆开讲。

#1. 这篇文章到底想回答什么问题？

它想回答一个非常根本的问题：

深度学习为什么有效？神经网络到底是怎么学会东西的？

我们现在做深度学习，很像厨师做菜：

Transformer 好用。
Adam 好用。
学习率不能太大。
模型大一点通常更好。
数据多一点通常更好。
prompt / batch size / warmup / weight decay 调一调，效果可能会变。

但是你问：

为什么 Transformer 好用？
为什么大模型会按幂律变好？
为什么学习率大到某个程度不会立刻炸，而是卡在“稳定性边缘”？
为什么不同模型会学到相似表征？
为什么小模型上调好的超参数有时不能迁移到大模型？

我们很多时候答不上来。

所以深度学习现在很强，但理论上有点尴尬：

工程上：很厉害
科学上：还没完全解释清楚

论文作者说：这种情况并不奇怪。历史上很多科学都是先有大量经验规律，再慢慢发展出统一理论。

比如：

开普勒先从观测数据中总结出行星运动规律，后来牛顿用万有引力解释它。
热力学先总结出气体压强、温度、体积的关系，后来统计力学从分子运动解释它。
化学先知道很多反应配方，后来才有原子、分子、元素周期表。

作者认为，深度学习也可能正在经历这个阶段：我们已经有很多经验规律和局部理论，现在需要把它们组织成一门“学习力学”。

#2. 什么是 Learning Mechanics？

Learning Mechanics 可以直译为“学习力学”。

这里的“力学”不是说真的有牛顿力，也不是说神经网络里有真实物理粒子，而是一个类比：

物理力学研究的是：

一个物体在力的作用下，如何在空间中运动？

学习力学研究的是：

一个神经网络在梯度的作用下，如何在参数空间中运动？

你可以把训练神经网络想象成这样：

网络参数是一辆车的位置。
loss landscape 是一片高低不平的山地。
梯度告诉车往哪里下坡。
学习率决定每一步走多远。
batch size 决定路上有多颠簸。
网络结构决定这辆车长什么样。
数据决定这片山地长什么样。

训练过程就是这辆车在山地里移动，最后希望停在一个 loss 比较低、泛化也比较好的地方。

Learning Mechanics 想做的事，就是建立一套理论来描述：

这辆车会怎么走？
什么时候走得稳？
什么时候会震荡？
什么时候会学到好特征？
模型变大后路线会如何变化？
不同车最后为什么会停到相似地方？

论文里对 Learning Mechanics 的定位很清楚：它不是只证明最坏情况下的数学定理，而是更像物理学那样，追求：

能描述真实训练过程中的重要现象。
能预测一些可测量的统计量。
能提出可被实验验证或证伪的定量规律。

也就是说，它更关心“真实模型平均会怎样”，而不是只关心“所有可能情况下最坏会怎样”。

#3. 这篇论文的主线：五根支柱

论文说，深度学习理论里有五条线索正在汇合：

可解的理想化模型：先研究简单到能算清楚的神经网络。
可处理的极限：把宽度、深度、学习率等推到极端，看行为是否变简单。
经验定律：从大量实验中总结稳定规律，比如 scaling laws。
超参数理论：理解学习率、batch size、初始化、宽度这些旋钮如何相互影响。
普适行为：不同模型、不同数据、不同架构为什么会出现相似规律。

机器之心文章把它们类比成物理学里的各种工具。这个类比很漂亮，但也容易让人晕。下面一个个用白话拆开。

#4. 第一根支柱：可解的理想化模型——先研究“玩具神经网络”

物理学里有一个传统：如果真实世界太复杂，就先研究一个简化版。

比如：

真实的钟摆有空气阻力、摩擦、绳子质量，但物理课先讲“理想单摆”。
真实原子很复杂，但量子力学先研究“氢原子”。
真实弹簧有各种非线性，但物理课先讲“理想弹簧振子”。

这些模型明显不是真实世界的全部，但它们很有用，因为能算清楚，而且能提供概念基础。

深度学习也需要这样的“玩具模型”。论文重点提到两个：

深度线性网络。
NTK / 核方法。

#4.1 深度线性网络：把神经网络简化成一串矩阵乘法

普通神经网络每一层大概是：

输入 -> 乘权重矩阵 -> 加非线性激活函数 -> 下一层

深度线性网络把激活函数拿掉，只剩：

输入 -> 矩阵1 -> 矩阵2 -> 矩阵3 -> 输出

听起来这不就退化了吗？确实，整体看它还是一个线性函数。但它仍然有深度，因为参数是多个矩阵的乘积。

这个模型的好处是：很多训练动态可以算出来。

它告诉我们一个很重要的现象：神经网络不是一次性学会所有东西，而是经常先学简单 / 强信号部分，再学复杂 / 弱信号部分。

可以用小白例子理解：

假设你学识别猫：

一开始先学“有两只眼睛”。
然后学“有耳朵”。
再学“脸部轮廓”。
最后学更细的毛色、姿态、背景差异。

深度线性网络里可以看到类似的“顺序学习”：大的、明显的模式先被学到，小的、细碎的模式后被学到。

这对真实非线性网络也有启发：真实网络可能也有某种“先粗后细”的学习偏好。

#4.2 NTK：把神经网络近似成一种“核方法”

NTK 全称 Neural Tangent Kernel，中文常叫神经切线核。

这东西听起来很吓人，但直觉可以这样理解：

当一个神经网络特别特别宽时，比如每层有无限多个神经元，它训练时可能出现一种情况：

参数本身几乎没怎么动，
但输出函数因为很多微小变化叠加起来，还是能拟合数据。

这就像一个非常大的合唱团：每个人只稍微改变一点音量，整体声音就可以变化很多。

在这种极限下，网络的训练可以用一个固定的“相似度函数”来描述。这个相似度函数就是 NTK。

简单说，NTK 告诉你：

网络认为哪些样本彼此相似？
如果一个样本的标签变了，会如何影响另一个样本的预测？

在 NTK 极限下，神经网络不太像“真正学特征”的系统，而更像一个根据初始相似度做插值的机器。

这很有用，因为它能精确分析。但它也有局限，因为真实大模型显然会学新特征，不只是懒懒地停在初始化附近。

所以 NTK 是深度学习理论里的“理想气体”或“氢原子”：不等于真实模型，但提供了可计算的起点。

#5. 第二根支柱：可处理的极限——把模型推到“无限大”看看

真实神经网络太复杂，参数动辄几亿、几百亿、几万亿。逐个参数分析基本不可能。

物理学处理复杂系统常用一个办法：研究极限。

比如气体里有无数分子，你不可能追踪每个分子。但当分子数非常大时，整体反而有简单规律：温度、压强、体积。

深度学习里也类似。我们不追踪每个参数，而研究：

宽度无限大时会怎样？
深度无限大时会怎样？
学习率无限小时会怎样？
batch size 很大或很小时会怎样？

其中最重要的是宽网络极限，以及它带来的 lazy / rich 二分。

#5.1 Lazy Training：懒惰学习

Lazy Training 指的是：网络训练时参数几乎不动，内部特征也几乎不变。

它像一个“懒学生”：

不真正重构自己的知识体系。
只在原有状态附近微调。
也能把题做对，但主要靠初始化时已有的随机特征组合。

在 lazy regime 下，网络接近 NTK 行为，本质上像核方法。

优点：好分析。

缺点：不太能解释真实大模型强大的 feature learning。

#5.2 Rich / Feature Learning：丰富学习，真正学特征

Rich regime 指的是：网络的内部表征真的发生变化。

它像一个“认真学生”：

一开始不会。
训练过程中形成新的理解方式。
学会更有用的特征。

比如视觉模型训练前可能只是随机滤波器，训练后会出现边缘、纹理、形状、对象部件等表征。

语言模型训练前只是随机参数，训练后会形成语法、实体、事实、推理模板、代码结构等内部表示。

真实深度学习的魔力主要来自 rich regime，而不是 lazy regime。

#5.3 为什么 lazy / rich 很重要？

因为它回答了一个根本问题：

神经网络到底是在“用固定随机特征拟合数据”，还是在“学出新特征”？

这两种状态很不一样。

机器之心文章说它像相变，可以这样理解：

水温低于 0°C，会结冰。
高于 0°C，会变水。
某些条件变化一点点，系统行为会突然变。

神经网络也可能这样：当宽度、初始化、学习率、输出缩放等参数改变时，它可能从 lazy 状态切到 rich 状态。

这就是“学习力学”想理解的核心现象之一。

#6. 第三根支柱：经验定律——先发现规律，再解释为什么

很多科学理论不是一开始就从第一性原理推出来的，而是先有经验规律。

比如：

开普勒先总结行星运动规律，牛顿后来解释。
斯涅尔先总结光的折射规律，麦克斯韦电磁理论后来解释。
玻意耳定律先描述气体压强和体积关系，后来统计力学解释。

深度学习也已经有一些类似经验定律，最重要的是：

Neural Scaling Laws。
Edge of Stability。

#6.1 Neural Scaling Laws：模型越大、数据越多、算力越多，loss 按规律下降

Scaling laws 是大模型时代最重要的经验规律之一。

它说：在很多情况下，模型性能会随着三件事变大而稳定提升：

参数量更多。
数据更多。
计算量更多。

而且不是乱提升，而是符合一种比较稳定的幂律关系。

你不用懂幂律公式，只要理解这个意思：

如果横轴和纵轴都取对数，loss 下降大致是一条直线。

这很惊人。因为大模型系统超级复杂：架构、数据、优化器、训练细节一大堆。但最终测试 loss 居然能被几个宏观变量相当好地预测。

这就像你不知道每个气体分子怎么动，但你能用温度、体积、压强描述整体行为。

Scaling laws 的工程价值很大：

可以预测更大模型大概会有多好。
可以决定算力应该花在模型大小还是数据量上。
可以帮助规划训练预算。

但理论问题还没解决：

为什么是幂律？
幂律指数由什么决定？
什么时候 scaling law 会失效？

这正是 Learning Mechanics 想解释的。

#6.2 Edge of Stability：学习率很大时，训练会贴着“稳定边缘”走

训练神经网络时，学习率太大通常会炸。

传统优化理论会说：如果学习率大于某个阈值，训练应该不稳定。

但深度学习里经常看到一个奇怪现象：

训练没有直接炸掉，
而是自动进入一种“快要不稳定但还没崩”的状态。

这就是 Edge of Stability，稳定性边缘。

小白可以这样理解：

你在山坡上下山，如果每一步太小，走得慢；如果每一步太大，可能越过山谷摔飞。但神经网络训练有时会自动卡在一个很刺激的位置：

步子大到接近失控，
但系统又通过自身调整勉强维持住。

这有点像开车压着极限过弯：再快一点就飞出去，但现在刚好贴着极限跑。

论文把这类现象看成宏观经验规律。它告诉我们，训练过程可能有一种自组织机制：网络和优化器会把自己推到某种临界状态附近。

这很重要，因为我们平时训练大模型常常确实依赖“大 batch + 大学习率 + warmup + Adam”等复杂机制。理解稳定性边缘，也许能解释为什么某些训练 recipe 有效。

#7. 第四根支柱：超参数理论——别再靠玄学调参

调模型最痛苦的地方之一就是超参数。

比如：

学习率设多少？
batch size 设多少？
初始化方差多大？
width 变大后学习率要不要变？
depth 变大后 residual scaling 怎么调？
Adam 的参数怎么迁移？

这些东西过去很像玄学。小模型上调好了，大模型不一定能用。

Learning Mechanics 的一个目标是：把这些旋钮背后的规律讲清楚。

#7.1 batch size 和 learning rate 为什么经常要一起调？

直觉上：

batch size 小，梯度噪声大，每一步方向更抖。
batch size 大，梯度更稳定，但每一步更贵。
learning rate 大，每一步走得远。
learning rate 小，每一步走得近。

所以 batch size 和 learning rate 不是独立的。你把 batch size 变大后，通常也能把 learning rate 变大一些。

论文提到的相关理论会把 SGD 看成一种带噪声的连续动力系统，类似“带随机扰动的运动”。这样可以解释一些经验规则，比如 linear scaling rule。

#7.2 μP：让小模型调好的学习率迁移到大模型

μP 全称 maximal update parametrization。机器之心把它类比成“量纲分析”。

先用白话说它解决什么问题。

假设你想训练一个 70B 模型，但直接在 70B 上调学习率太贵。你希望：

先训练一个 100M 小模型，找到好学习率；
然后把这个学习率直接用到 70B 大模型。

普通参数化下，这通常不可靠。因为模型宽度变了以后，参数更新的尺度也变了。小模型合适的学习率，大模型可能太大或太小。

μP 的思想是：设计一种参数初始化和缩放方式，让不同宽度模型的“更新幅度”在某种意义上保持一致。

这样：

小模型上的好超参数 ≈ 大模型上的好超参数

这对大模型训练非常有用，因为它能减少昂贵的大模型调参。

#7.3 为什么叫“量纲分析”？

物理学里，量纲分析会问：这个公式里的单位对不对？米、秒、千克怎么组合？

比如速度单位是米/秒，力的单位是 kg·m/s²。你不能把“米”和“秒”直接相加。

μP 类似地问：

模型宽度变大时，每层激活、梯度、参数更新的尺度是否一致？

如果尺度不一致，小模型实验就不能预测大模型。

如果尺度一致，超参数就有机会迁移。

所以 μP 的意义不是“又一个 trick”，而是它让不同规模模型之间有了可比性。

#8. 第五根支柱：普适行为——不同模型为什么学得这么像？

论文最后一条线索叫 universal phenomena，普适现象。

意思是：虽然模型架构不同、数据不同、训练细节不同，但最后常常出现相似行为。

#8.1 不同架构可能达到相似性能

比如视觉领域里，CNN 和 Vision Transformer 架构很不一样。

CNN 有卷积，天然偏向局部图像结构。
ViT 把图像切成 patch，然后用 attention。

但在数据量、算力、训练 recipe 足够匹配时，它们可以达到相近性能。

扩散模型里也有类似现象：U-Net 和 Transformer backbone 结构不同，但在某些设置下可能生成非常相近的图像。

这说明架构差异很重要，但也可能没有我们想象中那么决定一切。数据和训练目标可能把不同架构推向相似解。

#8.2 不同数据也有共同结构

自然数据不是随机噪声。

图像、语音、文本都有很多共同结构：

图像有局部性、边缘、多尺度结构。
语言有词频幂律、组合结构、层次结构。
音频有频谱规律。

深度学习之所以能泛化，是因为真实数据有结构。Learning Mechanics 需要理解这些结构如何影响训练。

#8.3 不同模型学到相似表征

这是最有意思的一点。

有研究发现，不同模型训练后，内部表示可能很像。

比如：

不同随机种子训练出来的模型，可能学到相似特征。
不同宽度模型，可能学到相似层级结构。
不同架构在同一任务上，可能形成相似表示。
甚至不同模态之间，也可能出现某些抽象结构相似。

这类似物理学里的“普适性”：很多微观细节不同的系统，在宏观上表现出同类规律。

小白可以这样理解：

不同学生学习同一本教材，做同一类题，最后脑子里形成的知识结构可能不完全一样，但大框架会相似。因为题目本身约束了什么知识是有用的。

神经网络也可能如此：任务和数据决定了某些“好表征”的形状，不同模型最后都被吸引过去。

#9. 机器之心文章里那些物理类比怎么理解？

这篇机器之心文章大量使用物理类比。如果没有物理基础，很容易觉得玄。可以用下面这张表简单理解：

文章里的类比	不用物理怎么理解
氢原子 / 谐振子	简化到能完全算清楚的玩具模型
热力学极限	系统太复杂时，把规模推到无限大，反而出现简单规律
开普勒定律	先从实验数据里总结出的经验规律，还没完全解释底层原因
量纲分析	看不同变量的尺度如何匹配，避免调参乱套
临界普适性	很多不同系统在某些条件下会表现得很像
牛顿定律	真正统一、可预测、可解释的底层理论

所以你不需要先懂量子力学、统计力学才能理解这篇文章。它真正想表达的是：

深度学习理论也许会像物理学一样，
从玩具模型、极限情况、经验规律、尺度分析、普适现象出发，
逐渐形成统一理论。

#10. 论文里的十个未解问题，用人话翻译

机器之心文章列了十个未解之谜，其中有些和论文原文的 open directions 不完全逐字一致，但精神接近。按论文原文的十个方向，可以翻译成下面这些问题。

#10.1 能不能找到一个既深、又非线性、还能算清楚的玩具模型？

现在可解模型主要有两类：

深度线性网络：有深度，但函数是线性的。
NTK / 核方法：能处理非线性函数，但基本不学新特征。

真正的大模型既深又非线性，还会学特征。我们缺一个能同时保留这些关键性质、又能算清楚的模型。

#10.2 自然数据的结构到底是什么？

模型不是在随机噪声上成功，而是在图像、文本、语音这种自然数据上成功。

所以理论必须回答：

自然数据到底有什么结构？
模型利用了哪些统计规律？
这些规律怎么进入训练动力学？

#10.3 神经网络是不是偏爱“简单函数”？

我们经常说神经网络有 simplicity bias、spectral bias、implicit regularization。

意思是：在很多能拟合训练集的函数里，网络似乎更偏向某些“简单”的解。

但什么叫简单？

参数范数小？
频率低？
电路短？
Kolmogorov complexity 小？
sparse features？

还没有统一答案。

#10.4 什么是“特征”？

大家都说模型学到了 feature，但 feature 到底是什么？

在可解释性里，feature 可能是“狗耳朵”“代码循环”“否定语义”。

在数学理论里，feature 可能是某个向量、某个子空间、某个函数方向。

Learning Mechanics 需要把这些说法统一起来，给出更精确定义。

#10.5 有限网络是不是无限网络的近似？

很多理论研究无限宽、无限深、学习率趋近于 0 的情况。

问题是：真实网络是有限的。

所以要问：

真实有限网络能不能看成无限理论的离散近似？
误差有多大？
什么时候近似可靠？

#10.6 能不能消除所有超参数？

现在训练模型有一堆旋钮。理论上能不能把它们整理、合并、甚至消掉？

比如通过正确参数化，让学习率迁移；通过尺度分析，让宽度变化不影响优化；通过理论推导减少网格搜索。

最终目标是：调参从玄学变成工程公式。

#10.7 能不能从第一性原理预测 scaling law 指数？

我们知道 loss 经常按幂律下降，但不知道指数为什么是那个数。

真正强的理论应该能在训练前告诉你：

给定这个数据、架构、优化器，scaling law 指数大概是多少。

这对大模型预算规划非常重要。

#10.8 loss 曲率、架构、特征、泛化之间是什么关系？

训练时 loss landscape 的“弯曲程度”会影响稳定性。

但我们还不知道：

为什么曲率会逐渐变尖？
优化器为什么会偏向某些平坦区域？
平坦区域是否真的泛化更好？
曲率变化如何影响学到的特征？

#10.9 什么才是好优化器？

为什么 Adam / Muon 等优化器在大模型训练中经常比 SGD 好？

它们到底是因为：

自动调尺度？
改变曲率？
稳定训练？
更适合 Transformer？

我们缺少统一理论来解释优化器设计。

#10.10 不同大模型在什么意义上学到相似表征？

说“两个模型表征相似”并不简单，因为高维空间可以旋转、缩放、重排。

我们需要更好的方法比较表征：

哪些相似性是真实的？
哪些只是度量造成的假象？
哪些层之间可以对齐？
不同架构之间能否共享同一套表征理论？

#11. 这篇论文有没有真的找到深度学习的“牛顿定律”？

严格说：还没有。

它更像是在说：

我们已经看到很多证据，说明深度学习理论正在从零散结果走向一门科学。现在还不是牛顿写出三大定律的时刻，更像是开普勒、伽利略、胡克、玻意耳等人已经积累了很多规律，牛顿式统一理论正在变得可能。

所以机器之心标题可以理解为一种宣传性表达。真正严谨的判断是：

Learning Mechanics 不是已经完成的理论，
而是一个研究纲领。

它的价值在于：

把过去十年很多分散理论工作放进同一张地图。
告诉大家哪些现象可能是基础规律。
指出深度学习理论不应只追求最坏情况证明，也应像物理学一样做可预测、可证伪、贴近实验的科学。
为大模型训练、可解释性、超参数迁移、scaling law 预测提供长期方向。

#12. 如果你数学不强，应该怎么读这篇文章？

建议不要从公式开始读，而是抓住四个问题。

#12.1 它想解释什么？

它想解释神经网络训练过程中的规律：

怎么学？
先学什么？
什么时候稳定？
为什么变大有效？
为什么不同模型学得像？
超参数怎么迁移？

#12.2 它为什么老类比物理？

因为物理学最擅长处理复杂系统。

深度学习也是复杂系统：大量参数、大量数据、大量交互。作者认为，研究它不能只靠传统定理证明，也要像物理学那样：

找简化模型 -> 找极限 -> 找经验定律 -> 找尺度关系 -> 找普适现象 -> 建统一理论

#12.3 五根支柱分别对应什么直觉？

支柱	白话版
可解模型	先找简单版本算明白
极限理论	模型无限大时可能更简单
经验定律	先从实验里总结稳定规律
超参数理论	把调参从玄学变成可迁移规则
普适行为	不同模型为什么最后学得像

#12.4 它离实用还有多远？

有些已经很实用，比如：

scaling laws 用于大模型预算规划。
μP 用于小模型到大模型的超参数迁移。
batch size / learning rate scaling rules 用于训练 recipe。
edge of stability 帮助理解大学习率训练。

但很多还很远，比如：

完整解释 Transformer 为什么涌现推理能力。
从第一性原理设计最优架构。
严格预测 scaling law 指数。
证明不同模型表征必然收敛。

#13. 和你的研究兴趣有什么关系？

这篇论文对基础模型、LLM Agent、RL 后训练都有启发。

#13.1 对基础模型训练

它强调：大模型训练不应该永远靠 recipe 和经验。我们需要理解：

模型规模、数据规模、计算量怎么共同决定 loss。
为什么某些优化器更稳。
学习率、batch size、初始化如何随规模迁移。
哪些训练动态会导致真正 feature learning。

这些问题直接关系到“训练基础模型本身”。

#13.2 对 LLM Agent / 长轨迹 RL

Agent 训练比普通监督学习更复杂，因为它有长轨迹、环境反馈、稀疏奖励、工具调用。

Learning Mechanics 的思路提醒我们：也许应该先找 agent 训练中的宏观规律：

轨迹长度增加时，训练稳定性怎么变？
环境交互数据量和模型能力是否存在 scaling law？
agent 的工具使用表征是否在不同模型中收敛？
RL 学习率、batch size、rollout 数之间是否有可迁移尺度关系？

如果这些规律能被总结出来，agentic RL 才可能从 recipe 走向科学。

#13.3 对 mechanistic interpretability

论文把 mechanistic interpretability 类比为“深度学习的生物学”，把 learning mechanics 类比为“深度学习的物理学”。

这句话挺有意思：

可解释性关心模型内部有什么 circuit / feature。
学习力学关心这些 feature 是怎么在训练动力学中长出来的。

也就是说，未来好的理论可能要同时回答：

模型里面有什么？
这些东西是怎么被训练出来的？
为什么不同模型会长出类似东西？

#14. 最后总结

这篇文章可以这样理解：

深度学习现在很像早期物理和早期化学：工程和经验已经非常强，但底层理论还没完全统一。论文作者认为，过去十年出现的五类研究——可解模型、极限理论、经验定律、超参数理论、普适现象——正在共同指向一门新的“学习力学”。它不等于已经找到了深度学习的牛顿三定律，但说明我们可能正在接近一套能解释和预测神经网络学习过程的科学框架。

如果只记一句话：

Learning Mechanics 想把“训练神经网络为什么有效”从调参玄学，变成一门像物理学一样能建模、能预测、能验证的科学。

如果再记五个关键词：

可解模型：先研究能算清楚的玩具神经网络。
极限理论：模型无限宽、无限深、学习率极小时，规律可能浮现。
经验定律：scaling laws、edge of stability 是深度学习的“开普勒定律”。
超参数理论：μP 等方法让小模型调参迁移到大模型。
普适行为：不同模型可能会学到相似表征，说明背后有共同结构。

所以，对“学界终于找到了深度学习的牛顿定律”这句话，最稳妥的解读是：

不是已经找到了最终定律，
而是大家开始看见：深度学习也许真的会有一门基础科学。

#参考链接

Jamie Simon et al., There Will Be a Scientific Theory of Deep Learning, arXiv:2604.21691：https://arxiv.org/abs/2604.21691
论文项目站： https://learningmechanics.pub/
机器之心文章：《终于，学界找到了深度学习的“牛顿定律”》