论文精读

论文精读

单篇论文精读,适合系统阅读。

论文精读

共 16 篇
2026-06-13

Visual Language Hypothesis:视觉为什么需要“语言”?一篇拓扑视角论文的小白讲解

这篇论文用纤维丛、商空间、同胚等拓扑概念解释一个直觉:视觉理解不是记住像素,而是把许多外观变化压缩成少量稳定语义;这种压缩需要外部语义目标和能做“展开—咔哒归类”的模型结构。
视觉语言模型表征学习拓扑语义抽象多模态
2026-06-10

Post-training is (Massive) Supervised Learning:后训练正在把 LLM 带回“大规模监督学习”吗?

这篇 position paper 认为,当前 LLM 的大规模后训练正在把评测分布变成训练分布;即使从随机初始化开始,只靠数学/代码 SFT 数据也能在对应 benchmark 上取得不低成绩,因此很多“推理能力”可能首先是分布拟合能力,而不是开放泛化能力。
LLMpost-trainingsupervised learningSFTRLreasoningmeta-learning
2026-06-08

MiMo-7B 训练过程详解:一个 7B 推理模型是怎样从预训练到 RL 被“养出来”的

详细拆解小米 MiMo-7B 技术报告中的训练流程:推理导向预训练、MTP 架构、SFT 冷启动、可验证数学/代码 RL、test-difficulty reward、dynamic sampling 与 Seamless Rollout Engine。
MiMo-7Breasoning modelpretrainingreinforcement learningGRPOcode RL
2026-06-01

MiniMax-M2.7 技术报告详解:10B 激活参数如何撑起 Agentic Intelligence

详解 MiniMax-M2.7 技术报告:从 229.9B 总参数/9.8B 激活参数的 MoE 架构,到 192K 长上下文、MTP 推测解码、agentic 数据管线、Forge 强化学习系统、交错思考与自演化能力,理解“mini activations, max real-world intelligence”背后的系统路线。
MiniMax-M2.7MoEAgent RLForgeself-evolutioninterleaved thinkinglong context
2026-06-01

Unlocking the Working Memory of Large Language Models for Latent Reasoning:让大模型在“工作记忆”里推理

详解 RiM 如何用固定 memory blocks 替代自回归生成的思维链,把中间推理从“说出来”变成“存在工作记忆里”,并在低延迟下取得比 Coconut 更好的数学推理表现。
latent reasoningLLM reasoningworking memoryCoconutRiMtest-time compute
2026-05-26

ECHO:Terminal Agents 如何“免费”学到世界模型

解读 Microsoft Research 论文 ECHO:把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失,让失败轨迹也产生密集监督,从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。
LLM AgentAgent RLWorld ModelGRPOTerminal AgentCode Agent
2026-05-24

HRM-Text:一篇试图把“预训练”重新做小的论文

解读 arXiv:2605.20613 HRM-Text:用分层递归架构、任务完成目标和 PrefixLM,把 1B 模型从零训练的门槛压到 40B tokens / 约 1500 美元量级。
论文解读预训练架构PrefixLMrecurrent-modelLLM
2026-05-09

daVinci-LLM:把预训练从“炼丹”推进到“科学实验”

详细解读 daVinci-LLM 的核心贡献:全开放预训练过程、Data Darwinism 数据处理框架、两阶段自适应课程、200+ 消融实验,以及它对基础模型训练研究的启发。
LLMPretrainingOpen ModelsDataReasoning
2026-04-29

从事实知识反推模型规模:IKP 论文解读与“价格能否替代知识探针”的小实验

解读 Incompressible Knowledge Probes 如何用长尾事实知识估算黑盒大模型规模,并用 OpenRouter 价格数据检验“能否用模型价格得到类似结论”。
LLM模型规模知识容量API价格论文解读
2026-04-23

"论文解读:Stacking Your Transformers——重新审视用模型增长加速 LLM 预训练"

"这篇论文系统比较了多种模型增长方法,发现最简单的 depthwise stacking(Gstack)反而最有效,并进一步给出了 growth timing 与 growth factor 的经验法则。"
["LLM""pretraining""scaling law""model growth""stacking""论文解读"]
2026-04-22

When Can LLMs Learn to Reason with Weak Supervision? 论文详解

这篇论文系统回答了一个关键问题:LLM 在什么条件下能靠弱监督 RL 真正学会推理,什么时候又只是在记忆和投机。
papersreasoningrlweak-supervisionrlvr
2026-04-20

HY-World 2.0 详细解读

HY-World 2.0 不只是又一个 3D 生成模型,而是在尝试统一重建、生成、扩展与模拟四类能力,走向可交互的 3D 世界底座。
3Dworld-modelvideo-generationembodied-ai
2026-04-20

OpenMythos 与 Mythos 中央假设深度调研

OpenMythos 不是 Anthropic Mythos 的内幕揭秘,而是一套把 Recurrent-Depth Transformer、latent reasoning、ACT、稳定递归和 MoE 拼装起来的高强度理论重建框架。
agentreasoningworld-modelrecurrent-depthlatent-reasoningtransformer
papers

arXiv 2603.19235 解读

**标题**:Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
3Dworld-modelagentrlvideoreasoning
papers

CALM 论文总结

这篇论文介绍的是 **CALM(Continuous Autoregressive Language Models)**。它的核心主张是:
papers

Vega 3D 详解

Vega 3D 可以理解成 **把 Vega / Vega-Lite 这类声明式可视化思路,延伸到三维空间中的一套图形表达方式**:你不是直接逐点手写底层 3D 渲染逻辑,而是用更高层的数据、编码(encoding)、标记(mark)、场景(scene)和交互描述,去生成 3D 可视化结果。
3Dworld-model