Importance Archive

★★★★★ 收藏

这里整理所有被标记为 5 星的重要内容,作为个人优先级阅读入口。

★★★★★

共 45 篇
主题归档 · 2026-06-14

像给小白一样讲清楚:强化学习到底在解什么数学问题

从不动点方程、压缩映射、采样估计、分布漂移和三重耦合出发,用小白能听懂的方式解释强化学习为什么比监督学习难。
强化学习Bellman方程不动点RLHFGRPO数学直觉
主题归档 · 2026-06-14

小白版讲解:RL 是不是“全局参数化黑箱优化 + 数值最优控制”?

用小白能听懂的方式拆解 V777 关于强化学习的知乎回答:对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC,以及这套叙事对 LLM Agent 的启发。
强化学习最优控制占据测度对偶优化PPOMPCLLM Agent
论文精读 · 2026-06-13

Visual Language Hypothesis:视觉为什么需要“语言”?一篇拓扑视角论文的小白讲解

这篇论文用纤维丛、商空间、同胚等拓扑概念解释一个直觉:视觉理解不是记住像素,而是把许多外观变化压缩成少量稳定语义;这种压缩需要外部语义目标和能做“展开—咔哒归类”的模型结构。
视觉语言模型表征学习拓扑语义抽象多模态
主题归档 · 2026-06-11

大模型会反思吗?从 CoT、搜索轨迹到长推理的研究脉络

从 CoT、Self-Consistency、Verifier、ToT/ReAct/Reflexion 到 Stream of Search、Self-Backtracking 与 RL 长 CoT,梳理大模型“反思”和长推理能力到底是什么、哪里有效、哪里会失效,以及未来如何提升。
LLM ReasoningChain-of-ThoughtReflectionTest-Time ComputeBacktracking
论文精读 · 2026-06-10

Post-training is (Massive) Supervised Learning:后训练正在把 LLM 带回“大规模监督学习”吗?

这篇 position paper 认为,当前 LLM 的大规模后训练正在把评测分布变成训练分布;即使从随机初始化开始,只靠数学/代码 SFT 数据也能在对应 benchmark 上取得不低成绩,因此很多“推理能力”可能首先是分布拟合能力,而不是开放泛化能力。
LLMpost-trainingsupervised learningSFTRLreasoningmeta-learning
论文精读 · 2026-06-08

MiMo-7B 训练过程详解:一个 7B 推理模型是怎样从预训练到 RL 被“养出来”的

详细拆解小米 MiMo-7B 技术报告中的训练流程:推理导向预训练、MTP 架构、SFT 冷启动、可验证数学/代码 RL、test-difficulty reward、dynamic sampling 与 Seamless Rollout Engine。
MiMo-7Breasoning modelpretrainingreinforcement learningGRPOcode RL
主题归档 · 2026-06-04

把 CoT 压成一个统一 think token:从 Pause Token 到潜空间推理的研究脉络

调研“把显式思考过程替换成统一 token,让模型表面输出空白思考、内部完成计算”这一想法的可行性、已有工作和研究机会。
LLM ReasoningChain-of-ThoughtLatent ReasoningTest-Time ComputeResearch Survey
论文精读 · 2026-06-01

MiniMax-M2.7 技术报告详解:10B 激活参数如何撑起 Agentic Intelligence

详解 MiniMax-M2.7 技术报告:从 229.9B 总参数/9.8B 激活参数的 MoE 架构,到 192K 长上下文、MTP 推测解码、agentic 数据管线、Forge 强化学习系统、交错思考与自演化能力,理解“mini activations, max real-world intelligence”背后的系统路线。
MiniMax-M2.7MoEAgent RLForgeself-evolutioninterleaved thinkinglong context
论文精读 · 2026-06-01

Unlocking the Working Memory of Large Language Models for Latent Reasoning:让大模型在“工作记忆”里推理

详解 RiM 如何用固定 memory blocks 替代自回归生成的思维链,把中间推理从“说出来”变成“存在工作记忆里”,并在低延迟下取得比 Coconut 更好的数学推理表现。
latent reasoningLLM reasoningworking memoryCoconutRiMtest-time compute
论文精读 · 2026-05-26

ECHO:Terminal Agents 如何“免费”学到世界模型

解读 Microsoft Research 论文 ECHO:把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失,让失败轨迹也产生密集监督,从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。
LLM AgentAgent RLWorld ModelGRPOTerminal AgentCode Agent
论文精读 · 2026-05-24

HRM-Text:一篇试图把“预训练”重新做小的论文

解读 arXiv:2605.20613 HRM-Text:用分层递归架构、任务完成目标和 PrefixLM,把 1B 模型从零训练的门槛压到 40B tokens / 约 1500 美元量级。
论文解读预训练架构PrefixLMrecurrent-modelLLM
主题归档 · 2026-05-24

STaR 与自举式自训练:LLM 能不能自己生成训练数据并训练自己?

从 STaR 到 Quiet-STaR、V-STaR、B-STaR、AdaSTaR、START、STaR-SQL 等系列工作,系统梳理“模型自己生成训练信号再训练自己”这条路线的技术脉络、核心瓶颈与研究机会。
LLM自训练STaR推理合成数据self-improvement
主题归档 · 2026-05-19

ControlNet 小白详解:为什么一张边缘图就能控制 Stable Diffusion 画什么

用小白能听懂的方式,从 Stable Diffusion 为什么难控制讲起,逐步解释 ControlNet 的动机、结构、零卷积、训练与推理流程,并配上伪代码和 diffusers 示例代码。
diffusioncontrolnetstable-diffusionimage-generationtutorial
主题归档 · 2026-05-16

大模型 OPD:经典工作、发展逻辑与最新问题

系统梳理大模型 On-Policy Distillation 的定义、经典工作、发展逻辑、方法谱系与当前开放问题。
LLMOPDOn-Policy Distillation后训练LLM Agent
主题归档 · 2026-05-14

大语言模型 Adaptive Thinking:从“会思考”到“知道该想多久”

梳理大语言模型 Adaptive Thinking / reasoning effort / thinking budget 的主流做法、think/no-think 开关机制、训练与推理控制路径,以及当前研究机会。
LLMadaptive-thinkingreasoningtest-time-computepost-training
主题归档 · 2026-05-13

GPT-5.5、GPT-5.4、Codex、DeepSeek V4 与 GLM-5.1:Benchmark 与价格横向对比

横向比较 GPT-5.5、GPT-5.4、GPT-5.4 mini、GPT-5.3 Codex、GPT-5.2、DeepSeek V4 Pro/Flash 与 GLM-5.1 在 Agent、通用、数学、代码 benchmark 以及 API 价格上的表现。
LLMAgentBenchmarkCodingPricing
主题归档 · 2026-05-12

Hermes Agent 源码解读:从入口、主循环到 Gateway 的完整架构

基于 /usr/local/lib/hermes-agent 本地源码,系统解读 Hermes Agent 的 CLI、AIAgent 主循环、模型 Provider 路由、工具系统、Skills、Memory、SessionDB、Gateway、多平台适配、Cron、Webhook、Plugin、MCP、TUI、ACP、安全边界和扩展路线。
Hermes AgentAgent ArchitectureSource CodeGatewayTool CallingMCP
主题归档 · 2026-05-10

Multi-agent 发展历程与最新进展深度调研:从 MAS / DAI 到 LLM Agent Society

从经典分布式 AI/MAS、群体智能、MARL 到 LLM Agent Society,梳理 multi-agent 方向的发展脉络、关键工作、benchmark 与未来研究机会。
multi-agentLLM AgentMASMARLbenchmarkcode agent
主题归档 · 2026-05-10

上下文太多为什么会让大模型变笨:长上下文退化、Context Engineering 与科研机会综述

面向初学者和研究选题,系统解释长上下文退化的现象、机制、评测、模型与系统方案,以及它如何连接 RAG、上下文压缩、KV cache、Agent memory、代码智能、长轨迹 RL 和 latent-space reasoning。
long-contextLLMcontext-engineeringRAGmemoryagentbenchmark
主题归档 · 2026-05-10

以 DreamZero 为锚点看 World Action Model:从 Dreamer、视频生成规划到机器人零样本策略

以 DreamZero / World Action Models are Zero-shot Policies 为锚点,用小白能懂的人话解释 WAM 的前置脉络、视频-动作对齐机制、后续工作与可研究方向。
DreamZeroworld-action-modelroboticsworld-modelembodied-aimodel-based-rlvideo-generation
论文精读 · 2026-05-09

daVinci-LLM:把预训练从“炼丹”推进到“科学实验”

详细解读 daVinci-LLM 的核心贡献:全开放预训练过程、Data Darwinism 数据处理框架、两阶段自适应课程、200+ 消融实验,以及它对基础模型训练研究的启发。
LLMPretrainingOpen ModelsDataReasoning
主题归档 · 2026-05-06

Flow Matching 与 Diffusion:区别、联系,以及为什么新一代生成模型越来越偏向 Flow Matching

从概率路径、训练目标、采样动力学和工程优势四个层面解释 Flow Matching 与 Diffusion 的关系:Diffusion 可以看作一类带随机噪声的 score-based 生成过程,而 Flow Matching 更直接学习把噪声分布搬运到数据分布的确定性速度场,因此在训练目标、采样效率、路径设计和大模型工程上更统一、更方便。
flow matchingdiffusionmeanflowkaiming hegenerative modelrectified flowscore matchingtutorial
主题归档 · 2026-05-06

大模型预训练与 Mid-training 数据的差距:阶段定位、数据配方与准备方法

系统梳理大模型训练中 pretraining 与 mid-training 的定位差异:预训练数据负责建立通用语言、知识与表征底座,mid-training 数据则作为从通用预训练分布到后训练目标分布的桥梁,面向数学、代码、QA、长上下文、指令与推理等能力做高质量、低比例、强评估闭环的阶段性注入。
LLMpretrainingmid-trainingdata curationpost-trainingfoundation modelOLMoLlama
主题归档 · 2026-05-04

DiT(Diffusion Transformer)从数据到训练:一条完整的教学级讲解

从扩散模型的基本训练目标出发,解释 DiT 如何把 noisy image/latent 切成 token,用 Transformer 预测噪声或速度场,并用一个 CIFAR-10 教学版实现串起数据、shape、模块、loss 与采样流程。
DiTDiffusion Transformerdiffusiontransformergenerative-modeltutorial
主题归档 · 2026-05-04

从 OPD 到 OPSD / ExOPD:解读群聊里关于 On-Policy Distillation 的几篇论文

解读 Thinking Machines 的 On-Policy Distillation 博客,以及 arXiv:2604.13016、2603.25562、2601.18734、2602.12125 四篇工作,讲清 OPD、SFT 冷启动、teacher-supported region、OPSD、自蒸馏、多专家蒸馏和 log-prob shift 背后的技术逻辑。
OPDdistillationreinforcement-learningLLM-post-trainingOPSDExOPD
复现指南 · 2026-05-04

用 OpenClaw 搭建一个“鼠鼠研究站”同款个人研究网站

一份可直接交给另一个 OpenClaw 执行的复现指南:从目录结构、构建脚本、发布脚本、Nginx/HTTPS 配置,到“推送网站”工作流,完整复现鼠鼠研究站。
OpenClawresearch-siteguidedeploymentnginxstatic-site
主题归档 · 2026-05-04

用人话讲清 Learning Mechanics:深度学习真的找到“牛顿定律”了吗?

面向数学基础一般的读者,拆解机器之心文章《终于,学界找到了深度学习的“牛顿定律”》和论文 There Will Be a Scientific Theory of Deep Learning,讲清 Learning Mechanics 到底是什么、五条研究线索分别在说什么,以及它离真正的“牛顿定律”还有多远。
deep-learning-theorylearning-mechanicsneural-networkscaling-lawsNTKmuPtutorial
主题归档 · 2026-04-30

为什么 Diffusion 先流行,而 Flow Matching 到最近才大量使用?

解释为什么生成模型历史上先由 Diffusion 取得主导,而不是更直观的 Flow Matching:Diffusion 继承了去噪、score matching 和概率建模传统,训练稳定且早期经验成功;Flow Matching 则需要 ODE、continuous flow、optimal transport、rectified flow 等理论与工程共识成熟后才成为主流。
diffusionflow-matchinggenerative-modelsscore-matchingrectified-flowgenerative-ai
主题归档 · 2026-04-30

从罗福莉访谈看 Agent 时代的技术范式迁移:后训练、长上下文、框架自进化与研究机会

对罗福莉长访谈的技术观点提炼:AI 正从 Chat/Pre-train 主导转向 Agent/Post-train 主导,胜负焦点变为模型、Agent 框架、长上下文、RL Infra 与群体智能的协同演化。
LLM Agent后训练OpenClaw长上下文代码智能自进化智能组织与科研
主题归档 · 2026-04-30

数学数据能提升代码能力吗?代码数据能反哺数学推理吗?

数学与代码能力确实存在迁移,但不是简单对称迁移:代码更像形式化执行与工具使用的底座,常常更强地反哺数学;数学数据更强地提升抽象推理与可验证训练信号,对代码的提升依赖任务形态与训练阶段。
LLM数学推理代码智能预训练后训练数据配比RLVR
主题归档 · 2026-04-30

预训练数据能否像人类教育一样组织?Curriculum Learning、数据混合与 Developmental Pretraining 研究脉络

调研“按人类学习顺序组织预训练数据”的现有研究支撑:从 Bengio 的 Curriculum Learning、自步学习、NMT 中的 competence-based curriculum,到 BabyLM、TinyStories、Textbooks Are All You Need、DoReMi、ODM、Irreducible Curriculum 与最新 LLM 预训练课程实验,分析该想法的证据、边界与可研究机会。
LLM预训练curriculum-learningdata-mixturedevelopmental-learningdata-centric-ai
实验分析 · 2026-04-29

Megatron reported TFLOP/s 的真实含义:small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码,拆解 reported TFLOP/s/GPU 的估算口径,并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。
实验分析MegatronMFUH100FP8SWAGQAContext Parallel
论文精读 · 2026-04-29

从事实知识反推模型规模:IKP 论文解读与“价格能否替代知识探针”的小实验

解读 Incompressible Knowledge Probes 如何用长尾事实知识估算黑盒大模型规模,并用 OpenRouter 价格数据检验“能否用模型价格得到类似结论”。
LLM模型规模知识容量API价格论文解读
主题归档 · 2026-04-28

On-Policy Distillation:从模型压缩到 Agent 自我进化的蒸馏范式

On-Policy Distillation 将蒸馏从静态教师数据推进到学生自身行为分布上的密集监督;它不仅是 RL 的稳定替代形态,也是 DeepSeek-V4 式多专家合版、coding agent 经验吸收和 personal agent 自我进化的关键桥梁。
LLMAgentReinforcement LearningDistillationSelf-EvolutionDeepSeek-V4Coding Agent
主题归档 · 2026-04-27

大模型预训练数据准备中的去重算法:从 ExactSubstr 到 MinHash LSH 与语义去重

系统梳理大模型预训练数据去重的主流算法脉络,重点解释当前最常用、最有效的 MinHash LSH 近重复去重,以及 ExactSubstr、后缀数组、语义去重和 GPU 加速工具链的适用边界。
LLM预训练数据数据去重MinHashSemDeDup
主题归档 · 2026-04-26

OpenVLA 详解:开源 VLA 如何把视觉语言模型变成机器人策略

详细拆解 OpenVLA 的技术动机、模型结构、训练数据、动作表示、实验结果、微调部署路径与局限性,解释它为什么是 VLA 路线走向开放可复现的重要节点。
roboticsembodied-aivlaopenvlageneralist-policyimitation-learning
主题归档 · 2026-04-26

WAM(World Action Model)发展脉络综述:从世界模型到 VLA,再到统一生成与决策

系统梳理 WAM(World Action Model)截至 2026-04-26 的发展脉络:其前史如何从世界模型、VLA 和视频基础模型三条线汇合而来;每个代表工作相对之前方法解决了什么问题;又引入了哪些新的困难;以及 WAM 当前真正卡在哪里。
wamworld-modelroboticsembodied-aivlasurvey
主题归档 · 2026-04-26

从 SGD 到 Muon:大模型训练中优化器的演化逻辑、方法细节与未来展望

从最基础的随机梯度下降出发,系统梳理 Momentum、AdaGrad、RMSProp、Adam、AdamW、大模型训练中的参数分组与二阶/预条件思想,最后落到 Muon 的核心动机、算法结构、适用边界与未来优化器演化趋势。
optimizationllmtrainingmuondeep-learningreasoning
主题归档 · 2026-04-26

从 VLA 到 WAM:机器人基础模型的演化脉络、关键问题与下一步

系统梳理机器人基础模型从 RT-1、RT-2、Octo、OpenVLA 等 Vision-Language-Action 路线,如何因动作生成、闭环控制、长时程推理与泛化鲁棒性的瓶颈,进一步演进到 WAM(World Action Model)路线,并分析 WAM 的核心思想、解决的问题及其新挑战。
roboticsembodied-aivlaworld-modelwamsurvey
主题归档 · 2026-04-26

具身智能 Sim-to-Real 发展脉络综述:从弥合现实差距到构造可规模化的物理经验

梳理具身智能 Sim-to-Real 从精确建模、Domain Randomization、Real2Sim2Real、高性能仿真、Embodied AI Simulator 到生成式仿真和世界模型的研究逻辑与演化。
sim-to-realembodied-airoboticsrobot-learningworld-modelsurvey
主题归档 · 2026-04-25

具身智能发展脉络全景梳理:从控制与感知到机器人基础模型

系统梳理具身智能从经典机器人控制、深度强化学习、sim2real、模仿学习,到机器人基础模型、VLA 与跨机器人通用策略的发展逻辑,讲清每一阶段在解决什么核心问题。
embodied-airoboticsimitation-learningreinforcement-learningVLAsurvey
主题归档 · 2026-04-25

视频生成发展脉络全景梳理:从早期生成到 2026 世界复杂性竞争

系统梳理视频生成从 GAN/VAE 时代、扩散范式崛起、级联与高分辨率、DiT 与大规模开源,到 2026 年多模态音视频联合生成与世界复杂性竞争的发展逻辑。
video-generationdiffusionautoregressiveworld-modelsurveypapers
论文精读 · 2026-04-22

When Can LLMs Learn to Reason with Weak Supervision? 论文详解

这篇论文系统回答了一个关键问题:LLM 在什么条件下能靠弱监督 RL 真正学会推理,什么时候又只是在记忆和投机。
papersreasoningrlweak-supervisionrlvr
论文精读 · 2026-04-20

HY-World 2.0 详细解读

HY-World 2.0 不只是又一个 3D 生成模型,而是在尝试统一重建、生成、扩展与模拟四类能力,走向可交互的 3D 世界底座。
3Dworld-modelvideo-generationembodied-ai
论文精读 · 2026-04-20

OpenMythos 与 Mythos 中央假设深度调研

OpenMythos 不是 Anthropic Mythos 的内幕揭秘,而是一套把 Recurrent-Depth Transformer、latent reasoning、ACT、稳定递归和 MoE 拼装起来的高强度理论重建框架。
agentreasoningworld-modelrecurrent-depthlatent-reasoningtransformer