2026-06-14
详细解读 τ0-WM 这篇机器人操作论文:它如何把 Video Action Model 和 Action-Conditioned Video Simulator 统一到一个视频-动作世界模型里,用异构数据训练,并在测试时通过候选动作筛选、未来模拟和动作修正提升长程操作成功率。
2026-06-13
这篇论文用纤维丛、商空间、同胚等拓扑概念解释一个直觉:视觉理解不是记住像素,而是把许多外观变化压缩成少量稳定语义;这种压缩需要外部语义目标和能做“展开—咔哒归类”的模型结构。
2026-06-10
这篇 position paper 认为,当前 LLM 的大规模后训练正在把评测分布变成训练分布;即使从随机初始化开始,只靠数学/代码 SFT 数据也能在对应 benchmark 上取得不低成绩,因此很多“推理能力”可能首先是分布拟合能力,而不是开放泛化能力。
2026-06-08
详细拆解小米 MiMo-7B 技术报告中的训练流程:推理导向预训练、MTP 架构、SFT 冷启动、可验证数学/代码 RL、test-difficulty reward、dynamic sampling 与 Seamless Rollout Engine。
2026-06-01
详解 MiniMax-M2.7 技术报告:从 229.9B 总参数/9.8B 激活参数的 MoE 架构,到 192K 长上下文、MTP 推测解码、agentic 数据管线、Forge 强化学习系统、交错思考与自演化能力,理解“mini activations, max real-world intelligence”背后的系统路线。
2026-06-01
详解 RiM 如何用固定 memory blocks 替代自回归生成的思维链,把中间推理从“说出来”变成“存在工作记忆里”,并在低延迟下取得比 Coconut 更好的数学推理表现。
2026-05-26
解读 Microsoft Research 论文 ECHO:把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失,让失败轨迹也产生密集监督,从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。
2026-05-24
解读 arXiv:2605.20613 HRM-Text:用分层递归架构、任务完成目标和 PrefixLM,把 1B 模型从零训练的门槛压到 40B tokens / 约 1500 美元量级。
2026-05-09
详细解读 daVinci-LLM 的核心贡献:全开放预训练过程、Data Darwinism 数据处理框架、两阶段自适应课程、200+ 消融实验,以及它对基础模型训练研究的启发。
2026-04-29
解读 Incompressible Knowledge Probes 如何用长尾事实知识估算黑盒大模型规模,并用 OpenRouter 价格数据检验“能否用模型价格得到类似结论”。
2026-04-23
"这篇论文系统比较了多种模型增长方法,发现最简单的 depthwise stacking(Gstack)反而最有效,并进一步给出了 growth timing 与 growth factor 的经验法则。"
2026-04-22
这篇论文系统回答了一个关键问题:LLM 在什么条件下能靠弱监督 RL 真正学会推理,什么时候又只是在记忆和投机。
2026-04-20
HY-World 2.0 不只是又一个 3D 生成模型,而是在尝试统一重建、生成、扩展与模拟四类能力,走向可交互的 3D 世界底座。
2026-04-20
OpenMythos 不是 Anthropic Mythos 的内幕揭秘,而是一套把 Recurrent-Depth Transformer、latent reasoning、ACT、稳定递归和 MoE 拼装起来的高强度理论重建框架。
papers
**标题**:Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
papers
这篇论文介绍的是 **CALM(Continuous Autoregressive Language Models)**。它的核心主张是: