主题归档

围绕长期关注方向归档整理的主题笔记。

主题归档

共 20 篇

2026-04-30

AI Infra 新探索：克服 Coding Agent 推理的 Scaling Pain，到底讲了什么？

解读 GLM 关于 Coding Agent 推理 Scaling Pain 的技术博客：为什么高并发长上下文场景会导致乱码、复读、生僻字，PD 分离与 HiCache 中的 KV Cache 竞态如何发生，以及 LayerSplit 如何缓解长上下文 Prefill 瓶颈。

llm-infra coding-agent kv-cache inference-serving sglang glm

2026-04-30

从罗福莉访谈看 Agent 时代的技术范式迁移：后训练、长上下文、框架自进化与研究机会

对罗福莉长访谈的技术观点提炼：AI 正从 Chat/Pre-train 主导转向 Agent/Post-train 主导，胜负焦点变为模型、Agent 框架、长上下文、RL Infra 与群体智能的协同演化。

LLM Agent 后训练 OpenClaw 长上下文代码智能自进化智能组织与科研

2026-04-30

数学数据能提升代码能力吗？代码数据能反哺数学推理吗？

数学与代码能力确实存在迁移，但不是简单对称迁移：代码更像形式化执行与工具使用的底座，常常更强地反哺数学；数学数据更强地提升抽象推理与可验证训练信号，对代码的提升依赖任务形态与训练阶段。

LLM 数学推理代码智能预训练后训练数据配比 RLVR

2026-04-28

On-Policy Distillation：从模型压缩到 Agent 自我进化的蒸馏范式

On-Policy Distillation 将蒸馏从静态教师数据推进到学生自身行为分布上的密集监督；它不仅是 RL 的稳定替代形态，也是 DeepSeek-V4 式多专家合版、coding agent 经验吸收和 personal agent 自我进化的关键桥梁。

LLM Agent Reinforcement Learning Distillation Self-Evolution DeepSeek-V4 Coding Agent

2026-04-27

大模型预训练数据准备中的去重算法：从 ExactSubstr 到 MinHash LSH 与语义去重

系统梳理大模型预训练数据去重的主流算法脉络，重点解释当前最常用、最有效的 MinHash LSH 近重复去重，以及 ExactSubstr、后缀数组、语义去重和 GPU 加速工具链的适用边界。

LLM 预训练数据数据去重 MinHash SemDeDup

2026-04-26

OpenVLA 详解：开源 VLA 如何把视觉语言模型变成机器人策略

详细拆解 OpenVLA 的技术动机、模型结构、训练数据、动作表示、实验结果、微调部署路径与局限性，解释它为什么是 VLA 路线走向开放可复现的重要节点。

robotics embodied-ai vla openvla generalist-policy imitation-learning

2026-04-26

WAM（World Action Model）发展脉络综述：从世界模型到 VLA，再到统一生成与决策

系统梳理 WAM（World Action Model）截至 2026-04-26 的发展脉络：其前史如何从世界模型、VLA 和视频基础模型三条线汇合而来；每个代表工作相对之前方法解决了什么问题；又引入了哪些新的困难；以及 WAM 当前真正卡在哪里。

wam world-model robotics embodied-ai vla survey

2026-04-26

从 SGD 到 Muon：大模型训练中优化器的演化逻辑、方法细节与未来展望

从最基础的随机梯度下降出发，系统梳理 Momentum、AdaGrad、RMSProp、Adam、AdamW、大模型训练中的参数分组与二阶/预条件思想，最后落到 Muon 的核心动机、算法结构、适用边界与未来优化器演化趋势。

optimization llm training muon deep-learning reasoning

2026-04-26

从 VLA 到 WAM：机器人基础模型的演化脉络、关键问题与下一步

系统梳理机器人基础模型从 RT-1、RT-2、Octo、OpenVLA 等 Vision-Language-Action 路线，如何因动作生成、闭环控制、长时程推理与泛化鲁棒性的瓶颈，进一步演进到 WAM（World Action Model）路线，并分析 WAM 的核心思想、解决的问题及其新挑战。

robotics embodied-ai vla world-model wam survey

2026-04-26

具身智能 Sim-to-Real 发展脉络综述：从弥合现实差距到构造可规模化的物理经验

梳理具身智能 Sim-to-Real 从精确建模、Domain Randomization、Real2Sim2Real、高性能仿真、Embodied AI Simulator 到生成式仿真和世界模型的研究逻辑与演化。

sim-to-real embodied-ai robotics robot-learning world-model survey

2026-04-25

具身智能发展脉络全景梳理：从控制与感知到机器人基础模型

系统梳理具身智能从经典机器人控制、深度强化学习、sim2real、模仿学习，到机器人基础模型、VLA 与跨机器人通用策略的发展逻辑，讲清每一阶段在解决什么核心问题。

embodied-ai robotics imitation-learning reinforcement-learning VLA survey

2026-04-25

视频生成发展脉络全景梳理：从早期生成到 2026 世界复杂性竞争

系统梳理视频生成从 GAN/VAE 时代、扩散范式崛起、级联与高分辨率、DiT 与大规模开源，到 2026 年多模态音视频联合生成与世界复杂性竞争的发展逻辑。

video-generation diffusion autoregressive world-model survey papers

2026-04-24

DeepSeek V4 技术报告解读：从架构、训练到系统工程的全面升级

系统拆解 DeepSeek V4 技术报告的核心思路，重点分析其 MoE 架构、路由与负载均衡、长上下文优化、训练系统设计、后训练与推理部署上的特色与创新。

deepseek moe reasoning 长上下文系统工程

topics

3D / 时空 VAE 详解

**3D / 时空 VAE（Variational Autoencoder）**，可以理解成：

3D world-model rl video

topics

Better & Faster Large Language Models via Multi-token Prediction 论文笔记

这篇论文最重要的观点是：

topics

Multi-Token Prediction（MTP）研究进展

这个主题关注：

agent

topics

从 CALM 出发：引用论文与后续工作梳理

这份笔记从 **CALM（Continuous Autoregressive Language Models）** 出发，先看目前能检索到的引用论文，再按研究方向梳理它之后的一些相关工作。

video

topics

小米 MiMo 模型设计

这个主题关注小米 MiMo 系列公开技术信息，当前重点包括：

agent rl

topics

强化学习如何推动大模型发展

这个主题关注：

agent rl reasoning

topics

目前大模型与 LLM Agent 的 Credit Assignment 研究报告（2023-2026）

截至 2026-03，LLM 领域的 credit assignment 已形成两条主线：其一是“偏好学习主线”（RLHF/RLAIF 与 DPO/IPO/KTO/ORPO/SimPO 等），其核心是把序列级偏好信号转成 token 级可优化目标；其二是“可验证奖励主线”（RLVR、GRPO、过程奖励 PRM、结果奖励 ORM），在数学/代码等可判真任务上显

agent rl reasoning