Importance Archive

★★★★★ 收藏

这里整理所有被标记为 5 星的重要内容，作为个人优先级阅读入口。

★★★★★

共 68 篇

论文精读 · 2026-07-07

DUSt3R：把复杂几何视觉变成 pointmap 回归

详解 DUSt3R 如何用 pointmap 表示统一无标定双目/多视图重建、深度估计、像素匹配与相机位姿恢复。

3D Vision DUSt3R MVS SfM Pointmap Foundation Model

主题归档 · 2026-06-30

Cybench：用 CTF 任务衡量 LLM Agent 的真实网络安全能力

详细解读 Cybench 这个开放网络安全 Agent benchmark：它如何把真实 CTF 任务封装成可执行环境，如何用子任务和人类首解时间衡量能力，以及它对长轨迹 Agent 评测的启发与局限。

benchmark llm-agent cybersecurity evaluation cybench

论文精读 · 2026-06-26

Qwen-AgentWorld：把“世界模型”搬进语言 Agent

这篇论文把 Agent 的交互环境本身建模成一个语言世界模型：既可以作为可控模拟器给 Agent 做 RL，也可以作为 Agent 的预训练 warm-up，让模型在行动前学会预测下一步环境反馈。

LLM Agent World Model Agentic RL Qwen Model-Based RL

主题归档 · 2026-06-24

ALE Agents' Last Exam：从“会答题”到“会工作”的 Agent Benchmark

Agents' Last Exam 试图把 Agent 评测从知识问答和短交互推进到真实职业工作流、长时程执行和可验证交付物。

llm-agent benchmark agent computer-use research-survey

论文精读 · 2026-06-23

Latent Spatial Memory for Video World Models：把 3D 世界记忆搬进扩散模型的 latent space

详解 arXiv 2606.09828v1：Mirage 如何用 latent spatial memory 替代 RGB 点云缓存，让视频世界模型在保持 3D 一致性的同时显著降低速度和显存开销。

video world model latent memory 3D consistency diffusion model world model

论文精读 · 2026-06-21

"ExpRL：把参考答案从 SFT 样本变成 RL 探索脚手架"

"详解 arXiv 2606.17024：ExpRL 如何用参考解答构造 dense reward，解决稀疏奖励 RL 在硬题上的探索覆盖不足问题。"

reinforcement-learning llm-reasoning mid-training expRL GRPO agentic-rl

主题归档 · 2026-06-21

GIGPO 与 HGPO：长轨迹 LLM Agent 强化学习里的“分组信用分配”

从 GRPO 到 GIGPO、HGPO，解释为什么长轨迹 Agent RL 需要从整条轨迹奖励走向分层、上下文一致的步级优势估计。

LLM Agent Reinforcement Learning GRPO GIGPO HGPO Credit Assignment

主题归档 · 2026-06-21

OpenAI《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》详解：RL 能否训练出更“持久有益”的模型？

详细解读 OpenAI Alignment 团队的 Beneficial Trait RL 论文：为什么从“让模型完成任务”转向“强化有益人格特质”，它如何构造数据、训练模型、验证跨域泛化与对抗持久性，以及这对 RLHF、模型对齐和未来 Agent 训练意味着什么。

alignment reinforcement-learning openai beneficial-ai emergent-misalignment post-training

主题归档 · 2026-06-21

PPO 在 Agentic RL 中的应用与进展：从 RLHF 到长轨迹 Agent 训练

梳理 PPO 如何从 RLHF 的标准算法，演化到多轮工具使用、搜索、Web/GUI/代码 Agent 中的 turn-level、sequence-level、trajectory-level 训练框架，并分析它与 GRPO/GIGPO/HGPO 等新算法的关系。

PPO Agentic RL LLM Agent RLHF RLVR GRPO Credit Assignment Post-training

主题归档 · 2026-06-19

Web Search Agent 与 Code Agent 的 Agentic RL 演化路径：从“会调用工具”到“会在环境里学习”

基于 Awesome-AgenticLLM-RL-Papers 中 Search & Research Agent 与 Code Agent 两节，梳理 Agentic RL 如何把检索与代码从一次性生成问题推进到长轨迹、可验证、可自我改进的智能体训练问题。

LLM Agent Agentic RL Web Search Agent Code Agent Reinforcement Learning

论文精读 · 2026-06-18

Rethinking Generalization in Reasoning SFT：SFT 真的只会记忆吗？

解读 arXiv 2604.06628：reasoning SFT 的泛化不是“有/没有”的二元问题，而是由优化充分性、数据质量与结构、基础模型能力共同决定，并且伴随安全退化代价。

reasoning-sft long-cot post-training generalization rlvr safety

论文精读 · 2026-06-17

LUFFY 论文详解：Learning to Reason under Off-Policy Guidance

详解 arXiv:2504.14945 的 LUFFY：为什么纯 on-policy RLVR 会受限于模型初始能力，为什么朴素 SFT 又容易僵硬模仿，以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。

LLM Reasoning RLVR Off-Policy GRPO LUFFY Reasoning RL

主题归档 · 2026-06-17

Mixture-of-Transformers（MoT）架构详解：把多模态大模型从“一个脑子硬扛所有模态”改成“按模态分工的 Transformer 混合体”

详细解释 Meta 提出的 Mixture-of-Transformers（MoT）架构：它为什么不是普通 MoE，怎样按模态解耦 Transformer 参数、保留全局自注意力，以及为什么能显著降低多模态预训练 FLOPs 和 wall-clock time。

Multimodal Foundation Model Mixture-of-Transformers MoE Sparse Transformer Architecture Pretraining

论文精读 · 2026-06-17

VibeThinker-3B：3B 小模型能否逼近一线可验证推理能力？

详解 VibeThinker-3B 技术报告：如何用 Spectrum-to-Signal 后训练范式、multi-domain RL、offline self-distillation 与 claim-level test-time scaling，把 3B dense 小模型推到数学和代码等可验证推理任务的一线性能区间。

LLM Reasoning Small Language Models Post-training RLVR Code Reasoning Test-time Scaling

主题归档 · 2026-06-17

从 LUFFY 看 reasoning SFT 的 off-policy 问题：从“背高手答案”到在学生分布上学习

以 LUFFY 为锚点，梳理 reasoning SFT 中 teacher trace 与 student policy 分布错配的问题，以及后续沿 RLVR、OPD、backtracking、agent step-wise distillation 等方向形成的研究现状。

LLM Reasoning Think SFT Off-Policy RLVR OPD Distillation

主题归档 · 2026-06-17

从常微分方程、随机微分方程与“场”的角度理解 Flow Matching 和 Diffusion

用统一的动力系统视角解释 Flow Matching 与 Diffusion：ODE 视角把生成理解为确定性速度场搬运概率分布，SDE 视角把 diffusion 理解为带噪声的随机粒子系统，而“场”的视角则把两者统一为概率密度在空间中的连续流动。Flow Matching 直接学习速度场，Diffusion 先构造随机扩散再学习反向 score，两者最终可通过 probability flow ODE 连接起来。

flow matching diffusion ode sde probability flow score matching vector field continuity equation generative model tutorial

主题归档 · 2026-06-17

让模型学会回退：LLM Search Trace / Backtracking 研究脉络综述

深度梳理 LLM 中 reflection、search trace、backtracking 与 test-time compute 的研究线：为什么错误轨迹有时有价值，什么时候回退有效，为什么直接 SFT 反思文本不等于学会搜索，以及这条线对 LLM Agent / Code Agent 的启发。

LLM Reasoning Backtracking Search Trace Reflection Test-Time Compute RLVR

主题归档 · 2026-06-16

Think SFT 的 Off-Policy 问题：从反思轨迹到 On-Policy Distillation 的研究线

梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题，以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。

LLM Reasoning SFT Off-Policy On-Policy Distillation Agent RL

论文精读 · 2026-06-15

JitRL：不用梯度更新，让 LLM Agent 在测试时做“即时强化学习”

详解 Just-In-Time Reinforcement Learning 如何把历史轨迹记忆转成 advantage，在推理时直接加到候选动作 logits 上，从而在不更新参数的情况下实现类似 KL 约束策略优化的 agent 持续学习。

LLM Agent reinforcement learning continual learning test-time learning memory WebArena

主题归档 · 2026-06-15

LLM + DPO 经典工作、发展脉络与未解问题

系统梳理 DPO 从 RLHF/PPO 替代方案到偏好优化基础组件的发展脉络，分析 IPO、KTO、ORPO、SimPO、Step-DPO、Online DPO 等后续路线，以及 DPO 在 reasoning 与 LLM Agent 场景中的核心瓶颈。

LLM DPO RLHF preference optimization alignment agent

主题归档 · 2026-06-15

LLM 指令遵循：经典工作、发展脉络、现状与未解问题

系统梳理 LLM 指令遵循从 prompt、多任务指令微调、RLHF、合成指令数据，到复杂约束评测、指令层级、prompt injection 与 agent 行动合规的发展脉络，并分析当前未解问题与研究机会。

LLM instruction following instruction tuning alignment RLHF agent

主题归档 · 2026-06-15

Think / Reasoning 模型的 SFT：和传统指令微调有什么不同？

系统梳理 think/reasoning 模型 SFT 与传统 instruction SFT 的差异，分析 DeepSeek-R1、s1、LIMO、STILL-2、Sky-T1、OpenThoughts、Qwen3 等代表工作，并讨论 long-CoT SFT、cold-start、蒸馏、verifier、RLVR、test-time compute 与 latent reasoning 的关系。

LLM reasoning model think model SFT long-CoT RLVR distillation

主题归档 · 2026-06-14

像给小白一样讲清楚：强化学习到底在解什么数学问题

从不动点方程、压缩映射、采样估计、分布漂移和三重耦合出发，用小白能听懂的方式解释强化学习为什么比监督学习难。

强化学习 Bellman方程不动点 RLHF GRPO 数学直觉

主题归档 · 2026-06-14

小白版讲解：RL 是不是“全局参数化黑箱优化 + 数值最优控制”？

用小白能听懂的方式拆解 V777 关于强化学习的知乎回答：对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC，以及这套叙事对 LLM Agent 的启发。

强化学习最优控制占据测度对偶优化 PPO MPC LLM Agent

论文精读 · 2026-06-14

详解 τ0-WM：把“会想象未来”的视频世界模型做成机器人策略

详细解读 τ0-WM 这篇机器人操作论文：它如何把 Video Action Model 和 Action-Conditioned Video Simulator 统一到一个视频-动作世界模型里，用异构数据训练，并在测试时通过候选动作筛选、未来模拟和动作修正提升长程操作成功率。

机器人世界模型视频生成 VLA Test-Time Compute Manipulation

论文精读 · 2026-06-13

Visual Language Hypothesis：视觉为什么需要“语言”？一篇拓扑视角论文的小白讲解

这篇论文用纤维丛、商空间、同胚等拓扑概念解释一个直觉：视觉理解不是记住像素，而是把许多外观变化压缩成少量稳定语义；这种压缩需要外部语义目标和能做“展开—咔哒归类”的模型结构。

视觉语言模型表征学习拓扑语义抽象多模态

主题归档 · 2026-06-11

大模型会反思吗？从 CoT、搜索轨迹到长推理的研究脉络

从 CoT、Self-Consistency、Verifier、ToT/ReAct/Reflexion 到 Stream of Search、Self-Backtracking 与 RL 长 CoT，梳理大模型“反思”和长推理能力到底是什么、哪里有效、哪里会失效，以及未来如何提升。

LLM Reasoning Chain-of-Thought Reflection Test-Time Compute Backtracking

论文精读 · 2026-06-10

Post-training is (Massive) Supervised Learning：后训练正在把 LLM 带回“大规模监督学习”吗？

这篇 position paper 认为，当前 LLM 的大规模后训练正在把评测分布变成训练分布；即使从随机初始化开始，只靠数学/代码 SFT 数据也能在对应 benchmark 上取得不低成绩，因此很多“推理能力”可能首先是分布拟合能力，而不是开放泛化能力。

LLM post-training supervised learning SFT RL reasoning meta-learning

论文精读 · 2026-06-08

MiMo-7B 训练过程详解：一个 7B 推理模型是怎样从预训练到 RL 被“养出来”的

详细拆解小米 MiMo-7B 技术报告中的训练流程：推理导向预训练、MTP 架构、SFT 冷启动、可验证数学/代码 RL、test-difficulty reward、dynamic sampling 与 Seamless Rollout Engine。

MiMo-7B reasoning model pretraining reinforcement learning GRPO code RL

主题归档 · 2026-06-04

把 CoT 压成一个统一 think token：从 Pause Token 到潜空间推理的研究脉络

调研“把显式思考过程替换成统一 token，让模型表面输出空白思考、内部完成计算”这一想法的可行性、已有工作和研究机会。

LLM Reasoning Chain-of-Thought Latent Reasoning Test-Time Compute Research Survey

论文精读 · 2026-06-01

MiniMax-M2.7 技术报告详解：10B 激活参数如何撑起 Agentic Intelligence

详解 MiniMax-M2.7 技术报告：从 229.9B 总参数/9.8B 激活参数的 MoE 架构，到 192K 长上下文、MTP 推测解码、agentic 数据管线、Forge 强化学习系统、交错思考与自演化能力，理解“mini activations, max real-world intelligence”背后的系统路线。

MiniMax-M2.7 MoE Agent RL Forge self-evolution interleaved thinking long context

论文精读 · 2026-06-01

Unlocking the Working Memory of Large Language Models for Latent Reasoning：让大模型在“工作记忆”里推理

详解 RiM 如何用固定 memory blocks 替代自回归生成的思维链，把中间推理从“说出来”变成“存在工作记忆里”，并在低延迟下取得比 Coconut 更好的数学推理表现。

latent reasoning LLM reasoning working memory Coconut RiM test-time compute

论文精读 · 2026-05-26

ECHO：Terminal Agents 如何“免费”学到世界模型

解读 Microsoft Research 论文 ECHO：把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失，让失败轨迹也产生密集监督，从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。

LLM Agent Agent RL World Model GRPO Terminal Agent Code Agent

论文精读 · 2026-05-24

HRM-Text：一篇试图把“预训练”重新做小的论文

解读 arXiv:2605.20613 HRM-Text：用分层递归架构、任务完成目标和 PrefixLM，把 1B 模型从零训练的门槛压到 40B tokens / 约 1500 美元量级。

论文解读预训练架构 PrefixLM recurrent-model LLM

主题归档 · 2026-05-24

STaR 与自举式自训练：LLM 能不能自己生成训练数据并训练自己？

从 STaR 到 Quiet-STaR、V-STaR、B-STaR、AdaSTaR、START、STaR-SQL 等系列工作，系统梳理“模型自己生成训练信号再训练自己”这条路线的技术脉络、核心瓶颈与研究机会。

LLM 自训练 STaR 推理合成数据 self-improvement

主题归档 · 2026-05-19

ControlNet 小白详解：为什么一张边缘图就能控制 Stable Diffusion 画什么

用小白能听懂的方式，从 Stable Diffusion 为什么难控制讲起，逐步解释 ControlNet 的动机、结构、零卷积、训练与推理流程，并配上伪代码和 diffusers 示例代码。

diffusion controlnet stable-diffusion image-generation tutorial

主题归档 · 2026-05-16

大模型 OPD：经典工作、发展逻辑与最新问题

系统梳理大模型 On-Policy Distillation 的定义、经典工作、发展逻辑、方法谱系与当前开放问题。

LLM OPD On-Policy Distillation 后训练 LLM Agent

主题归档 · 2026-05-14

大语言模型 Adaptive Thinking：从“会思考”到“知道该想多久”

梳理大语言模型 Adaptive Thinking / reasoning effort / thinking budget 的主流做法、think/no-think 开关机制、训练与推理控制路径，以及当前研究机会。

LLM adaptive-thinking reasoning test-time-compute post-training

主题归档 · 2026-05-13

GPT-5.5、GPT-5.4、Codex、DeepSeek V4 与 GLM-5.1：Benchmark 与价格横向对比

横向比较 GPT-5.5、GPT-5.4、GPT-5.4 mini、GPT-5.3 Codex、GPT-5.2、DeepSeek V4 Pro/Flash 与 GLM-5.1 在 Agent、通用、数学、代码 benchmark 以及 API 价格上的表现。

LLM Agent Benchmark Coding Pricing

主题归档 · 2026-05-12

Hermes Agent 源码解读：从入口、主循环到 Gateway 的完整架构

基于 /usr/local/lib/hermes-agent 本地源码，系统解读 Hermes Agent 的 CLI、AIAgent 主循环、模型 Provider 路由、工具系统、Skills、Memory、SessionDB、Gateway、多平台适配、Cron、Webhook、Plugin、MCP、TUI、ACP、安全边界和扩展路线。

Hermes Agent Agent Architecture Source Code Gateway Tool Calling MCP

主题归档 · 2026-05-10

Multi-agent 发展历程与最新进展深度调研：从 MAS / DAI 到 LLM Agent Society

从经典分布式 AI/MAS、群体智能、MARL 到 LLM Agent Society，梳理 multi-agent 方向的发展脉络、关键工作、benchmark 与未来研究机会。

multi-agent LLM Agent MAS MARL benchmark code agent

主题归档 · 2026-05-10

上下文太多为什么会让大模型变笨：长上下文退化、Context Engineering 与科研机会综述

面向初学者和研究选题，系统解释长上下文退化的现象、机制、评测、模型与系统方案，以及它如何连接 RAG、上下文压缩、KV cache、Agent memory、代码智能、长轨迹 RL 和 latent-space reasoning。

long-context LLM context-engineering RAG memory agent benchmark

主题归档 · 2026-05-10

以 DreamZero 为锚点看 World Action Model：从 Dreamer、视频生成规划到机器人零样本策略

以 DreamZero / World Action Models are Zero-shot Policies 为锚点，用小白能懂的人话解释 WAM 的前置脉络、视频-动作对齐机制、后续工作与可研究方向。

DreamZero world-action-model robotics world-model embodied-ai model-based-rl video-generation

论文精读 · 2026-05-09

daVinci-LLM：把预训练从“炼丹”推进到“科学实验”

详细解读 daVinci-LLM 的核心贡献：全开放预训练过程、Data Darwinism 数据处理框架、两阶段自适应课程、200+ 消融实验，以及它对基础模型训练研究的启发。

LLM Pretraining Open Models Data Reasoning

主题归档 · 2026-05-06

Flow Matching 与 Diffusion：区别、联系，以及为什么新一代生成模型越来越偏向 Flow Matching

从概率路径、训练目标、采样动力学和工程优势四个层面解释 Flow Matching 与 Diffusion 的关系：Diffusion 可以看作一类带随机噪声的 score-based 生成过程，而 Flow Matching 更直接学习把噪声分布搬运到数据分布的确定性速度场，因此在训练目标、采样效率、路径设计和大模型工程上更统一、更方便。

flow matching diffusion meanflow kaiming he generative model rectified flow score matching tutorial

主题归档 · 2026-05-06

大模型预训练与 Mid-training 数据的差距：阶段定位、数据配方与准备方法

系统梳理大模型训练中 pretraining 与 mid-training 的定位差异：预训练数据负责建立通用语言、知识与表征底座，mid-training 数据则作为从通用预训练分布到后训练目标分布的桥梁，面向数学、代码、QA、长上下文、指令与推理等能力做高质量、低比例、强评估闭环的阶段性注入。

LLM pretraining mid-training data curation post-training foundation model OLMo Llama

主题归档 · 2026-05-04

DiT（Diffusion Transformer）从数据到训练：一条完整的教学级讲解

从扩散模型的基本训练目标出发，解释 DiT 如何把 noisy image/latent 切成 token，用 Transformer 预测噪声或速度场，并用一个 CIFAR-10 教学版实现串起数据、shape、模块、loss 与采样流程。

DiT Diffusion Transformer diffusion transformer generative-model tutorial

主题归档 · 2026-05-04

从 OPD 到 OPSD / ExOPD：解读群聊里关于 On-Policy Distillation 的几篇论文

解读 Thinking Machines 的 On-Policy Distillation 博客，以及 arXiv:2604.13016、2603.25562、2601.18734、2602.12125 四篇工作，讲清 OPD、SFT 冷启动、teacher-supported region、OPSD、自蒸馏、多专家蒸馏和 log-prob shift 背后的技术逻辑。

OPD distillation reinforcement-learning LLM-post-training OPSD ExOPD

复现指南 · 2026-05-04

用 OpenClaw 搭建一个“鼠鼠研究站”同款个人研究网站

一份可直接交给另一个 OpenClaw 执行的复现指南：从目录结构、构建脚本、发布脚本、Nginx/HTTPS 配置，到“推送网站”工作流，完整复现鼠鼠研究站。

OpenClaw research-site guide deployment nginx static-site

主题归档 · 2026-05-04

用人话讲清 Learning Mechanics：深度学习真的找到“牛顿定律”了吗？

面向数学基础一般的读者，拆解机器之心文章《终于，学界找到了深度学习的“牛顿定律”》和论文 There Will Be a Scientific Theory of Deep Learning，讲清 Learning Mechanics 到底是什么、五条研究线索分别在说什么，以及它离真正的“牛顿定律”还有多远。

deep-learning-theory learning-mechanics neural-network scaling-laws NTK muP tutorial

主题归档 · 2026-04-30

为什么 Diffusion 先流行，而 Flow Matching 到最近才大量使用？

解释为什么生成模型历史上先由 Diffusion 取得主导，而不是更直观的 Flow Matching：Diffusion 继承了去噪、score matching 和概率建模传统，训练稳定且早期经验成功；Flow Matching 则需要 ODE、continuous flow、optimal transport、rectified flow 等理论与工程共识成熟后才成为主流。

diffusion flow-matching generative-models score-matching rectified-flow generative-ai

主题归档 · 2026-04-30

从罗福莉访谈看 Agent 时代的技术范式迁移：后训练、长上下文、框架自进化与研究机会

对罗福莉长访谈的技术观点提炼：AI 正从 Chat/Pre-train 主导转向 Agent/Post-train 主导，胜负焦点变为模型、Agent 框架、长上下文、RL Infra 与群体智能的协同演化。

LLM Agent 后训练 OpenClaw 长上下文代码智能自进化智能组织与科研

主题归档 · 2026-04-30

数学数据能提升代码能力吗？代码数据能反哺数学推理吗？

数学与代码能力确实存在迁移，但不是简单对称迁移：代码更像形式化执行与工具使用的底座，常常更强地反哺数学；数学数据更强地提升抽象推理与可验证训练信号，对代码的提升依赖任务形态与训练阶段。

LLM 数学推理代码智能预训练后训练数据配比 RLVR

主题归档 · 2026-04-30

预训练数据能否像人类教育一样组织？Curriculum Learning、数据混合与 Developmental Pretraining 研究脉络

调研“按人类学习顺序组织预训练数据”的现有研究支撑：从 Bengio 的 Curriculum Learning、自步学习、NMT 中的 competence-based curriculum，到 BabyLM、TinyStories、Textbooks Are All You Need、DoReMi、ODM、Irreducible Curriculum 与最新 LLM 预训练课程实验，分析该想法的证据、边界与可研究机会。

LLM 预训练 curriculum-learning data-mixture developmental-learning data-centric-ai

实验分析 · 2026-04-29

Megatron reported TFLOP/s 的真实含义：small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码，拆解 reported TFLOP/s/GPU 的估算口径，并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。

实验分析 Megatron MFU H100 FP8 SWA GQA Context Parallel

论文精读 · 2026-04-29

从事实知识反推模型规模：IKP 论文解读与“价格能否替代知识探针”的小实验

解读 Incompressible Knowledge Probes 如何用长尾事实知识估算黑盒大模型规模，并用 OpenRouter 价格数据检验“能否用模型价格得到类似结论”。

LLM 模型规模知识容量 API价格论文解读

主题归档 · 2026-04-28

On-Policy Distillation：从模型压缩到 Agent 自我进化的蒸馏范式

On-Policy Distillation 将蒸馏从静态教师数据推进到学生自身行为分布上的密集监督；它不仅是 RL 的稳定替代形态，也是 DeepSeek-V4 式多专家合版、coding agent 经验吸收和 personal agent 自我进化的关键桥梁。

LLM Agent Reinforcement Learning Distillation Self-Evolution DeepSeek-V4 Coding Agent

主题归档 · 2026-04-27

大模型预训练数据准备中的去重算法：从 ExactSubstr 到 MinHash LSH 与语义去重

系统梳理大模型预训练数据去重的主流算法脉络，重点解释当前最常用、最有效的 MinHash LSH 近重复去重，以及 ExactSubstr、后缀数组、语义去重和 GPU 加速工具链的适用边界。

LLM 预训练数据数据去重 MinHash SemDeDup

主题归档 · 2026-04-26

OpenVLA 详解：开源 VLA 如何把视觉语言模型变成机器人策略

详细拆解 OpenVLA 的技术动机、模型结构、训练数据、动作表示、实验结果、微调部署路径与局限性，解释它为什么是 VLA 路线走向开放可复现的重要节点。

robotics embodied-ai vla openvla generalist-policy imitation-learning

主题归档 · 2026-04-26

WAM（World Action Model）发展脉络综述：从世界模型到 VLA，再到统一生成与决策

系统梳理 WAM（World Action Model）截至 2026-04-26 的发展脉络：其前史如何从世界模型、VLA 和视频基础模型三条线汇合而来；每个代表工作相对之前方法解决了什么问题；又引入了哪些新的困难；以及 WAM 当前真正卡在哪里。

wam world-model robotics embodied-ai vla survey

主题归档 · 2026-04-26

从 SGD 到 Muon：大模型训练中优化器的演化逻辑、方法细节与未来展望

从最基础的随机梯度下降出发，系统梳理 Momentum、AdaGrad、RMSProp、Adam、AdamW、大模型训练中的参数分组与二阶/预条件思想，最后落到 Muon 的核心动机、算法结构、适用边界与未来优化器演化趋势。

optimization llm training muon deep-learning reasoning

主题归档 · 2026-04-26

从 VLA 到 WAM：机器人基础模型的演化脉络、关键问题与下一步

系统梳理机器人基础模型从 RT-1、RT-2、Octo、OpenVLA 等 Vision-Language-Action 路线，如何因动作生成、闭环控制、长时程推理与泛化鲁棒性的瓶颈，进一步演进到 WAM（World Action Model）路线，并分析 WAM 的核心思想、解决的问题及其新挑战。

robotics embodied-ai vla world-model wam survey

主题归档 · 2026-04-26