主题归档

主题归档

围绕长期关注方向归档整理的主题笔记。

主题归档

共 20 篇
2026-06-14

像给小白一样讲清楚:强化学习到底在解什么数学问题

从不动点方程、压缩映射、采样估计、分布漂移和三重耦合出发,用小白能听懂的方式解释强化学习为什么比监督学习难。
强化学习Bellman方程不动点RLHFGRPO数学直觉
2026-06-14

小白版讲解:RL 是不是“全局参数化黑箱优化 + 数值最优控制”?

用小白能听懂的方式拆解 V777 关于强化学习的知乎回答:对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC,以及这套叙事对 LLM Agent 的启发。
强化学习最优控制占据测度对偶优化PPOMPCLLM Agent
2026-06-11

大模型会反思吗?从 CoT、搜索轨迹到长推理的研究脉络

从 CoT、Self-Consistency、Verifier、ToT/ReAct/Reflexion 到 Stream of Search、Self-Backtracking 与 RL 长 CoT,梳理大模型“反思”和长推理能力到底是什么、哪里有效、哪里会失效,以及未来如何提升。
LLM ReasoningChain-of-ThoughtReflectionTest-Time ComputeBacktracking
2026-06-04

把 CoT 压成一个统一 think token:从 Pause Token 到潜空间推理的研究脉络

调研“把显式思考过程替换成统一 token,让模型表面输出空白思考、内部完成计算”这一想法的可行性、已有工作和研究机会。
LLM ReasoningChain-of-ThoughtLatent ReasoningTest-Time ComputeResearch Survey
2026-05-24

STaR 与自举式自训练:LLM 能不能自己生成训练数据并训练自己?

从 STaR 到 Quiet-STaR、V-STaR、B-STaR、AdaSTaR、START、STaR-SQL 等系列工作,系统梳理“模型自己生成训练信号再训练自己”这条路线的技术脉络、核心瓶颈与研究机会。
LLM自训练STaR推理合成数据self-improvement
2026-05-19

ControlNet 小白详解:为什么一张边缘图就能控制 Stable Diffusion 画什么

用小白能听懂的方式,从 Stable Diffusion 为什么难控制讲起,逐步解释 ControlNet 的动机、结构、零卷积、训练与推理流程,并配上伪代码和 diffusers 示例代码。
diffusioncontrolnetstable-diffusionimage-generationtutorial
2026-05-16

大模型 OPD:经典工作、发展逻辑与最新问题

系统梳理大模型 On-Policy Distillation 的定义、经典工作、发展逻辑、方法谱系与当前开放问题。
LLMOPDOn-Policy Distillation后训练LLM Agent
2026-05-14

大语言模型 Adaptive Thinking:从“会思考”到“知道该想多久”

梳理大语言模型 Adaptive Thinking / reasoning effort / thinking budget 的主流做法、think/no-think 开关机制、训练与推理控制路径,以及当前研究机会。
LLMadaptive-thinkingreasoningtest-time-computepost-training
2026-05-13

GPT-5.5、GPT-5.4、Codex、DeepSeek V4 与 GLM-5.1:Benchmark 与价格横向对比

横向比较 GPT-5.5、GPT-5.4、GPT-5.4 mini、GPT-5.3 Codex、GPT-5.2、DeepSeek V4 Pro/Flash 与 GLM-5.1 在 Agent、通用、数学、代码 benchmark 以及 API 价格上的表现。
LLMAgentBenchmarkCodingPricing
2026-05-12

Hermes Agent 源码解读:从入口、主循环到 Gateway 的完整架构

基于 /usr/local/lib/hermes-agent 本地源码,系统解读 Hermes Agent 的 CLI、AIAgent 主循环、模型 Provider 路由、工具系统、Skills、Memory、SessionDB、Gateway、多平台适配、Cron、Webhook、Plugin、MCP、TUI、ACP、安全边界和扩展路线。
Hermes AgentAgent ArchitectureSource CodeGatewayTool CallingMCP
2026-05-10

Multi-agent 发展历程与最新进展深度调研:从 MAS / DAI 到 LLM Agent Society

从经典分布式 AI/MAS、群体智能、MARL 到 LLM Agent Society,梳理 multi-agent 方向的发展脉络、关键工作、benchmark 与未来研究机会。
multi-agentLLM AgentMASMARLbenchmarkcode agent
2026-05-10

上下文太多为什么会让大模型变笨:长上下文退化、Context Engineering 与科研机会综述

面向初学者和研究选题,系统解释长上下文退化的现象、机制、评测、模型与系统方案,以及它如何连接 RAG、上下文压缩、KV cache、Agent memory、代码智能、长轨迹 RL 和 latent-space reasoning。
long-contextLLMcontext-engineeringRAGmemoryagentbenchmark
2026-05-10

以 DreamZero 为锚点看 World Action Model:从 Dreamer、视频生成规划到机器人零样本策略

以 DreamZero / World Action Models are Zero-shot Policies 为锚点,用小白能懂的人话解释 WAM 的前置脉络、视频-动作对齐机制、后续工作与可研究方向。
DreamZeroworld-action-modelroboticsworld-modelembodied-aimodel-based-rlvideo-generation
2026-05-06

Flow Matching 与 Diffusion:区别、联系,以及为什么新一代生成模型越来越偏向 Flow Matching

从概率路径、训练目标、采样动力学和工程优势四个层面解释 Flow Matching 与 Diffusion 的关系:Diffusion 可以看作一类带随机噪声的 score-based 生成过程,而 Flow Matching 更直接学习把噪声分布搬运到数据分布的确定性速度场,因此在训练目标、采样效率、路径设计和大模型工程上更统一、更方便。
flow matchingdiffusionmeanflowkaiming hegenerative modelrectified flowscore matchingtutorial
2026-05-06

大模型预训练与 Mid-training 数据的差距:阶段定位、数据配方与准备方法

系统梳理大模型训练中 pretraining 与 mid-training 的定位差异:预训练数据负责建立通用语言、知识与表征底座,mid-training 数据则作为从通用预训练分布到后训练目标分布的桥梁,面向数学、代码、QA、长上下文、指令与推理等能力做高质量、低比例、强评估闭环的阶段性注入。
LLMpretrainingmid-trainingdata curationpost-trainingfoundation modelOLMoLlama
2026-05-04

DiT(Diffusion Transformer)从数据到训练:一条完整的教学级讲解

从扩散模型的基本训练目标出发,解释 DiT 如何把 noisy image/latent 切成 token,用 Transformer 预测噪声或速度场,并用一个 CIFAR-10 教学版实现串起数据、shape、模块、loss 与采样流程。
DiTDiffusion Transformerdiffusiontransformergenerative-modeltutorial
2026-05-04

从 OPD 到 OPSD / ExOPD:解读群聊里关于 On-Policy Distillation 的几篇论文

解读 Thinking Machines 的 On-Policy Distillation 博客,以及 arXiv:2604.13016、2603.25562、2601.18734、2602.12125 四篇工作,讲清 OPD、SFT 冷启动、teacher-supported region、OPSD、自蒸馏、多专家蒸馏和 log-prob shift 背后的技术逻辑。
OPDdistillationreinforcement-learningLLM-post-trainingOPSDExOPD
2026-05-04

用人话讲清 Learning Mechanics:深度学习真的找到“牛顿定律”了吗?

面向数学基础一般的读者,拆解机器之心文章《终于,学界找到了深度学习的“牛顿定律”》和论文 There Will Be a Scientific Theory of Deep Learning,讲清 Learning Mechanics 到底是什么、五条研究线索分别在说什么,以及它离真正的“牛顿定律”还有多远。
deep-learning-theorylearning-mechanicsneural-networkscaling-lawsNTKmuPtutorial
2026-04-30

AI Infra 新探索:克服 Coding Agent 推理的 Scaling Pain,到底讲了什么?

解读 GLM 关于 Coding Agent 推理 Scaling Pain 的技术博客:为什么高并发长上下文场景会导致乱码、复读、生僻字,PD 分离与 HiCache 中的 KV Cache 竞态如何发生,以及 LayerSplit 如何缓解长上下文 Prefill 瓶颈。
llm-infracoding-agentkv-cacheinference-servingsglangglm
2026-04-30

为什么 Diffusion 先流行,而 Flow Matching 到最近才大量使用?

解释为什么生成模型历史上先由 Diffusion 取得主导,而不是更直观的 Flow Matching:Diffusion 继承了去噪、score matching 和概率建模传统,训练稳定且早期经验成功;Flow Matching 则需要 ODE、continuous flow、optimal transport、rectified flow 等理论与工程共识成熟后才成为主流。
diffusionflow-matchinggenerative-modelsscore-matchingrectified-flowgenerative-ai