Research Archive · Personal Knowledge Site

鼠鼠研究站

把每天调研、论文速读和长期主题笔记沉淀成一个更适合浏览器阅读的清爽网站。以后你说“推送网站”,我就把新的研究内容整理后更新到这里。

127总文章数
16每日调研
16论文精读
20主题归档

最近更新

按时间倒序,优先展示你最近最可能会继续看的内容
每日调研 · 2026-06-18

2026-06-18 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
论文精读 · 2026-06-18

Rethinking Generalization in Reasoning SFT:SFT 真的只会记忆吗?

解读 arXiv 2604.06628:reasoning SFT 的泛化不是“有/没有”的二元问题,而是由优化充分性、数据质量与结构、基础模型能力共同决定,并且伴随安全退化代价。
每日调研 · 2026-06-17

2026-06-17 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
论文精读 · 2026-06-17

LUFFY 论文详解:Learning to Reason under Off-Policy Guidance

详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
主题归档 · 2026-06-17

Mixture-of-Transformers(MoT)架构详解:把多模态大模型从“一个脑子硬扛所有模态”改成“按模态分工的 Transformer 混合体”

详细解释 Meta 提出的 Mixture-of-Transformers(MoT)架构:它为什么不是普通 MoE,怎样按模态解耦 Transformer 参数、保留全局自注意力,以及为什么能显著降低多模态预训练 FLOPs 和 wall-clock time。
论文精读 · 2026-06-17

VibeThinker-3B:3B 小模型能否逼近一线可验证推理能力?

详解 VibeThinker-3B 技术报告:如何用 Spectrum-to-Signal 后训练范式、multi-domain RL、offline self-distillation 与 claim-level test-time scaling,把 3B dense 小模型推到数学和代码等可验证推理任务的一线性能区间。
主题归档 · 2026-06-17

从 LUFFY 看 reasoning SFT 的 off-policy 问题:从“背高手答案”到在学生分布上学习

以 LUFFY 为锚点,梳理 reasoning SFT 中 teacher trace 与 student policy 分布错配的问题,以及后续沿 RLVR、OPD、backtracking、agent step-wise distillation 等方向形成的研究现状。
主题归档 · 2026-06-17

从常微分方程、随机微分方程与“场”的角度理解 Flow Matching 和 Diffusion

用统一的动力系统视角解释 Flow Matching 与 Diffusion:ODE 视角把生成理解为确定性速度场搬运概率分布,SDE 视角把 diffusion 理解为带噪声的随机粒子系统,而“场”的视角则把两者统一为概率密度在空间中的连续流动。Flow Matching 直接学习速度场,Diffusion 先构造随机扩散再学习反向 score,两者最终可通过 probability flow ODE 连接起来。
主题归档 · 2026-06-17

让模型学会回退:LLM Search Trace / Backtracking 研究脉络综述

深度梳理 LLM 中 reflection、search trace、backtracking 与 test-time compute 的研究线:为什么错误轨迹有时有价值,什么时候回退有效,为什么直接 SFT 反思文本不等于学会搜索,以及这条线对 LLM Agent / Code Agent 的启发。
每日调研 · 2026-06-16

2026-06-16 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

最近调研时间线

把每天的晨读、临时研究和总结放在一个更适合浏览器看的地方
2026-06-18

2026-06-18 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-17

2026-06-17 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-16

2026-06-16 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-15

2026-06-15 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-14

2026-06-14 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-13

2026-06-13 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

内容结构

适合长期积累

每日调研

按日期查看每天的研究任务、晨间论文早读和临时分析。

论文精读

单篇论文的详细解读、背景判断和链接整理。

主题归档

围绕长期关注方向,持续沉淀技术主题笔记。

实验分析

沉淀训练系统、性能复现、源码口径核查和实验结果分析。

复现指南

沉淀本站搭建、工作流复现、工具配置与可分享操作手册,方便别人直接照着做。

最近主题

更像知识库入口

Mixture-of-Transformers(MoT)架构详解:把多模态大模型从“一个脑子硬扛所有模态”改成“按模态分工的 Transformer 混合体”

详细解释 Meta 提出的 Mixture-of-Transformers(MoT)架构:它为什么不是普通 MoE,怎样按模态解耦 Transformer 参数、保留全局自注意力,以及为什么能显著降低多模态预训练 FLOPs 和 wall-clock time。

从 LUFFY 看 reasoning SFT 的 off-policy 问题:从“背高手答案”到在学生分布上学习

以 LUFFY 为锚点,梳理 reasoning SFT 中 teacher trace 与 student policy 分布错配的问题,以及后续沿 RLVR、OPD、backtracking、agent step-wise distillation 等方向形成的研究现状。

从常微分方程、随机微分方程与“场”的角度理解 Flow Matching 和 Diffusion

用统一的动力系统视角解释 Flow Matching 与 Diffusion:ODE 视角把生成理解为确定性速度场搬运概率分布,SDE 视角把 diffusion 理解为带噪声的随机粒子系统,而“场”的视角则把两者统一为概率密度在空间中的连续流动。Flow Matching 直接学习速度场,Diffusion 先构造随机扩散再学习反向 score,两者最终可通过 probability flow ODE 连接起来。

让模型学会回退:LLM Search Trace / Backtracking 研究脉络综述

深度梳理 LLM 中 reflection、search trace、backtracking 与 test-time compute 的研究线:为什么错误轨迹有时有价值,什么时候回退有效,为什么直接 SFT 反思文本不等于学会搜索,以及这条线对 LLM Agent / Code Agent 的启发。

Think SFT 的 Off-Policy 问题:从反思轨迹到 On-Policy Distillation 的研究线

梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题,以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。

LLM + DPO 经典工作、发展脉络与未解问题

系统梳理 DPO 从 RLHF/PPO 替代方案到偏好优化基础组件的发展脉络,分析 IPO、KTO、ORPO、SimPO、Step-DPO、Online DPO 等后续路线,以及 DPO 在 reasoning 与 LLM Agent 场景中的核心瓶颈。

LLM 指令遵循:经典工作、发展脉络、现状与未解问题

系统梳理 LLM 指令遵循从 prompt、多任务指令微调、RLHF、合成指令数据,到复杂约束评测、指令层级、prompt injection 与 agent 行动合规的发展脉络,并分析当前未解问题与研究机会。

Think / Reasoning 模型的 SFT:和传统指令微调有什么不同?

系统梳理 think/reasoning 模型 SFT 与传统 instruction SFT 的差异,分析 DeepSeek-R1、s1、LIMO、STILL-2、Sky-T1、OpenThoughts、Qwen3 等代表工作,并讨论 long-CoT SFT、cold-start、蒸馏、verifier、RLVR、test-time compute 与 latent reasoning 的关系。

实验分析

训练系统与性能复现

Megatron reported TFLOP/s 的真实含义:small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码,拆解 reported TFLOP/s/GPU 的估算口径,并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。

复现指南

建站与工具工作流

用 OpenClaw 搭建一个“鼠鼠研究站”同款个人研究网站

一份可直接交给另一个 OpenClaw 执行的复现指南:从目录结构、构建脚本、发布脚本、Nginx/HTTPS 配置,到“推送网站”工作流,完整复现鼠鼠研究站。

重要收藏

按个人重要性 1~5 星收藏
★★★★★★★★★☆★★★☆☆★★☆☆☆★☆☆☆☆
★★★★★ · 论文精读 · 2026-06-18

Rethinking Generalization in Reasoning SFT:SFT 真的只会记忆吗?

解读 arXiv 2604.06628:reasoning SFT 的泛化不是“有/没有”的二元问题,而是由优化充分性、数据质量与结构、基础模型能力共同决定,并且伴随安全退化代价。
★★★★★ · 论文精读 · 2026-06-17

LUFFY 论文详解:Learning to Reason under Off-Policy Guidance

详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
★★★★★ · 主题归档 · 2026-06-17

Mixture-of-Transformers(MoT)架构详解:把多模态大模型从“一个脑子硬扛所有模态”改成“按模态分工的 Transformer 混合体”

详细解释 Meta 提出的 Mixture-of-Transformers(MoT)架构:它为什么不是普通 MoE,怎样按模态解耦 Transformer 参数、保留全局自注意力,以及为什么能显著降低多模态预训练 FLOPs 和 wall-clock time。
★★★★★ · 论文精读 · 2026-06-17

VibeThinker-3B:3B 小模型能否逼近一线可验证推理能力?

详解 VibeThinker-3B 技术报告:如何用 Spectrum-to-Signal 后训练范式、multi-domain RL、offline self-distillation 与 claim-level test-time scaling,把 3B dense 小模型推到数学和代码等可验证推理任务的一线性能区间。
★★★★★ · 主题归档 · 2026-06-17

从 LUFFY 看 reasoning SFT 的 off-policy 问题:从“背高手答案”到在学生分布上学习

以 LUFFY 为锚点,梳理 reasoning SFT 中 teacher trace 与 student policy 分布错配的问题,以及后续沿 RLVR、OPD、backtracking、agent step-wise distillation 等方向形成的研究现状。