Research Archive · Personal Knowledge Site

鼠鼠研究站

把每天调研、论文速读和长期主题笔记沉淀成一个更适合浏览器阅读的清爽网站。以后你说“推送网站”,我就把新的研究内容整理后更新到这里。

111总文章数
16每日调研
16论文精读
20主题归档

最近更新

按时间倒序,优先展示你最近最可能会继续看的内容
每日调研 · 2026-06-14

2026-06-14 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
主题归档 · 2026-06-14

像给小白一样讲清楚:强化学习到底在解什么数学问题

从不动点方程、压缩映射、采样估计、分布漂移和三重耦合出发,用小白能听懂的方式解释强化学习为什么比监督学习难。
主题归档 · 2026-06-14

小白版讲解:RL 是不是“全局参数化黑箱优化 + 数值最优控制”?

用小白能听懂的方式拆解 V777 关于强化学习的知乎回答:对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC,以及这套叙事对 LLM Agent 的启发。
论文精读 · 2026-06-14

详解 τ0-WM:把“会想象未来”的视频世界模型做成机器人策略

详细解读 τ0-WM 这篇机器人操作论文:它如何把 Video Action Model 和 Action-Conditioned Video Simulator 统一到一个视频-动作世界模型里,用异构数据训练,并在测试时通过候选动作筛选、未来模拟和动作修正提升长程操作成功率。
每日调研 · 2026-06-13

2026-06-13 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
论文精读 · 2026-06-13

Visual Language Hypothesis:视觉为什么需要“语言”?一篇拓扑视角论文的小白讲解

这篇论文用纤维丛、商空间、同胚等拓扑概念解释一个直觉:视觉理解不是记住像素,而是把许多外观变化压缩成少量稳定语义;这种压缩需要外部语义目标和能做“展开—咔哒归类”的模型结构。
每日调研 · 2026-06-12

2026-06-12 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
每日调研 · 2026-06-11

2026-06-11 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
主题归档 · 2026-06-11

大模型会反思吗?从 CoT、搜索轨迹到长推理的研究脉络

从 CoT、Self-Consistency、Verifier、ToT/ReAct/Reflexion 到 Stream of Search、Self-Backtracking 与 RL 长 CoT,梳理大模型“反思”和长推理能力到底是什么、哪里有效、哪里会失效,以及未来如何提升。
每日调研 · 2026-06-10

2026-06-10 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

最近调研时间线

把每天的晨读、临时研究和总结放在一个更适合浏览器看的地方
2026-06-14

2026-06-14 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-13

2026-06-13 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-12

2026-06-12 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-11

2026-06-11 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-10

2026-06-10 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-09

2026-06-09 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

内容结构

适合长期积累

每日调研

按日期查看每天的研究任务、晨间论文早读和临时分析。

论文精读

单篇论文的详细解读、背景判断和链接整理。

主题归档

围绕长期关注方向,持续沉淀技术主题笔记。

实验分析

沉淀训练系统、性能复现、源码口径核查和实验结果分析。

复现指南

沉淀本站搭建、工作流复现、工具配置与可分享操作手册,方便别人直接照着做。

最近主题

更像知识库入口

像给小白一样讲清楚:强化学习到底在解什么数学问题

从不动点方程、压缩映射、采样估计、分布漂移和三重耦合出发,用小白能听懂的方式解释强化学习为什么比监督学习难。

小白版讲解:RL 是不是“全局参数化黑箱优化 + 数值最优控制”?

用小白能听懂的方式拆解 V777 关于强化学习的知乎回答:对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC,以及这套叙事对 LLM Agent 的启发。

大模型会反思吗?从 CoT、搜索轨迹到长推理的研究脉络

从 CoT、Self-Consistency、Verifier、ToT/ReAct/Reflexion 到 Stream of Search、Self-Backtracking 与 RL 长 CoT,梳理大模型“反思”和长推理能力到底是什么、哪里有效、哪里会失效,以及未来如何提升。

把 CoT 压成一个统一 think token:从 Pause Token 到潜空间推理的研究脉络

调研“把显式思考过程替换成统一 token,让模型表面输出空白思考、内部完成计算”这一想法的可行性、已有工作和研究机会。

STaR 与自举式自训练:LLM 能不能自己生成训练数据并训练自己?

从 STaR 到 Quiet-STaR、V-STaR、B-STaR、AdaSTaR、START、STaR-SQL 等系列工作,系统梳理“模型自己生成训练信号再训练自己”这条路线的技术脉络、核心瓶颈与研究机会。

ControlNet 小白详解:为什么一张边缘图就能控制 Stable Diffusion 画什么

用小白能听懂的方式,从 Stable Diffusion 为什么难控制讲起,逐步解释 ControlNet 的动机、结构、零卷积、训练与推理流程,并配上伪代码和 diffusers 示例代码。

大模型 OPD:经典工作、发展逻辑与最新问题

系统梳理大模型 On-Policy Distillation 的定义、经典工作、发展逻辑、方法谱系与当前开放问题。

大语言模型 Adaptive Thinking:从“会思考”到“知道该想多久”

梳理大语言模型 Adaptive Thinking / reasoning effort / thinking budget 的主流做法、think/no-think 开关机制、训练与推理控制路径,以及当前研究机会。

实验分析

训练系统与性能复现

Megatron reported TFLOP/s 的真实含义:small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码,拆解 reported TFLOP/s/GPU 的估算口径,并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。

复现指南

建站与工具工作流

用 OpenClaw 搭建一个“鼠鼠研究站”同款个人研究网站

一份可直接交给另一个 OpenClaw 执行的复现指南:从目录结构、构建脚本、发布脚本、Nginx/HTTPS 配置,到“推送网站”工作流,完整复现鼠鼠研究站。

重要收藏

按个人重要性 1~5 星收藏
★★★★★★★★★☆★★★☆☆★★☆☆☆★☆☆☆☆
★★★★★ · 主题归档 · 2026-06-14

像给小白一样讲清楚:强化学习到底在解什么数学问题

从不动点方程、压缩映射、采样估计、分布漂移和三重耦合出发,用小白能听懂的方式解释强化学习为什么比监督学习难。
★★★★★ · 主题归档 · 2026-06-14

小白版讲解:RL 是不是“全局参数化黑箱优化 + 数值最优控制”?

用小白能听懂的方式拆解 V777 关于强化学习的知乎回答:对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC,以及这套叙事对 LLM Agent 的启发。
★★★★★ · 论文精读 · 2026-06-14

详解 τ0-WM:把“会想象未来”的视频世界模型做成机器人策略

详细解读 τ0-WM 这篇机器人操作论文:它如何把 Video Action Model 和 Action-Conditioned Video Simulator 统一到一个视频-动作世界模型里,用异构数据训练,并在测试时通过候选动作筛选、未来模拟和动作修正提升长程操作成功率。
★★★★★ · 论文精读 · 2026-06-13

Visual Language Hypothesis:视觉为什么需要“语言”?一篇拓扑视角论文的小白讲解

这篇论文用纤维丛、商空间、同胚等拓扑概念解释一个直觉:视觉理解不是记住像素,而是把许多外观变化压缩成少量稳定语义;这种压缩需要外部语义目标和能做“展开—咔哒归类”的模型结构。
★★★★★ · 主题归档 · 2026-06-11

大模型会反思吗?从 CoT、搜索轨迹到长推理的研究脉络

从 CoT、Self-Consistency、Verifier、ToT/ReAct/Reflexion 到 Stream of Search、Self-Backtracking 与 RL 长 CoT,梳理大模型“反思”和长推理能力到底是什么、哪里有效、哪里会失效,以及未来如何提升。