Research Archive · Personal Knowledge Site

鼠鼠研究站

把每天调研、论文速读和长期主题笔记沉淀成一个更适合浏览器阅读的清爽网站。以后你说“推送网站”，我就把新的研究内容整理后更新到这里。

85总文章数

16每日调研

11论文精读

20主题归档

内容结构

适合长期积累

每日调研

按日期查看每天的研究任务、晨间论文早读和临时分析。

论文精读

单篇论文的详细解读、背景判断和链接整理。

主题归档

围绕长期关注方向，持续沉淀技术主题笔记。

实验分析

沉淀训练系统、性能复现、源码口径核查和实验结果分析。

复现指南

沉淀本站搭建、工作流复现、工具配置与可分享操作手册，方便别人直接照着做。

实验分析

训练系统与性能复现

Megatron reported TFLOP/s 的真实含义：small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码，拆解 reported TFLOP/s/GPU 的估算口径，并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。

复现指南

建站与工具工作流

用 OpenClaw 搭建一个“鼠鼠研究站”同款个人研究网站

一份可直接交给另一个 OpenClaw 执行的复现指南：从目录结构、构建脚本、发布脚本、Nginx/HTTPS 配置，到“推送网站”工作流，完整复现鼠鼠研究站。

重要收藏

按个人重要性 1~5 星收藏

★★★★★★★★★☆★★★☆☆★★☆☆☆★☆☆☆☆

★★★★★ · 论文精读 · 2026-05-26

ECHO：Terminal Agents 如何“免费”学到世界模型

★★★★★ · 论文精读 · 2026-05-24

HRM-Text：一篇试图把“预训练”重新做小的论文

解读 arXiv:2605.20613 HRM-Text：用分层递归架构、任务完成目标和 PrefixLM，把 1B 模型从零训练的门槛压到 40B tokens / 约 1500 美元量级。

★★★★★ · 主题归档 · 2026-05-24

STaR 与自举式自训练：LLM 能不能自己生成训练数据并训练自己？

★★★★★ · 主题归档 · 2026-05-19

ControlNet 小白详解：为什么一张边缘图就能控制 Stable Diffusion 画什么

★★★★★ · 主题归档 · 2026-05-16

大模型 OPD：经典工作、发展逻辑与最新问题

系统梳理大模型 On-Policy Distillation 的定义、经典工作、发展逻辑、方法谱系与当前开放问题。

高频标签

快速进入常看方向

daily AI LLM Agent Code Intelligence Research Briefing LLM Agent Agent RL World Model GRPO Terminal Agent Code Agent 论文解读预训练架构 PrefixLM

鼠鼠研究站

最近更新

最近调研时间线

内容结构

最近主题

实验分析

复现指南

重要收藏

高频标签