Research Archive · Personal Knowledge Site

鼠鼠研究站

把每天调研、论文速读和长期主题笔记沉淀成一个更适合浏览器阅读的清爽网站。以后你说“推送网站”，我就把新的研究内容整理后更新到这里。

96总文章数

16每日调研

13论文精读

20主题归档

内容结构

适合长期积累

每日调研

按日期查看每天的研究任务、晨间论文早读和临时分析。

论文精读

单篇论文的详细解读、背景判断和链接整理。

主题归档

围绕长期关注方向，持续沉淀技术主题笔记。

实验分析

沉淀训练系统、性能复现、源码口径核查和实验结果分析。

复现指南

沉淀本站搭建、工作流复现、工具配置与可分享操作手册，方便别人直接照着做。

实验分析

训练系统与性能复现

Megatron reported TFLOP/s 的真实含义：small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码，拆解 reported TFLOP/s/GPU 的估算口径，并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。

复现指南

建站与工具工作流

用 OpenClaw 搭建一个“鼠鼠研究站”同款个人研究网站

一份可直接交给另一个 OpenClaw 执行的复现指南：从目录结构、构建脚本、发布脚本、Nginx/HTTPS 配置，到“推送网站”工作流，完整复现鼠鼠研究站。

重要收藏

按个人重要性 1~5 星收藏

★★★★★★★★★☆★★★☆☆★★☆☆☆★☆☆☆☆

★★★★★ · 主题归档 · 2026-06-04

把 CoT 压成一个统一 think token：从 Pause Token 到潜空间推理的研究脉络

调研“把显式思考过程替换成统一 token，让模型表面输出空白思考、内部完成计算”这一想法的可行性、已有工作和研究机会。

★★★★★ · 论文精读 · 2026-06-01

MiniMax-M2.7 技术报告详解：10B 激活参数如何撑起 Agentic Intelligence

★★★★★ · 论文精读 · 2026-06-01

Unlocking the Working Memory of Large Language Models for Latent Reasoning：让大模型在“工作记忆”里推理

★★★★★ · 论文精读 · 2026-05-26

ECHO：Terminal Agents 如何“免费”学到世界模型

解读 Microsoft Research 论文 ECHO：把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失，让失败轨迹也产生密集监督，从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。

★★★★★ · 论文精读 · 2026-05-24

HRM-Text：一篇试图把“预训练”重新做小的论文

解读 arXiv:2605.20613 HRM-Text：用分层递归架构、任务完成目标和 PrefixLM，把 1B 模型从零训练的门槛压到 40B tokens / 约 1500 美元量级。

高频标签

快速进入常看方向

daily AI LLM Agent Code Intelligence Research Briefing LLM Reasoning Chain-of-Thought Latent Reasoning Test-Time Compute Research Survey MiniMax-M2.7 MoE Agent RL Forge self-evolution

鼠鼠研究站

最近更新

最近调研时间线

内容结构

最近主题

实验分析

复现指南

重要收藏

高频标签