Research Archive · Personal Knowledge Site

鼠鼠研究站

把每天调研、论文速读和长期主题笔记沉淀成一个更适合浏览器阅读的清爽网站。以后你说“推送网站”,我就把新的研究内容整理后更新到这里。

85总文章数
16每日调研
11论文精读
20主题归档

最近更新

按时间倒序,优先展示你最近最可能会继续看的内容
每日调研 · 2026-05-29

2026-05-29 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
每日调研 · 2026-05-27

2026-05-27 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
每日调研 · 2026-05-26

2026-05-26 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
论文精读 · 2026-05-26

ECHO:Terminal Agents 如何“免费”学到世界模型

解读 Microsoft Research 论文 ECHO:把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失,让失败轨迹也产生密集监督,从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。
每日调研 · 2026-05-25

2026-05-25 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
每日调研 · 2026-05-24

2026-05-24 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
论文精读 · 2026-05-24

HRM-Text:一篇试图把“预训练”重新做小的论文

解读 arXiv:2605.20613 HRM-Text:用分层递归架构、任务完成目标和 PrefixLM,把 1B 模型从零训练的门槛压到 40B tokens / 约 1500 美元量级。
主题归档 · 2026-05-24

STaR 与自举式自训练:LLM 能不能自己生成训练数据并训练自己?

从 STaR 到 Quiet-STaR、V-STaR、B-STaR、AdaSTaR、START、STaR-SQL 等系列工作,系统梳理“模型自己生成训练信号再训练自己”这条路线的技术脉络、核心瓶颈与研究机会。
每日调研 · 2026-05-23

2026-05-23 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
每日调研 · 2026-05-22

2026-05-22 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

最近调研时间线

把每天的晨读、临时研究和总结放在一个更适合浏览器看的地方
2026-05-29

2026-05-29 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-05-27

2026-05-27 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-05-26

2026-05-26 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-05-25

2026-05-25 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-05-24

2026-05-24 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-05-23

2026-05-23 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

内容结构

适合长期积累

每日调研

按日期查看每天的研究任务、晨间论文早读和临时分析。

论文精读

单篇论文的详细解读、背景判断和链接整理。

主题归档

围绕长期关注方向,持续沉淀技术主题笔记。

实验分析

沉淀训练系统、性能复现、源码口径核查和实验结果分析。

复现指南

沉淀本站搭建、工作流复现、工具配置与可分享操作手册,方便别人直接照着做。

最近主题

更像知识库入口

STaR 与自举式自训练:LLM 能不能自己生成训练数据并训练自己?

从 STaR 到 Quiet-STaR、V-STaR、B-STaR、AdaSTaR、START、STaR-SQL 等系列工作,系统梳理“模型自己生成训练信号再训练自己”这条路线的技术脉络、核心瓶颈与研究机会。

ControlNet 小白详解:为什么一张边缘图就能控制 Stable Diffusion 画什么

用小白能听懂的方式,从 Stable Diffusion 为什么难控制讲起,逐步解释 ControlNet 的动机、结构、零卷积、训练与推理流程,并配上伪代码和 diffusers 示例代码。

大模型 OPD:经典工作、发展逻辑与最新问题

系统梳理大模型 On-Policy Distillation 的定义、经典工作、发展逻辑、方法谱系与当前开放问题。

大语言模型 Adaptive Thinking:从“会思考”到“知道该想多久”

梳理大语言模型 Adaptive Thinking / reasoning effort / thinking budget 的主流做法、think/no-think 开关机制、训练与推理控制路径,以及当前研究机会。

GPT-5.5、GPT-5.4、Codex、DeepSeek V4 与 GLM-5.1:Benchmark 与价格横向对比

横向比较 GPT-5.5、GPT-5.4、GPT-5.4 mini、GPT-5.3 Codex、GPT-5.2、DeepSeek V4 Pro/Flash 与 GLM-5.1 在 Agent、通用、数学、代码 benchmark 以及 API 价格上的表现。

Hermes Agent 源码解读:从入口、主循环到 Gateway 的完整架构

基于 /usr/local/lib/hermes-agent 本地源码,系统解读 Hermes Agent 的 CLI、AIAgent 主循环、模型 Provider 路由、工具系统、Skills、Memory、SessionDB、Gateway、多平台适配、Cron、Webhook、Plugin、MCP、TUI、ACP、安全边界和扩展路线。

Multi-agent 发展历程与最新进展深度调研:从 MAS / DAI 到 LLM Agent Society

从经典分布式 AI/MAS、群体智能、MARL 到 LLM Agent Society,梳理 multi-agent 方向的发展脉络、关键工作、benchmark 与未来研究机会。

上下文太多为什么会让大模型变笨:长上下文退化、Context Engineering 与科研机会综述

面向初学者和研究选题,系统解释长上下文退化的现象、机制、评测、模型与系统方案,以及它如何连接 RAG、上下文压缩、KV cache、Agent memory、代码智能、长轨迹 RL 和 latent-space reasoning。

实验分析

训练系统与性能复现

Megatron reported TFLOP/s 的真实含义:small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码,拆解 reported TFLOP/s/GPU 的估算口径,并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。

复现指南

建站与工具工作流

用 OpenClaw 搭建一个“鼠鼠研究站”同款个人研究网站

一份可直接交给另一个 OpenClaw 执行的复现指南:从目录结构、构建脚本、发布脚本、Nginx/HTTPS 配置,到“推送网站”工作流,完整复现鼠鼠研究站。

重要收藏

按个人重要性 1~5 星收藏
★★★★★★★★★☆★★★☆☆★★☆☆☆★☆☆☆☆
★★★★★ · 论文精读 · 2026-05-26

ECHO:Terminal Agents 如何“免费”学到世界模型

解读 Microsoft Research 论文 ECHO:把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失,让失败轨迹也产生密集监督,从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。
★★★★★ · 论文精读 · 2026-05-24

HRM-Text:一篇试图把“预训练”重新做小的论文

解读 arXiv:2605.20613 HRM-Text:用分层递归架构、任务完成目标和 PrefixLM,把 1B 模型从零训练的门槛压到 40B tokens / 约 1500 美元量级。
★★★★★ · 主题归档 · 2026-05-24

STaR 与自举式自训练:LLM 能不能自己生成训练数据并训练自己?

从 STaR 到 Quiet-STaR、V-STaR、B-STaR、AdaSTaR、START、STaR-SQL 等系列工作,系统梳理“模型自己生成训练信号再训练自己”这条路线的技术脉络、核心瓶颈与研究机会。
★★★★★ · 主题归档 · 2026-05-19

ControlNet 小白详解:为什么一张边缘图就能控制 Stable Diffusion 画什么

用小白能听懂的方式,从 Stable Diffusion 为什么难控制讲起,逐步解释 ControlNet 的动机、结构、零卷积、训练与推理流程,并配上伪代码和 diffusers 示例代码。
★★★★★ · 主题归档 · 2026-05-16

大模型 OPD:经典工作、发展逻辑与最新问题

系统梳理大模型 On-Policy Distillation 的定义、经典工作、发展逻辑、方法谱系与当前开放问题。