Research Archive · Personal Knowledge Site

鼠鼠研究站

把每天调研、论文速读和长期主题笔记沉淀成一个更适合浏览器阅读的清爽网站。以后你说“推送网站”,我就把新的研究内容整理后更新到这里。

134总文章数
16每日调研
16论文精读
20主题归档

最近更新

按时间倒序,优先展示你最近最可能会继续看的内容
每日调研 · 2026-06-21

2026-06-21 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
主题归档 · 2026-06-21

GIGPO 与 HGPO:长轨迹 LLM Agent 强化学习里的“分组信用分配”

从 GRPO 到 GIGPO、HGPO,解释为什么长轨迹 Agent RL 需要从整条轨迹奖励走向分层、上下文一致的步级优势估计。
主题归档 · 2026-06-21

OpenAI《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》详解:RL 能否训练出更“持久有益”的模型?

详细解读 OpenAI Alignment 团队的 Beneficial Trait RL 论文:为什么从“让模型完成任务”转向“强化有益人格特质”,它如何构造数据、训练模型、验证跨域泛化与对抗持久性,以及这对 RLHF、模型对齐和未来 Agent 训练意味着什么。
主题归档 · 2026-06-21

PPO 在 Agentic RL 中的应用与进展:从 RLHF 到长轨迹 Agent 训练

梳理 PPO 如何从 RLHF 的标准算法,演化到多轮工具使用、搜索、Web/GUI/代码 Agent 中的 turn-level、sequence-level、trajectory-level 训练框架,并分析它与 GRPO/GIGPO/HGPO 等新算法的关系。
每日调研 · 2026-06-20

2026-06-20 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
每日调研 · 2026-06-19

2026-06-19 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
主题归档 · 2026-06-19

Web Search Agent 与 Code Agent 的 Agentic RL 演化路径:从“会调用工具”到“会在环境里学习”

基于 Awesome-AgenticLLM-RL-Papers 中 Search & Research Agent 与 Code Agent 两节,梳理 Agentic RL 如何把检索与代码从一次性生成问题推进到长轨迹、可验证、可自我改进的智能体训练问题。
每日调研 · 2026-06-18

2026-06-18 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
论文精读 · 2026-06-18

Rethinking Generalization in Reasoning SFT:SFT 真的只会记忆吗?

解读 arXiv 2604.06628:reasoning SFT 的泛化不是“有/没有”的二元问题,而是由优化充分性、数据质量与结构、基础模型能力共同决定,并且伴随安全退化代价。
每日调研 · 2026-06-17

2026-06-17 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

最近调研时间线

把每天的晨读、临时研究和总结放在一个更适合浏览器看的地方
2026-06-21

2026-06-21 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-20

2026-06-20 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-19

2026-06-19 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-18

2026-06-18 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-17

2026-06-17 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
2026-06-16

2026-06-16 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

内容结构

适合长期积累

每日调研

按日期查看每天的研究任务、晨间论文早读和临时分析。

论文精读

单篇论文的详细解读、背景判断和链接整理。

主题归档

围绕长期关注方向,持续沉淀技术主题笔记。

实验分析

沉淀训练系统、性能复现、源码口径核查和实验结果分析。

复现指南

沉淀本站搭建、工作流复现、工具配置与可分享操作手册,方便别人直接照着做。

最近主题

更像知识库入口

GIGPO 与 HGPO:长轨迹 LLM Agent 强化学习里的“分组信用分配”

从 GRPO 到 GIGPO、HGPO,解释为什么长轨迹 Agent RL 需要从整条轨迹奖励走向分层、上下文一致的步级优势估计。

OpenAI《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》详解:RL 能否训练出更“持久有益”的模型?

详细解读 OpenAI Alignment 团队的 Beneficial Trait RL 论文:为什么从“让模型完成任务”转向“强化有益人格特质”,它如何构造数据、训练模型、验证跨域泛化与对抗持久性,以及这对 RLHF、模型对齐和未来 Agent 训练意味着什么。

PPO 在 Agentic RL 中的应用与进展:从 RLHF 到长轨迹 Agent 训练

梳理 PPO 如何从 RLHF 的标准算法,演化到多轮工具使用、搜索、Web/GUI/代码 Agent 中的 turn-level、sequence-level、trajectory-level 训练框架,并分析它与 GRPO/GIGPO/HGPO 等新算法的关系。

Web Search Agent 与 Code Agent 的 Agentic RL 演化路径:从“会调用工具”到“会在环境里学习”

基于 Awesome-AgenticLLM-RL-Papers 中 Search & Research Agent 与 Code Agent 两节,梳理 Agentic RL 如何把检索与代码从一次性生成问题推进到长轨迹、可验证、可自我改进的智能体训练问题。

Mixture-of-Transformers(MoT)架构详解:把多模态大模型从“一个脑子硬扛所有模态”改成“按模态分工的 Transformer 混合体”

详细解释 Meta 提出的 Mixture-of-Transformers(MoT)架构:它为什么不是普通 MoE,怎样按模态解耦 Transformer 参数、保留全局自注意力,以及为什么能显著降低多模态预训练 FLOPs 和 wall-clock time。

从 LUFFY 看 reasoning SFT 的 off-policy 问题:从“背高手答案”到在学生分布上学习

以 LUFFY 为锚点,梳理 reasoning SFT 中 teacher trace 与 student policy 分布错配的问题,以及后续沿 RLVR、OPD、backtracking、agent step-wise distillation 等方向形成的研究现状。

从常微分方程、随机微分方程与“场”的角度理解 Flow Matching 和 Diffusion

用统一的动力系统视角解释 Flow Matching 与 Diffusion:ODE 视角把生成理解为确定性速度场搬运概率分布,SDE 视角把 diffusion 理解为带噪声的随机粒子系统,而“场”的视角则把两者统一为概率密度在空间中的连续流动。Flow Matching 直接学习速度场,Diffusion 先构造随机扩散再学习反向 score,两者最终可通过 probability flow ODE 连接起来。

让模型学会回退:LLM Search Trace / Backtracking 研究脉络综述

深度梳理 LLM 中 reflection、search trace、backtracking 与 test-time compute 的研究线:为什么错误轨迹有时有价值,什么时候回退有效,为什么直接 SFT 反思文本不等于学会搜索,以及这条线对 LLM Agent / Code Agent 的启发。

实验分析

训练系统与性能复现

Megatron reported TFLOP/s 的真实含义:small SWA、GQA、FP8、CP 与 fused kernel 的分子/分母分析

结合 Liangguang 实际使用的 Megatron 源码,拆解 reported TFLOP/s/GPU 的估算口径,并解释 small SWA、GQA、FP8、Context Parallel 和 fused kernel 分别如何影响 FLOPs 分子与 step time 分母。

复现指南

建站与工具工作流

用 OpenClaw 搭建一个“鼠鼠研究站”同款个人研究网站

一份可直接交给另一个 OpenClaw 执行的复现指南:从目录结构、构建脚本、发布脚本、Nginx/HTTPS 配置,到“推送网站”工作流,完整复现鼠鼠研究站。

重要收藏

按个人重要性 1~5 星收藏
★★★★★★★★★☆★★★☆☆★★☆☆☆★☆☆☆☆
★★★★★ · 主题归档 · 2026-06-21

GIGPO 与 HGPO:长轨迹 LLM Agent 强化学习里的“分组信用分配”

从 GRPO 到 GIGPO、HGPO,解释为什么长轨迹 Agent RL 需要从整条轨迹奖励走向分层、上下文一致的步级优势估计。
★★★★★ · 主题归档 · 2026-06-21

OpenAI《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》详解:RL 能否训练出更“持久有益”的模型?

详细解读 OpenAI Alignment 团队的 Beneficial Trait RL 论文:为什么从“让模型完成任务”转向“强化有益人格特质”,它如何构造数据、训练模型、验证跨域泛化与对抗持久性,以及这对 RLHF、模型对齐和未来 Agent 训练意味着什么。
★★★★★ · 主题归档 · 2026-06-21

PPO 在 Agentic RL 中的应用与进展:从 RLHF 到长轨迹 Agent 训练

梳理 PPO 如何从 RLHF 的标准算法,演化到多轮工具使用、搜索、Web/GUI/代码 Agent 中的 turn-level、sequence-level、trajectory-level 训练框架,并分析它与 GRPO/GIGPO/HGPO 等新算法的关系。
★★★★★ · 主题归档 · 2026-06-19

Web Search Agent 与 Code Agent 的 Agentic RL 演化路径:从“会调用工具”到“会在环境里学习”

基于 Awesome-AgenticLLM-RL-Papers 中 Search & Research Agent 与 Code Agent 两节,梳理 Agentic RL 如何把检索与代码从一次性生成问题推进到长轨迹、可验证、可自我改进的智能体训练问题。
★★★★★ · 论文精读 · 2026-06-18

Rethinking Generalization in Reasoning SFT:SFT 真的只会记忆吗?

解读 arXiv 2604.06628:reasoning SFT 的泛化不是“有/没有”的二元问题,而是由优化充分性、数据质量与结构、基础模型能力共同决定,并且伴随安全退化代价。