系统梳理 think/reasoning 模型 SFT 与传统 instruction SFT 的差异，分析 DeepSeek-R1、s1、LIMO、STILL-2、Sky-T1、OpenThoughts、Qwen3 等代表工作，并讨论 long-CoT SFT、cold-start、蒸馏、verifier、RLVR、test-time compute 与 latent reasoning 的关系。

LLM reasoning model think model SFT long-CoT RLVR distillation

每日调研 · 2026-06-14

2026-06-14 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-06-13

2026-06-13 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-06-12

2026-06-12 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-06-11

2026-06-11 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-06-10

2026-06-10 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

论文精读 · 2026-06-10

Post-training is (Massive) Supervised Learning：后训练正在把 LLM 带回“大规模监督学习”吗？

这篇 position paper 认为，当前 LLM 的大规模后训练正在把评测分布变成训练分布；即使从随机初始化开始，只靠数学/代码 SFT 数据也能在对应 benchmark 上取得不低成绩，因此很多“推理能力”可能首先是分布拟合能力，而不是开放泛化能力。

LLM post-training supervised learning SFT RL reasoning meta-learning

每日调研 · 2026-06-09

2026-06-09 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-06-08

2026-06-08 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-06-07

2026-06-07 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-06-06

2026-06-06 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-06-05

2026-06-05 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-06-04

2026-06-04 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-06-03

2026-06-03 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-06-02

2026-06-02 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-06-01

2026-06-01 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-31

2026-05-31 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-30

2026-05-30 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-29

2026-05-29 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-27

2026-05-27 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-26

2026-05-26 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-25

2026-05-25 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-24

2026-05-24 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

论文精读 · 2026-05-24

HRM-Text：一篇试图把“预训练”重新做小的论文

解读 arXiv:2605.20613 HRM-Text：用分层递归架构、任务完成目标和 PrefixLM，把 1B 模型从零训练的门槛压到 40B tokens / 约 1500 美元量级。

论文解读预训练架构 PrefixLM recurrent-model LLM

主题归档 · 2026-05-24

STaR 与自举式自训练：LLM 能不能自己生成训练数据并训练自己？

从 STaR 到 Quiet-STaR、V-STaR、B-STaR、AdaSTaR、START、STaR-SQL 等系列工作，系统梳理“模型自己生成训练信号再训练自己”这条路线的技术脉络、核心瓶颈与研究机会。

LLM 自训练 STaR 推理合成数据 self-improvement

每日调研 · 2026-05-23

2026-05-23 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-22

2026-05-22 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-21

2026-05-21 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-20

2026-05-20 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-19

2026-05-19 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-18

2026-05-18 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-17

2026-05-17 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-16

2026-05-16 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

主题归档 · 2026-05-16

大模型 OPD：经典工作、发展逻辑与最新问题

系统梳理大模型 On-Policy Distillation 的定义、经典工作、发展逻辑、方法谱系与当前开放问题。

LLM OPD On-Policy Distillation 后训练 LLM Agent

每日调研 · 2026-05-15

2026-05-15 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-14

2026-05-14 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

主题归档 · 2026-05-14

大语言模型 Adaptive Thinking：从“会思考”到“知道该想多久”

梳理大语言模型 Adaptive Thinking / reasoning effort / thinking budget 的主流做法、think/no-think 开关机制、训练与推理控制路径，以及当前研究机会。

LLM adaptive-thinking reasoning test-time-compute post-training

每日调研 · 2026-05-13

2026-05-13 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

主题归档 · 2026-05-13

GPT-5.5、GPT-5.4、Codex、DeepSeek V4 与 GLM-5.1：Benchmark 与价格横向对比

横向比较 GPT-5.5、GPT-5.4、GPT-5.4 mini、GPT-5.3 Codex、GPT-5.2、DeepSeek V4 Pro/Flash 与 GLM-5.1 在 Agent、通用、数学、代码 benchmark 以及 API 价格上的表现。

LLM Agent Benchmark Coding Pricing

每日调研 · 2026-05-12

2026-05-12 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-11

2026-05-11 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-10

2026-05-10 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

主题归档 · 2026-05-10

上下文太多为什么会让大模型变笨：长上下文退化、Context Engineering 与科研机会综述

面向初学者和研究选题，系统解释长上下文退化的现象、机制、评测、模型与系统方案，以及它如何连接 RAG、上下文压缩、KV cache、Agent memory、代码智能、长轨迹 RL 和 latent-space reasoning。

long-context LLM context-engineering RAG memory agent benchmark

每日调研 · 2026-05-09

2026-05-09 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

论文精读 · 2026-05-09

daVinci-LLM：把预训练从“炼丹”推进到“科学实验”

详细解读 daVinci-LLM 的核心贡献：全开放预训练过程、Data Darwinism 数据处理框架、两阶段自适应课程、200+ 消融实验，以及它对基础模型训练研究的启发。

LLM Pretraining Open Models Data Reasoning

每日调研 · 2026-05-08

2026-05-08 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-07

2026-05-07 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-06

2026-05-06 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

主题归档 · 2026-05-06

大模型预训练与 Mid-training 数据的差距：阶段定位、数据配方与准备方法

系统梳理大模型训练中 pretraining 与 mid-training 的定位差异：预训练数据负责建立通用语言、知识与表征底座，mid-training 数据则作为从通用预训练分布到后训练目标分布的桥梁，面向数学、代码、QA、长上下文、指令与推理等能力做高质量、低比例、强评估闭环的阶段性注入。

LLM pretraining mid-training data curation post-training foundation model OLMo Llama

每日调研 · 2026-05-04

2026-05-04 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-03

2026-05-03 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-02

2026-05-02 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-05-01

2026-05-01 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

每日调研 · 2026-04-30

2026-04-30 AI/LLM 最新论文与研究热点简报

最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。

daily AI LLM Agent Code Intelligence Research Briefing

主题归档 · 2026-04-30

数学数据能提升代码能力吗？代码数据能反哺数学推理吗？

数学与代码能力确实存在迁移，但不是简单对称迁移：代码更像形式化执行与工具使用的底座，常常更强地反哺数学；数学数据更强地提升抽象推理与可验证训练信号，对代码的提升依赖任务形态与训练阶段。

LLM 数学推理代码智能预训练后训练数据配比 RLVR

主题归档 · 2026-04-30

预训练数据能否像人类教育一样组织？Curriculum Learning、数据混合与 Developmental Pretraining 研究脉络

调研“按人类学习顺序组织预训练数据”的现有研究支撑：从 Bengio 的 Curriculum Learning、自步学习、NMT 中的 competence-based curriculum，到 BabyLM、TinyStories、Textbooks Are All You Need、DoReMi、ODM、Irreducible Curriculum 与最新 LLM 预训练课程实验，分析该想法的证据、边界与可研究机会。

LLM 预训练 curriculum-learning data-mixture developmental-learning data-centric-ai

每日调研 · 2026-04-29