每日调研 · 2026-04-30
最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
每日调研 · 2026-04-29
最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
每日调研 · 2026-04-28
最近 24-48 小时 AI/LLM/Agent/代码智能相关最新论文与热点进展筛选。
主题归档 · 2026-04-28
On-Policy Distillation 将蒸馏从静态教师数据推进到学生自身行为分布上的密集监督;它不仅是 RL 的稳定替代形态,也是 DeepSeek-V4 式多专家合版、coding agent 经验吸收和 personal agent 自我进化的关键桥梁。