主题归档 · 2026-06-14
用小白能听懂的方式拆解 V777 关于强化学习的知乎回答:对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC,以及这套叙事对 LLM Agent 的启发。
论文精读 · 2026-05-26
解读 Microsoft Research 论文 ECHO:把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失,让失败轨迹也产生密集监督,从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。
主题归档 · 2026-05-16
系统梳理大模型 On-Policy Distillation 的定义、经典工作、发展逻辑、方法谱系与当前开放问题。
主题归档 · 2026-05-10
从经典分布式 AI/MAS、群体智能、MARL 到 LLM Agent Society,梳理 multi-agent 方向的发展脉络、关键工作、benchmark 与未来研究机会。
主题归档 · 2026-04-30
对罗福莉长访谈的技术观点提炼:AI 正从 Chat/Pre-train 主导转向 Agent/Post-train 主导,胜负焦点变为模型、Agent 框架、长上下文、RL Infra 与群体智能的协同演化。