Tag Archive

标签:LLM Agent

这里整理所有带有「LLM Agent」标签的文章,方便按主题快速回看。

LLM Agent

共 5 篇
主题归档 · 2026-06-14

小白版讲解:RL 是不是“全局参数化黑箱优化 + 数值最优控制”?

用小白能听懂的方式拆解 V777 关于强化学习的知乎回答:对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC,以及这套叙事对 LLM Agent 的启发。
强化学习最优控制占据测度对偶优化PPOMPCLLM Agent
论文精读 · 2026-05-26

ECHO:Terminal Agents 如何“免费”学到世界模型

解读 Microsoft Research 论文 ECHO:把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失,让失败轨迹也产生密集监督,从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。
LLM AgentAgent RLWorld ModelGRPOTerminal AgentCode Agent
主题归档 · 2026-05-16

大模型 OPD:经典工作、发展逻辑与最新问题

系统梳理大模型 On-Policy Distillation 的定义、经典工作、发展逻辑、方法谱系与当前开放问题。
LLMOPDOn-Policy Distillation后训练LLM Agent
主题归档 · 2026-05-10

Multi-agent 发展历程与最新进展深度调研:从 MAS / DAI 到 LLM Agent Society

从经典分布式 AI/MAS、群体智能、MARL 到 LLM Agent Society,梳理 multi-agent 方向的发展脉络、关键工作、benchmark 与未来研究机会。
multi-agentLLM AgentMASMARLbenchmarkcode agent
主题归档 · 2026-04-30

从罗福莉访谈看 Agent 时代的技术范式迁移:后训练、长上下文、框架自进化与研究机会

对罗福莉长访谈的技术观点提炼:AI 正从 Chat/Pre-train 主导转向 Agent/Post-train 主导,胜负焦点变为模型、Agent 框架、长上下文、RL Infra 与群体智能的协同演化。
LLM Agent后训练OpenClaw长上下文代码智能自进化智能组织与科研