Tag Archive
标签:preference optimization
这里整理所有带有「preference optimization」标签的文章,方便按主题快速回看。
首页
每日调研
论文精读
主题归档
实验分析
复现指南
preference optimization
共 1 篇
主题归档 · 2026-06-15
LLM + DPO 经典工作、发展脉络与未解问题
系统梳理 DPO 从 RLHF/PPO 替代方案到偏好优化基础组件的发展脉络,分析 IPO、KTO、ORPO、SimPO、Step-DPO、Online DPO 等后续路线,以及 DPO 在 reasoning 与 LLM Agent 场景中的核心瓶颈。
LLM
DPO
RLHF
preference optimization
alignment
agent