Tag Archive

标签：emergent-misalignment

这里整理所有带有「emergent-misalignment」标签的文章，方便按主题快速回看。

emergent-misalignment

共 1 篇

主题归档 · 2026-06-21

OpenAI《Reinforcement Learning Towards Broadly and Persistently Beneficial Models》详解：RL 能否训练出更“持久有益”的模型？

详细解读 OpenAI Alignment 团队的 Beneficial Trait RL 论文：为什么从“让模型完成任务”转向“强化有益人格特质”，它如何构造数据、训练模型、验证跨域泛化与对抗持久性，以及这对 RLHF、模型对齐和未来 Agent 训练意味着什么。

alignment reinforcement-learning openai beneficial-ai emergent-misalignment post-training