Tag Archive

标签:expRL

这里整理所有带有「expRL」标签的文章,方便按主题快速回看。

expRL

共 1 篇
论文精读 · 2026-06-21

"ExpRL:把参考答案从 SFT 样本变成 RL 探索脚手架"

"详解 arXiv 2606.17024:ExpRL 如何用参考解答构造 dense reward,解决稀疏奖励 RL 在硬题上的探索覆盖不足问题。"
reinforcement-learningllm-reasoningmid-trainingexpRLGRPOagentic-rl