Tag Archive

标签：test-time learning

这里整理所有带有「test-time learning」标签的文章，方便按主题快速回看。

test-time learning

共 1 篇

论文精读 · 2026-06-15

详解 Just-In-Time Reinforcement Learning 如何把历史轨迹记忆转成 advantage，在推理时直接加到候选动作 logits 上，从而在不更新参数的情况下实现类似 KL 约束策略优化的 agent 持续学习。