#2026-06-15 AI/LLM 最新论文与研究热点简报
检索时间:2026-06-15 08:00(Asia/Shanghai)
覆盖范围:由于 arXiv 周末没有常规新提交,本期实际覆盖 2026-06-10 至 2026-06-13 在 Hugging Face Daily Papers、arXiv、GitHub/Hugging Face 模型页上出现或更新的一批论文与项目。
重点筛选方向:LLM Agent、代码智能、长轨迹/深度搜索、latent reasoning、agentic RL、工具调用、持续学习、预训练/后训练机制、长上下文与系统。
访问说明:arXiv API 在检索中出现 429 限流,因此对重点条目改用 arXiv 论文页逐篇核验;X/Twitter 登录墙下难以稳定做系统检索,本期未把 X 帖作为事实来源,改用 Hugging Face、arXiv、GitHub/HF API 交叉验证。
#一句话总览
今天最值得关注的信号不是单点模型榜单,而是 Agent 研究正在从“模型会不会调用工具”转向“环境、记忆、接口、轨迹和验证器如何共同塑造能力”:EvoArena/EvoMem 把动态环境记忆演化问题显式 benchmark 化;EurekAgent 把 autonomous discovery 的瓶颈定位为 environment engineering;HyperTool、HarnessBridge、WeaveBench 则分别从工具粒度、agent harness、真实混合界面长任务角度重构 agent 的交互层。与此同时,latent reasoning 和 post-training RL 仍在快速推进,SWITCH 用显式边界 token 让 hidden-state recurrence 进入可 RL 优化、可解释的框架。
#1. 今日最重要的 5 条
#1.1 EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments
- 类别:LLM Agent / Continual Learning / Memory / Evaluation
- 链接:https://arxiv.org/abs/2606.13681
- 来源:arXiv cs.CL;Hugging Face Daily Papers
- 日期:2026-06-11;GitHub repo 2026-06-13 有更新
- 代码/项目:https://github.com/Aiden0526/EvoArena
- 一句话核心贡献:提出 EvoArena,把环境变化建模成 terminal、software、social preference 等域中的连续更新序列,并提出 patch-based memory 范式 EvoMem 来记录 memory evolution;实验显示当前 agent 在动态环境平均准确率只有约 39.6%。
为什么值得关注:
多数 agent benchmark 默认环境是静态的:文件系统、API 文档、用户偏好、软件版本、任务约束都不变。但真实部署中,agent 必须处理“昨天学到的知识今天部分失效”的问题。EvoArena 的价值在于把这个问题从笼统的“长期记忆”拆成可测的 memory evolution:哪些知识被更新、替换、废弃,agent 是否能从 memory diff 中推理出新环境。
与 wenjun 方向的关系:
这直接连接到 LLM Agent 的持续学习与长轨迹能力形成机制。若要研究 agent 预训练数据/交互数据如何塑造能力,EvoArena 提供了一个很好的任务抽象:不是只看是否记住事实,而是看模型能否在连续环境变更下维护可执行的世界模型。它也可以和 model-based RL 结合:memory patch 本质上是环境状态转移的符号轨迹。
#1.2 Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning
- 类别:Latent Reasoning / Post-training RL / Mechanistic Interpretability
- 链接:https://arxiv.org/abs/2606.13106
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-11
- 一句话核心贡献:提出 SWITCH,通过
<swi>与</swi>显式边界 token 让模型在可见文本推理与 hidden-state latent recurrence 之间切换,使 latent CoT 更适合标准 on-policy RL,并为机制分析提供锚点。
为什么值得关注:
latent-space reasoning 过去的难点是:连续隐状态推理看起来节省 token,但训练和归因都很别扭。SWITCH 的核心 trick 很朴素:用离散边界 token 定义进入/退出 latent mode 的区间。这样 policy 仍然能用常规 on-policy RL 优化,而 latent block 又不会完全黑箱到无法定位。
与 wenjun 方向的关系:
这篇非常贴合“潜空间推理 latent-space reasoning”。它提示一个可深挖方向:latent reasoning 不一定要完全端到端隐式化,可以设计 可切换、可审计、可奖励分配 的 latent segment。对长轨迹 agent 来说,未来也许可以让 agent 在“规划/反思”时进入 latent mode,在“调用工具/提交动作”时退出 latent mode,从而减少上下文成本。
#1.3 EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery
- 类别:LLM Agent / Environment Design / Scientific Discovery / Self-evolving Agent
- 链接:https://arxiv.org/abs/2606.13662
- 来源:arXiv cs.AI/cs.CL;Hugging Face Daily Papers
- 日期:2026-06-11
- 一句话核心贡献:提出 environment engineering 视角,认为自主科学发现的瓶颈正从手写 agent workflow 转向设计能放大探索、管理 artifact、支持协作并抑制 reward hacking 的执行环境。
为什么值得关注:
这篇的主张非常接近“通过环境设计催生自演化智能”:当模型能力上来之后,决定 agent 能否产出科学发现的不只是 prompt/workflow,而是环境提供了什么可操作资源、反馈、约束、版本化 artifact、协作接口和验证机制。
与 wenjun 方向的关系:
如果 wenjun 关注 model-based RL / Dreamer for LLM Agent,这篇可作为宏观框架:world model 不只是模型内部学出来的,也可以通过外部环境结构来显式化。一个可研究问题是:什么样的 agent environment 能诱导出更强的自我改进 loop?哪些环境设计只是 benchmark trick,哪些会稳定提高长轨迹泛化?
#1.4 HyperTool: Beyond Step-Wise Tool Calls for Tool-Augmented Agents
- 类别:Tool-use / LLM Agent / Context Compression / Systems
- 链接:https://arxiv.org/abs/2606.13663
- 来源:arXiv cs.CL
- 日期:2026-06-11
- 一句话核心贡献:提出 HyperTool,一种 MCP 风格的统一可执行工具接口,让模型用一个代码块在单次外层调用中组合多个工具、处理中间值,从而把确定性工具子流程折叠出主推理轨迹。
为什么值得关注:
当前 tool-use agent 常见问题是“每一步工具调用都暴露给 LLM”:调用、观察、传值、再调用,消耗上下文且迫使模型管理低层 dataflow。HyperTool 的思路是改变模型可见的执行粒度:让工具链内部的确定性流程在外部看来是一个 macro action。
与 wenjun 方向的关系:
这对通用上下文压缩器和长轨迹 agent 很关键。它不是压缩自然语言上下文,而是压缩 action trace。如果结合 RL,可把 HyperTool 看作 option / skill discovery:低层工具组合被封装成高层 action,模型在长任务中学习何时调用高层 option。
#1.5 WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces
- 类别:LLM Agent / Code Agent / Computer-use / Evaluation
- 链接:https://arxiv.org/abs/2606.09426
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-08 提交,2026-06-10 v2 更新;GitHub 2026-06-11 更新
- 代码/项目:https://github.com/weavebench/WeaveBench
- 一句话核心贡献:提出 114 个跨 GUI、CLI、代码编辑、浏览器和外部工具的真实长程任务,并配套 trajectory-aware judge 检查文件、截图、日志与动作轨迹。
为什么值得关注:
Computer-use agent 未来不会只在浏览器或命令行中单独行动,而是在桌面、shell、IDE、网页、文件系统之间来回切换。WeaveBench 把这个“混合界面编排”作为核心能力来测,而不是把 GUI 与 CLI 分开评估。
与 wenjun 方向的关系:
这对 Code Agent / agentic coding 很有参考价值:真实 coding agent 往往需要读 issue、改代码、跑测试、看日志、生成报告。WeaveBench 的 judge 思路也适合做长轨迹 RL 的 verifiable reward:不是只看最终文本,而是检查 artifacts 与 trace。
#2. 其他值得扫读的论文与动态
#2.1 Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning
- 类别:Post-training RL / RAG / Reasoning
- 链接:https://arxiv.org/abs/2606.13680
- 来源:arXiv cs.AI/cs.CL
- 日期:2026-06-11
- 一句话核心贡献:提出 RA-RFT,让 retriever 按“对推理有帮助”而非语义相似度检索类比样例,再用可验证结果奖励进行 reinforcement fine-tuning。
- 判断:值得关注其对“检索什么样的轨迹能帮助 reasoning”这个问题的形式化;它可能比普通 RAG 更接近 agent 经验回放 / case-based RL。
#2.2 Agents-K1: Towards Agent-native Knowledge Orchestration
- 类别:LLM Agent / Scientific Knowledge Graph / Agent Pretraining Data
- 链接:https://arxiv.org/abs/2606.13669
- 来源:arXiv cs.AI
- 日期:2026-06-11
- 一句话核心贡献:提出把论文全文转成 agent-native scientific knowledge graph 的 pipeline,强调实体、claim、证据、机制、方法谱系,而不是只抽摘要和 citation edge。
- 判断:适合关注科研 agent 和 agent 预训练数据的人读;关键点是“给 agent 的知识表示”需要比给人类的摘要更结构化。
#2.3 SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning
- 类别:LLM Agent / Tool-use / Spatial Reasoning / VLM
- 链接:https://arxiv.org/abs/2606.13673
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-11
- 一句话核心贡献:研究 spatial agent 的 action interface 如何限制开放式 3D/4D 空间推理,指出 single-pass code execution 与结构化工具调用各有灵活性瓶颈。
- 判断:可与 HyperTool 一起看:一个讲工具执行粒度,一个讲动作接口设计;共同主题是 interface 会塑造 agent 能力上限。
#2.4 HarnessBridge: Learnable Bidirectional Controller for LLM Agent Harness
- 类别:LLM Agent / Agent Harness / Long-horizon Agent
- 链接:https://arxiv.org/abs/2606.12882
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-11
- 一句话核心贡献:提出可学习的 agent-environment harness controller,把人工设计的 harness 替换为轻量双向投影模块,以适配更长、更复杂的交互轨迹。
- 判断:这是“agent shell / runtime 也可学习化”的方向,适合和 environment engineering、HyperTool、TRACE 放在一条线上理解。
#2.5 FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents
- 类别:LLM Agent / Deep Search / RLVR / Evaluation Data
- 链接:https://arxiv.org/abs/2606.12087
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-10
- 代码/项目:https://github.com/RUCAIBox/FORT-Searcher
- 一句话核心贡献:提出 shortcut-aware difficulty 框架和 FORT 数据合成流程,构造更抗捷径的 deep search 训练任务。
- 判断:对训练 search agent 很有用。很多“复杂搜索题”其实有短路路径,FORT 明确诊断 evidence co-coverage、single-clue selectivity、exposed constants、prior-knowledge binding 等捷径风险。
#2.6 TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search
- 类别:LLM Agent / Deep Search / Test-time Scaling
- 链接:https://arxiv.org/abs/2606.11662
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-10
- 一句话核心贡献:提出把深度搜索组织成 tree-structured branch-and-return 的 inference-time 框架,让 agent 在多个可疑搜索方向之间进行有纪律的试错与回退。
- 判断:与 FORT-Searcher 互补:一个偏训练数据抗捷径,一个偏推理时搜索控制。可作为 long-horizon agent planning 的轻量 baseline。
#2.7 EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge
- 类别:LLM Agent / Search Agent / Evaluation / Dynamic Knowledge
- 链接:https://arxiv.org/abs/2606.13120
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-11
- 一句话核心贡献:提出 400 英文 + 400 中文的 evolving benchmark,用 live-web traversal 合成污染更少的复杂搜索问题,减少静态知识 benchmark 被参数记忆击穿的问题。
- 判断:与 EvoArena 一样强调“环境/知识会变化”。对检验 agent 是否真的会搜索而不是背答案很重要。
#2.8 Getting Better at Working With You: Compiling User Corrections into Runtime Enforcement for Coding Agents
- 类别:Code Agent / Memory / Runtime Enforcement / Human Preference
- 链接:https://arxiv.org/abs/2606.13174
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-11
- 一句话核心贡献:提出 TRACE,把用户纠正抽成原子规则,并编译成 coding agent 完成任务前必须通过的 runtime checks;论文指出仅用 Mem0 仍有 57.5% 适用偏好检查被违反。
- 判断:这篇对“从指令理解走向意图/偏好理解”很实用:记忆不是存下来就完了,还要能变成执行时约束。
#2.9 Understanding the Rejection of Fixes Generated by Agentic Pull Requests -- Insights from the AIDev Dataset
- 类别:Code Agent / Software Engineering / Evaluation
- 链接:https://arxiv.org/abs/2606.13468
- 来源:arXiv cs.SE
- 日期:2026-06-11
- 一句话核心贡献:分析 Copilot、Devin、Cursor、Claude 等 agent 生成 PR 在 AIDev 数据集中的拒绝原因,发现约 46.41% 修复被拒绝,并归纳失败模式。
- 判断:对 code agent 的真实采用很重要:benchmark 上通过测试不等于 PR 可合并,拒绝原因往往涉及项目语义、维护偏好、代码风格、风险控制。
#2.10 Toward Instructions-as-Code: Understanding the Impact of Instruction Files on Agentic Pull Requests
- 类别:Code Agent / Agent Instructions / Software Engineering
- 链接:https://arxiv.org/abs/2606.13449
- 来源:arXiv cs.SE
- 日期:2026-06-11
- 一句话核心贡献:基于 148 个项目的 15,549 个 agentic PR,研究 instruction files 对 agent PR merge rate、任务复杂度和合并成本的影响。
- 判断:非常贴近 coding agent 工程实践。AGENTS.md、CLAUDE.md、cursor rules 这类 instruction file 正在变成“项目级程序化规范”。
#2.11 Beyond Problem Solving: UOJ-Bench for Evaluating Code Generation, Hacking, and Repair in Competitive Programming
- 类别:Code Intelligence / Evaluation / Program Repair
- 链接:https://arxiv.org/abs/2606.12864
- 来源:arXiv cs.SE
- 日期:2026-06-11
- 一句话核心贡献:提出 UOJ-Bench,不只评估竞赛题解生成,还评估发现人类错误代码的 hacking 能力与 code repair 能力,并用 UOJ 原生 judge 评估。
- 判断:把 competitive programming 从“会写 AC 代码”扩展到“会找错、修错”,更接近代码智能的教学/审查场景。
#2.12 MiniMax Sparse Attention
- 类别:Systems / Long Context / Agent Infrastructure
- 链接:https://arxiv.org/abs/2606.13392
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-11;GitHub 2026-06-13 更新
- 代码/项目:https://github.com/MiniMax-AI/MSA
- 相关模型:https://huggingface.co/MiniMaxAI/MiniMax-M3
- 一句话核心贡献:提出 MSA,在 GQA 上增加轻量 Index Branch 为每个 GQA group 选择 Top-k KV blocks,主分支再做精确 block-sparse attention,面向百万级上下文和 agent/code 场景。
- 判断:对长上下文 agent、repo-scale code reasoning、持久记忆很重要。MiniMax-M3 模型页也明确带有 agent/coding/video/multimodal 标签,HF API 显示 2026-06-13 有更新。
#2.13 MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling
- 类别:Post-training RL / Verifier / Test-time Scaling / Reasoning
- 链接:https://arxiv.org/abs/2606.13473
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-11
- 一句话核心贡献:MiniMax-M3 系列的数学证明框架,训练生成、验证、基于 critique 的修复能力,并在 test time 把模型作为 generator/verifier/refiner/ranker 做 population-level 搜索。
- 判断:虽然偏数学证明,但“生成器 + 低误报验证器 + 修复器 + 群体级 test-time scaling”是可迁移到代码 agent 和科学发现 agent 的通用 recipe。
#2.14 InterleaveThinker: Reinforcing Agentic Interleaved Generation
- 类别:Multimodal Agent / Post-training RL / Agentic Generation
- 链接:https://arxiv.org/abs/2606.13679
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-11;GitHub 2026-06-12 更新
- 代码/项目:https://github.com/zhengdian1/InterleaveThinker
- 一句话核心贡献:用 planner agent 与 critic agent 组成 pipeline,让现有图像生成器获得 text-image sequence 的 interleaved generation 能力,并通过强化式样本筛选/反馈改善输出。
- 判断:对多模态 agent 重要,但与 wenjun 当前主线的直接相关性略低于 LLM/code/search agent。
#2.15 Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation
- 类别:Post-training / On-policy Distillation / Training Mechanism
- 链接:https://arxiv.org/abs/2606.13657
- 来源:arXiv cs.LG
- 日期:2026-06-11
- 一句话核心贡献:分析 OPD 风格更新的稀疏性与几何结构,发现更新小且 coordinate-sparse、通常 FFN-heavy,训练发现的子网络可接近 full OPD 性能。
- 判断:对理解高效后训练机制有价值,尤其是为什么 on-policy student trajectory + dense teacher supervision 有时比普通 RL/蒸馏更稳。
#2.16 SG-OPD: Sign-Gated On-Policy Distillation via Sign-Consistency Gating and Phased Teacher Sampling
- 类别:Post-training / On-policy Distillation / RL
- 链接:https://arxiv.org/abs/2606.09304
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-08
- 一句话核心贡献:指出 OPD 依赖 student-teacher trajectory alignment 与 teacher token preference 可靠性,提出用二值 verifier 作为信任信号进行 sign-gated 蒸馏与 phased teacher sampling。
- 判断:可与 2.15 一起看,形成对 OPD 的机制理解与改进路线。
#2.17 Influcoder: Distilling Decoders' Gradient Influence Rankings into an Encoder for Data Attribution
- 类别:Pretraining Data / Data Attribution / Data Quality
- 链接:https://arxiv.org/abs/2606.13668
- 来源:arXiv cs.CL
- 日期:2026-06-11
- 一句话核心贡献:把 decoder 的 gradient influence ranking 蒸馏到 encoder,以更低成本做大规模训练数据归因。
- 判断:贴合预训练数据质量/去重/污染分析。若能稳定估计哪些样本导致特定输出,就能更系统地做代码数据清洗与能力来源分析。
#2.18 The Stable Recovery Manifold: Geometric Principles Governing Recoverability in Continual Learning
- 类别:Continual Learning / Training Dynamics
- 链接:https://arxiv.org/abs/2606.13637
- 来源:arXiv cs.LG
- 日期:2026-06-11
- 一句话核心贡献:从 recoverability、representation drift、recovery subspace dimensionality 角度分析持续学习中的灾难性遗忘,发现 recoverability 可能由稳定低维子空间结构支配。
- 判断:虽然实验不是 LLM,但问题意识对 LLM 持续预训练很有启发:遗忘不只是知识被毁,也可能是 access path collapse。
#2.19 See What I See, Know What I Think: Dense Latent Communication Across Heterogeneous Agents
- 类别:Multi-agent / Latent Communication / Context Compression
- 链接:https://arxiv.org/abs/2606.13594
- 来源:arXiv;Hugging Face Daily Papers
- 日期:2026-06-11
- 一句话核心贡献:研究异构 agent 间的 dense latent communication / KV-cache transfer,试图让不同模型之间传递“看到什么”和“怎么想”。
- 判断:与 latent reasoning、multi-agent coordination 和上下文压缩都相关;关键难点是跨模型 latent alignment。
#3. 今日最值得精读的 3 篇
- EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments
https://arxiv.org/abs/2606.13681
精读理由:动态环境 + memory evolution 是 agent 长期部署的核心问题,也是从静态 benchmark 走向真实世界 agent 的关键缺口。
- Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning
https://arxiv.org/abs/2606.13106
精读理由:非常贴合 latent-space reasoning;显式 latent boundary token 可能是让 latent reasoning 可训练、可解释、可控制的简单而强的设计。
- HyperTool: Beyond Step-Wise Tool Calls for Tool-Augmented Agents
https://arxiv.org/abs/2606.13663
精读理由:把 tool-use trace 的压缩和 action abstraction 讲得很直接,可连接 option learning、agentic RL、MCP 工具生态和长上下文成本控制。
备选:如果今天更想看 code agent 工程实践,可以把第三篇换成 TRACE 或 AIDev PR rejection 两篇之一。
#4. 今日最值得跟进的 3 个 repo / model / dataset
- EvoArena
- 链接:https://github.com/Aiden0526/EvoArena
- 关注点:动态环境 agent benchmark、EvoMem patch-based memory。适合作为长程记忆/持续学习 agent 的实验基准。
- WeaveBench
- 链接:https://github.com/weavebench/WeaveBench
- 关注点:GUI + CLI + code + browser 的真实混合界面长任务,以及 trajectory-aware judge。适合 code/computer-use agent 评测与 RLVR reward 设计。
- MiniMax Sparse Attention / MiniMax-M3
- GitHub:https://github.com/MiniMax-AI/MSA
- 模型:https://huggingface.co/MiniMaxAI/MiniMax-M3
- 关注点:百万级上下文 sparse attention,直接服务 agentic workflow、repo-scale code reasoning、persistent memory。
可选跟进:FORT-Searcher(https://github.com/RUCAIBox/FORT-Searcher)用于 deep search agent 抗捷径训练数据;InterleaveThinker(https://github.com/zhengdian1/InterleaveThinker)用于多模态 interleaved generation。
#5. 研究机会 / idea
#Idea 1:把 EvoMem 式 memory patch 变成 LLM Agent 的显式 world-model transition
EvoArena 把环境变化表示为 memory update history,这和 model-based RL 的 state transition 非常像。可以尝试把 agent 的长期记忆分成:
- 当前 belief state;
- memory patch / diff;
- patch 的适用条件与过期条件;
- 使用 patch 后的 reward / failure trace。
研究问题:agent 是否能基于 patch history 预测下一次环境变化?是否能在没有真实执行前模拟“如果 API/用户偏好/代码结构变化,会影响哪些计划”?这可能是 LLM Agent 版 Dreamer/world model 的一个可操作入口。
#Idea 2:把 HyperTool 看作 option discovery:从工具轨迹中学习高层动作
HyperTool 手工/合成地把多个工具调用折叠成一个宏调用。可以进一步问:这些 macro action 是否能从 agent 轨迹中自动发现?
可能实验:
- 收集 coding/search agent 成功轨迹;
- 按重复出现的工具调用子图挖掘 candidate options;
- 把 option 编译成 HyperTool 风格可执行块;
- 用 RL 或 bandit 学习何时调用 option;
- 比较 token cost、成功率、错误可恢复性。
这会把“上下文压缩”从文本层推进到行为层。
#Idea 3:latent reasoning 的边界 token + verifiable tool/action reward
SWITCH 用 <swi>/</swi> 定义 latent reasoning segment。可以探索在 agent 任务中只对可见动作给 reward,而让模型在动作前自由进入 latent mode:
- latent mode 负责规划/反思/压缩状态;
- visible mode 负责调用工具、提交代码 diff、写最终答案;
- reward 来自测试、judge、环境反馈;
- 通过边界 token 分析什么时候模型选择“想一想”。
关键问题:latent segment 是否真的学到规划,还是只是隐藏版 verbosity?可以用 ablation:限制 latent 长度、打乱 latent hidden state、替换为文本 CoT、对动作成功率和 token 成本做对比。
#6. 今日判断
本期最强主题是 agent runtime/interface/environment 正在成为研究对象本身。过去一年大家主要问“模型是否足够强”;现在越来越多论文在问:
- 记忆如何随环境演化?
- 工具调用是否应该暴露为逐步 trace?
- agent harness 是否能学习?
- benchmark 是否会被静态知识和捷径污染?
- 用户纠正如何从记忆变成 runtime enforcement?
- latent reasoning 如何在不牺牲可训练性和可解释性的情况下节省推理成本?
对 wenjun 的主线而言,可以把这些工作统一理解为:LLM Agent 的能力不只在参数里,也在可学习/可设计的环境、接口、记忆、验证器和轨迹分布里形成。