#ALE Agents' Last Exam:从“会答题”到“会工作”的 Agent Benchmark
核心结论:ALE(Agents' Last Exam)不是又一个“更难的问答考试”,而是一个试图衡量 Agent 是否能完成真实职业工作流、产出可验证交付物的 benchmark。 它真正想回答的问题是:当模型从“会答题、会写代码、会点网页”走向“能不能干活”时,我们该怎么评测?
论文:Yiyou Sun et al., Agents' Last Exam, arXiv:2606.05405v2, 2026。
官网:<https://agents-last-exam.org/>。
#1. 为什么需要 ALE?Benchmark 成绩和真实生产力之间有断层
过去几年,AI 系统在很多 benchmark 上快速进步:知识问答、数学竞赛、代码竞赛、网页操作、终端任务、GitHub issue 修复等都不断刷新成绩。但一个尴尬的问题是:benchmark 胜利并没有等比例转化为真实行业里的经济生产力。
这不是说现有 benchmark 没价值,而是它们往往只覆盖了真实工作的一个切面:
| 类型 | 代表 benchmark | 主要测什么 | 局限 |
|---|---|---|---|
| 知识/考试型 | MMLU、GPQA、HLE | 模型知道什么、会不会推理 | 不测真实软件环境中的交付能力 |
| 代码/终端型 | SWE-bench、Terminal-Bench | 能不能改代码、跑命令、解决技术问题 | 领域偏窄,主要围绕软件/终端 |
| GUI/Web 型 | OSWorld、WebArena | 能不能看屏幕、点网页、操作应用 | 任务多是短交互或人为设计场景 |
| 经济工作型 | GDPval、RLI | 真实经济任务或自由职业任务 | 往往依赖人工专家评分,难以规模化 |
| ALE | Agents' Last Exam | 真实职业 workflow + 自动可验证交付物 | 成本高、环境复杂、仍在早期 |
ALE 的判断是:如果我们希望 Agent 真的进入法律、金融、制造、设计、医疗、科研、工程等行业,就不能只测“会不会回答这个行业的问题”,而要测:
- 能不能理解一个真实工作任务?
- 能不能在专业软件和文件系统里长期操作?
- 能不能产出可交付的文件、模型、报告、设计、仿真结果?
- 能不能通过隐藏 reference 和自动 evaluator 的检查?
换句话说,ALE 想把评测目标从 answer correctness 推向 work completion。
#2. “Last Exam” 这个名字是什么意思?
“Last Exam” 有两层含义。
第一层是 competence threshold:如果一个 Agent 能通过某个行业的 ALE 任务,它展示的不是“知道这个行业的知识”,而是能持续完成这个行业里有经济价值的工作。
第二层是 difficulty frontier:ALE 的最难档不是为了马上被刷满,而是为了保留长期 headroom。论文结果显示,当前主流 Agent 在最难档 Last-Exam 上几乎全军覆没,很多配置 full-pass rate 是 0%。
所以 ALE 更像是一个里程碑 benchmark:它不是日常快速刷榜的小测验,而是问“Agent 离真正职业级工作能力还有多远”。
#3. 数据规模与行业覆盖
论文报告的当前规模是:
- 960 个 expert-authored task workflows;
- 1,490 个 task instances;
- 13 个 top-level industry clusters;
- 55 个 subdomains;
- 250+ 行业专家参与;
- 约 150 个公开 instances,其余放入 private pool,用于防污染和滚动评测。
ALE 的领域划分不是随便拍脑袋选几个热门行业,而是参考美国职业分类体系:
- SOC 2018;
- O*NET。
它把数字化、非物理的职业工作流聚类成 13 大类和 55 个子域,覆盖工程建筑、计算与数学科学、视觉媒体艺术、商业金融、医疗健康、生命科学、物理科学、法律、心理与神经科学、农业环境、交通安全、教育信息等方向。
任务例子也非常“职业化”:
- 3D CAD modeling;
- CNC toolpath generation;
- molecular docking;
- RF circuit matching;
- chip signoff routing;
- clinical diagnostics / imaging;
- financial workbook / accounting;
- game reproduction;
- weather forecasting;
- motion retargeting;
- single-cell clustering;
- hardware verification;
- legal discovery / doctrinal legal research。
这和 OSWorld、WebArena、SWE-bench 的最大不同是:ALE 不以某类界面或某类代码仓库为中心,而以真实职业交付物为中心。
#4. 什么任务能进入 ALE?三个准入标准
ALE 对任务有三个高层要求。
#4.1 Representativeness:代表真实职业实践
任务必须来自真实专业工作,而不是为了 benchmark 临时编出来的玩具问题。
例如,建筑专家如果真实工作中通常用 SolidWorks 或 Rhino 从 2D blueprint 转 3D model,那么任务就应该围绕这些真实工具,而不是用一个更容易自动化但不符合行业实践的软件替代。
这意味着 ALE 不希望牺牲真实性来换取评测便利。
#4.2 Complexity:必须是 workflow,而不是单步 action
ALE 区分 workflow 和 action。
一个太窄的任务,比如“在 DaVinci 里加一个 color filter”,只是在测单步操作;而“把一只奔跑的猎豹移动到另一个赛跑视频里”则需要 tracking、rotoscoping、compositing、color matching 等多个耦合步骤,更接近真实工作。
所以 ALE 要测的是 Agent 能否完成一串有依赖关系的长时程流程,而不是能不能执行一个局部动作。
#4.3 Verifiability:必须能验证
这是 ALE 最关键的工程约束。任务输出必须能通过确定性检查,或者至少通过绑定可观察证据的 rubric 评分。
例如,“设计一个有怪物的 RPG 游戏”太主观,不适合;但“用 RPGMaker XP 复现 mota.exe”可以比较地图几何、角色属性、事件状态,以及固定操作轨迹下的世界状态,因此更适合。
ALE 的难点就在这里:既要真实,又要可自动评分。
#5. 任务构建流程:专家真实项目如何变成 benchmark?
ALE 明确说任务不能简单众包给普通工人,因为它需要专业领域知识。构建流程大致是:
- Expert outreach:招募行业专家和 advisory committee;
- Expert task submission:专家通过提交入口上传真实做过的项目;
- Auto-review with agent:辅助检查任务描述、输入、输出、评测规范是否完整;
- Task implementation:工程团队把任务转成可运行环境、assets、reference、evaluation logic;
- QC committee review:专家委员会做最终质量控制,检查 reference 正确性、评分边界是否过窄或过宽、上下文是否充分。
一个任务提交需要五个核心组件:
- 自然语言任务描述;
- 输入文件;
- 目标软件;
- 期望交付物;
- 评测规范。
这说明 ALE 的核心工程量不只是“收集题目”,而是把真实职业项目改造成可重复执行、可自动评分的 benchmark instance。
#6. 执行环境:每个任务都是一个 VM 中的可运行实例
ALE 的任务实例由三个解耦组件构成:
- Task Spec:一个
main.py; - Agent:harness + LLM;
- Environment:虚拟机。
main.py 暴露三个生命周期函数:
load():声明任务描述、metadata、计算需求;start():把 VM 初始化到确定状态;evaluate():读取 Agent 输出,对照 reference 或 rubric,返回 0 到 1 分。
VM 目录结构也很重要:
input/:只读输入资产,Agent 可见;software/:预安装专业软件;output/:Agent 唯一写入目标;reference/:隐藏 ground truth,只给 evaluator 使用。
Agent 只能看到任务描述和 metadata,通过截图、shell、鼠标键盘、文件编辑、API 调用等进行操作,最终把产物写入 output/。
这相当于把真实职业任务封装成一个可复现实验环境。
#7. 评测对象:GCUA,而不只是 CLI Agent 或 GUI Agent
ALE 提出一个关键概念:Generalist Computer-Use Agent,GCUA。
作者认为现有 Agent 常常偏科:
- CLI agents:会 shell、代码、文件、工具调用,但没有 GUI perception;
- GUI agents:会看屏幕、点鼠标、键盘操作,但 orchestration、文件系统、代码执行、长期流程能力弱。
真实职业 workflow 往往两者都要:既要操作 GUI 专业软件,也要写脚本、处理文件、查资料、跑命令、调代码。
ALE 把 Agent 能力拆成五层:
- Brain:LLM reasoning / planning;
- Eyes:GUI perception via screenshots;
- Body:orchestration and control flow;
- Hands:structured tool invocation;
- Feet:runtime substrate,比如 VM、Docker、shell。
GCUA 要五层都强。Claude Code、Codex、OpenClaw 加 GUI harness 这类系统才比较接近 ALE 要测的对象。
#8. GUI-as-Tool 与 GUI-as-SubAgent
为了让 CLI-native agents 能做 ALE,作者用了两种 GUI 扩展方式。
#8.1 GUI-as-Tool
把桌面动作暴露为普通工具,让主模型在同一个 action loop 里决定是否截图、点击、输入、拖拽等。
这是论文的主评测方式,因为它测试的是模型能否统一处理 shell 输出和视觉反馈。
#8.2 GUI-as-SubAgent
把 GUI 操作委托给一个专门的视觉语言 sub-agent。
作者主要把它用于没有原生视觉输入的模型,例如 DeepSeek V4。
这个设计说明 ALE 不只测 base model,也测 harness。但论文后续分析发现:在比较成熟的 harness 之间,模型选择造成的性能差距大约是 harness 选择的 3 倍。
#9. 评分方式:如何避免“LLM judge 泛滥”?
ALE 的输出非常异构:CAM toolpaths、financial workbooks、3D meshes、game world states、rendered screenshots、structured filings、free-text reports 等都可能出现。
它没有强行统一成一个 metric,而是使用多种 artifact mode:
- exact / hashed values;
- structured numeric / tabular fields with tolerance;
- geometric surface / point-cloud distance;
- visual appearance checks;
- behavioral world state under fixed trajectory;
- free-text rubric scoring。
组合方式主要有两类。
#9.1 Gate-and-score
先过一个 binary gate,再算连续分数。
例如文件能不能 parse、toolpath 有没有 collision、输出格式是否正确。如果 gate 失败,即便其他部分有一点接近,也直接 0 分。
这很像真实工作:CAD 文件打不开、代码跑不起来、表格格式错了,后面的“看起来努力了”没有意义。
#9.2 Checklist / per-file score averaging
多个二元检查或多个文件分数求平均,得到细粒度 partial score。
#9.3 LLM judge 只做窄 probe
ALE 明确说:能不用 LLM judge 就不用。
如果一个任务只能靠“问模型结果看起来对不对”,QC 会拒绝或重构任务,让它暴露可检查 artifact。
少数必须用视觉/文本判断的任务,也不是让 LLM 做整体主观评分,而是用 narrow, evidence-anchored yes/no probes。
例如游戏复现任务不是问“这个游戏复现得好吗?”,而是问:
- 第一张图是否显示 RPGMakerXP;
- 地图布局是否和原始游戏一致;
- 玩家状态是否一致。
然后用代码聚合这些 yes/no 结果。
这比一般 holistic LLM-as-judge 更可靠,但仍不是完美方案,因为视觉 probe 本身仍可能受 judge 模型误差影响。
#10. 三个难度层级
ALE 的公开评测成本很高:单个任务跑 frontier agent 平均约 3 到 10 美元,耗时几十分钟到数小时。因此它分成三档。
#10.1 Near-Term
- 67 tasks;
- 当前 frontier agents 能部分完成;
- top pass rate 接近 40%;
- 适合短期 leaderboard 和快速迭代。
#10.2 Full-Spectrum
- 55 tasks;
- 每个子域至少一个任务;
- 用于广覆盖综合评测。
#10.3 Last-Exam
- 38 tasks;
- 最难任务;
- 大多数 Agent full-pass 为 0%;
- 用于长期 milestone,而不是日常刷榜。
这个分层很合理:如果全是超难任务,研究者无法快速定位进展;如果全是 near-term,又很快饱和。
#11. 主要实验结果:当前 Agent 离“会工作”还很远
论文最重要的结论是:ALE 远未饱和。
#11.1 最强配置也过不了最难档
论文中较强的 mainstream 配置之一是 Codex + GPT-5.5:
- Near-Term pass:约 38.1%;
- Full-Spectrum pass:约 22.7%;
- Last-Exam pass:约 0.0%;
- Overall pass:约 24.0%。
另一强配置 ALE-Claw + GPT-5.5:
- Near-Term pass:约 32.8%;
- Full-Spectrum pass:约 23.6%;
- Last-Exam pass:约 2.6%;
- Overall pass:约 23.0%。
这说明即使是最强 Agent,在真实长时程职业任务上也非常不稳。
#11.2 ALE-CLI 明显难于 Terminal-Bench
论文特别比较了 ALE-CLI 和 Terminal-Bench。
Codex + GPT-5.5 在 Terminal-Bench 上可以达到 82%,但在 ALE-CLI 上只有:
- Overall pass:23.3%;
- Near-Term:37.2%;
- Full-Spectrum:19.0%;
- Last-Exam:0.0%。
这说明问题不是“会不会用终端”这么简单。真实 workflow 里的领域知识、任务理解、产物约束、长时程规划都更难。
#11.3 固定 harness 看模型:模型差异仍然很大
在固定 OpenClaw + GUI-as-Tool 的模型比较中,论文给出的 overall pass 大致是:
| Model | Overall Pass |
|---|---|
| GPT-5.5 | 21.1% |
| GPT-5.4 | 20.5% |
| Claude Opus 4.7 | 15.1% |
| Gemini 3.1 Pro | 14.1% |
| Claude Opus 4.6 | 14.1% |
| DeepSeek V4 Pro | 12.4% |
| Qwen3.7 Max | 11.8% |
| GLM 5.1 | 11.5% |
| Claude Sonnet 4.6 | 9.9% |
| Grok 4.3 | 4.3% |
这些是论文设定下的模型名和版本,时间点是 2026 年,不应和现实产品版本简单对应。
#11.4 Harness 有影响,但模型影响更大
论文分析发现:
- 固定 GPT-5.5,换 harness,overall pass spread 约 4.9 个百分点;
- 固定 Claude Opus 4.7,换 harness,spread 约 7.2 个百分点;
- 固定 OpenClaw,换模型,spread 约 16.8 个百分点。
结论是:在比较成熟的 GCUA harness 里,foundation model 的能力差异仍然是主要因素。
但这不等于 harness 不重要。GUI 接入、context compaction、工具调度、sub-agent、长任务恢复等能力仍然会决定 Agent 是否能把模型能力转化为行动能力。
#12. 失败分析:Agent 主要不是“手笨”,而是“不会工作”
论文对 Claude Code + Opus 4.7 的失败任务做 root-cause taxonomy,结论很值得注意:
- Understanding + Approach failures 合计约占四分之三;
- dominant bottleneck 是 domain knowledge / task understanding / strategy;
- 不是纯 execution capability。
人话说,Agent 很多时候不是不会点鼠标、不会写文件,而是不知道这个行业任务到底该怎么做。
它会倾向于:
- 用 ad-hoc script 替代专业软件;
- 用通用代码思路硬解专业任务;
- 没理解交付物标准;
- 没有领域 workflow sense;
- 没有长期 plan 和中间验证。
论文还观察到:虽然约 34% 的 public task instances 把图形软件作为 primary tool,但大多数 Agent 的 GUI 使用比例偏低,常常试图通过 Bash/CLI 绕开 GUI。
这说明当前 coding agents 的训练分布和工具偏好,可能让它们天然倾向“脚本化一切”。但很多专业任务并不能这样解决。
#13. ALE 真正重要的地方
我觉得 ALE 的价值不只是“又出了一个更难榜单”,而是它把 Agent 评测推进到了一个更接近真实生产力的位置。
过去 Agent benchmark 常见问题是:
- 任务太短,测不到长期状态管理;
- 领域太窄,代码、网页、桌面 app 占据多数;
- 验证太弱,要么 exact match 太玩具,要么 human/LLM judge 太主观;
- 经济意义不清楚,榜单提升不等于能替代或增强真实工作;
- 环境太人工,不是专家真实工作流。
ALE 的贡献就是把这些矛盾放在一起处理。它不完美,但方向很清晰:从“会交互”走向“会交付”。
尤其对 LLM Agent、code agent、self-evolving agent 研究来说,ALE 暴露了一个关键问题:
当前 Agent 的主要瓶颈不是“会不会调用工具”,而是“有没有形成职业级任务状态、领域 workflow、长期规划和可验证中间目标”。
这和 long-horizon agent trajectory、model-based RL、latent task state、context compression、self-evolving code agent 都直接相关。
#14. 对 Agent 研究的启发
#14.1 Agent 需要职业 workflow world model
ALE 任务不是孤立动作,而是 workflow。
一个强 Agent 需要知道:
- 这个领域通常怎么做;
- 哪些中间产物必须先生成;
- 哪些软件适合做哪一步;
- 什么输出才算交付物;
- 怎样自己验证是否接近 reference。
这比普通 tool use 难很多。它需要某种 workflow-level world model。
#14.2 需要 decision-sufficient context,而不是无限上下文
ALE 长任务会产生大量截图、shell 输出、文件、错误日志、中间产物。简单把上下文拉长不够,Agent 需要压缩成:
- 当前任务目标;
- 已完成 milestone;
- 当前 artifact 状态;
- 失败尝试;
- 约束和评分线索;
- 下一步最有价值动作。
这正好对应通用上下文压缩器和 latent task state 的研究问题。
#14.3 需要 process supervision,而不只是 final reward
ALE 的最终 evaluate() 可以给 0 到 1 分,但如果用来训练 Agent,final reward 太稀疏。
更可行的是构建:
- milestone-level evaluator;
- artifact validator;
- self-check scripts;
- domain-specific process reward;
- trajectory repair / critique data。
这对 agentic RL 很重要。
#14.4 需要 model-based RL / imagined workflow
真实 ALE run 很贵:单任务几美元到十美元,耗时几十分钟到几小时。
如果要基于 ALE 训练 Agent,不可能只靠在线试错。更可能需要:
- 从专家 workflow 中学 transition model;
- 模拟中间 artifact 状态;
- 学会预测某个动作是否让最终交付物更接近目标;
- 在 latent space 里做 rollout / planning;
- 用 evaluator 反推 task-state value。
这和 Dreamer for LLM Agent 或 model-based agent RL 非常接近。
#14.5 GUI 使用不足说明训练分布偏了
论文观察到 Agent 偏向 Bash/CLI 替代 GUI。这个现象可以引出很好的研究问题:
- Agent 为什么不愿意用 GUI?
- 是视觉 grounding 弱?
- 是 GUI action space credit assignment 难?
- 是训练数据里 shell/code 轨迹太多?
- 能否通过 workflow demonstrations 纠正工具选择偏差?
- 能否学习“什么时候必须用专业软件,什么时候可以脚本化”?
这其实是 tool policy / modality routing 问题。
#15. 局限与风险
ALE 很有价值,但也有明显限制。
#15.1 成本高,复现门槛高
每个任务需要 VM、软件、reference、evaluation scripts。很多专业软件可能有授权、系统依赖、GUI 稳定性问题。普通研究组很难完整复现私有池评测。
#15.2 自动验证仍可能被钻空子
只要是自动评分,就可能出现 benchmark hacking。Agent 可能学会满足 evaluator,而不是真正完成工作。ALE 用 private rolling pool 缓解,但不能完全解决。
#15.3 专家任务质量不均
不同领域专家提交的任务粒度、清晰度、reference 质量、评分边界可能差异很大。QC 能过滤一部分,但大规模专家任务天然有异质性。
#15.4 领域覆盖广不等于分布均衡
虽然 55 子域都有覆盖,但任务数量分布明显不均。Full-Spectrum 每子域至少一题,但一题未必代表整个子域。
#15.5 LLM judge 仍存在
虽然 ALE 尽量避免 LLM judge,但视觉、媒体、自由文本任务中仍有窄 probe。窄 probe 比 holistic judge 好,但 judge 模型偏差、视觉误判、prompt 敏感性仍会影响分数。
#15.6 “经济价值”不是直接测 GDP impact
ALE 说要连接 GDP-relevant impact,但 benchmark 任务通过率和真实经济部署之间还有组织、责任、成本、法规、信任、集成等因素。它比传统 benchmark 更近,但不是最终答案。
#16. 最值得关注的研究问题
如果把 ALE 当成未来 Agent 研究的试金石,我觉得最值得挖的问题是:
- Agent workflow representation:如何让模型内部形成可迁移的职业 workflow 表示,而不是每个任务临场乱试?
- Long-horizon state abstraction:如何把数小时任务轨迹压缩成 decision-sufficient latent state?
- Tool modality routing:Agent 如何学会什么时候用 GUI、什么时候用 shell、什么时候用代码、什么时候用专业软件?
- Evaluator-aware but not evaluator-hacking training:如何利用
evaluate()和 milestone checks 训练 Agent,同时避免只学会钻 evaluator 空子? - Model-based agent RL:能否学习“动作 -> artifact 状态 -> evaluator score”的世界模型,在低成本 imagined rollout 中训练策略?
- Domain knowledge acquisition for agents:当前失败主要是理解和方法错误,那么 Agent 需要的是更强 base model,还是可检索 workflow memory,还是专家 demonstration?
- Self-evolving agent on ALE-like tasks:Agent 能否在失败后自动总结领域技能、写脚本、构建 validators、更新 workflow library,下次同类任务更强?
#17. 总结
ALE 的核心价值是:把 Agent evaluation 从“交互能力”推进到“职业交付能力”。
它测的不是模型是否聪明地回答问题,而是一个完整 Agent 系统能否在真实软件环境中,经过长时程操作,产出可验证、有经济意义的结果。
当前结果说明:
- frontier agents 远未饱和;
- 最难档 Last-Exam 几乎全军覆没;
- ALE-CLI 明显难于 Terminal-Bench;
- 失败主因更多是任务理解、领域知识和策略,而不是纯工具执行;
- 模型能力差异目前比 harness 差异更大;
- Agent 仍明显偏向 CLI/Bash,GUI 和专业软件使用不足。
我个人判断:ALE 会成为 Agent 研究里很有代表性的“真实工作流评测”方向,但它更适合作为 milestone benchmark,而不是日常快速开发 benchmark。 对研究来说,它最有启发的地方是暴露了 Agent 从“会用工具”到“会工作”的断层。