Tag Archive

标签：llm-agent

这里整理所有带有「llm-agent」标签的文章，方便按主题快速回看。

llm-agent

共 2 篇

主题归档 · 2026-06-30

Cybench：用 CTF 任务衡量 LLM Agent 的真实网络安全能力

详细解读 Cybench 这个开放网络安全 Agent benchmark：它如何把真实 CTF 任务封装成可执行环境，如何用子任务和人类首解时间衡量能力，以及它对长轨迹 Agent 评测的启发与局限。

benchmark llm-agent cybersecurity evaluation cybench

主题归档 · 2026-06-24

ALE Agents' Last Exam：从“会答题”到“会工作”的 Agent Benchmark

Agents' Last Exam 试图把 Agent 评测从知识问答和短交互推进到真实职业工作流、长时程执行和可验证交付物。

llm-agent benchmark agent computer-use research-survey