HiL-Bench：AI Agent 何时该”求助”？

核心问题

当前沿编程 AI Agent 获得完整上下文时，它们能解决复杂任务。但当规格说明不完整或模糊时，它们就会崩溃。

瓶颈不在于原始能力，而在于判断力：AI 何时该行动，何时该求助？

> 论文原文：
> “Frontier coding agents solve complex tasks when given complete context but collapse when specifications are incomplete or ambiguous. The bottleneck is not raw capability, but judgment: knowing when to act versus when to ask for help.”
>
> —— arXiv:2604.09408

HiL-Bench 研究背景

研究团队

作者	机构
Mohamed Elfeki	Anthropic
Tu Trinh	Anthropic
Kelvin Luu	Anthropic
Guangze Luo	Anthropic
Nicholas Hunt	Anthropic
Ernesto Montoya	Anthropic
Nandan Marwaha	Anthropic
Yixuan He	Anthropic
Charles Wang	Anthropic
Fernando Crabedo	Anthropic
Alessa Castilo	Anthropic
Bing Liu	Anthropic

核心发现

HiL-Bench 揭示了一个关键问题：当前 AI Agent 在”何时求助”上的判断力严重不足。

学术前沿：其他 Agent 评测研究

评测基准全景图

基准名称	arXiv ID	研究机构	评测重点
HiL-Bench	2604.09408	Anthropic	何时求助
Agent² RL-Bench	2604.10547	多机构	RL 后训练能力
SIR-Bench	2604.12040	多机构	安全事件响应
AgentWebBench	2604.10938	多机构	Web 协调能力
AnyPoC	2604.11950	UIUC	漏洞检测

Agentic Coding 研究动态

ORBIT: C 到 Rust 自动转换

– arXiv ID: 2604.12048
– 研究机构: 哥伦比亚大学
– 核心挑战: LLM 在代码转换时产生幻觉，且上下文窗口有限

AgentSZZ: Bug 定位自动化

– arXiv ID: 2604.02665
– 研究机构: 新加坡国立大学
– 核心挑战: SZZ 算法自动化

Ask or Assume: 不确定性感知

– arXiv ID: 2603.26233
– 研究机构: DeepMind
– 核心问题: 编码代理面对不确定性时的行为

关键洞察

1. “求助经济学”

“`
正确求助的好处：
├── 避免错误方向 × 节省时间
├── 获取关键信息 × 提高准确率
├── 减少无效迭代 × 降低成本
└── 提升用户信任 × 增加满意度

错误求助的代价：
├── 频繁中断 × 用户体验下降
├── 效率降低 × 任务时间延长
└── 信任损失 × 用户不愿使用
“`

2. 判断力的三个层次

层次	能力	当前状态
L1: 任务理解	理解用户意图	✅ 优秀
L2: 能力边界	知道自己能做什么	⚠️ 一般
L3: 不确定性感知	知道何时需要帮助	❌ 薄弱

3. Anthropic 的实践方案

Claude Agent 产品线体现了这一理念：

产品	定位	求助机制
Claude Code	开发者助手	代码审查 + 建议
Claude Code Security	安全版	敏感操作需确认
Claude Cowork	协作伙伴	自然语言交互