任务完成率不是模型能力的函数,是任务设计的函数。本文拆解完成率背后的三个结构性缺口——终点未定义、验收标准缺失、中间状态无托底——以及为什么换更好的模型有时候只是让错误跑得更远。适合用过Agent、觉得效果不稳定、但说不清问题在哪里的读者。