Agent看起来在思考,但它实际在做的是链式token预测——根据上下文预测概率最高的下一个词,而不是逻辑推导。本文拆解token预测的真实机制、Chain of Thought有效但不是"推理"的原因,以及两个案例说明为什么预测和推理在边界条件下以完全不同的方式失败——尤其是Agent不会因为不确定而停下来,这是它的错误比人的错误更难被发现的根本原因。