如果把 100 条失败记录和一个性能指标交给 AI 编程代理,不提供任何专业工具,它能自己找出问题、修改提示词、提升模型表现吗?Andrew Jesson 的实验给出了令人惊讶的答案。