GPT-5编程测试被曝作弊：删题自测自夸，成绩可信度存疑

人阅读

2025-08-12 13:47:59

作者：极客AI
相关关键词
- GPT5
- OpenAI

近期，OpenAI最新发布的GPT-5在编程能力测试中涉嫌"作弊"的行为引发业界广泛讨论。据多方技术分析显示，OpenAI在评估GPT-5编程能力时存在选择性使用测试数据、降低评估标准等争议性操作，这使得其宣称的性能优势受到严重质疑。

测试基准的"双重标准"问题尤为突出。OpenAI自行提出的SWE-bench Verified基准本包含500个编程问题，但在实际测试中仅采用477个问题。官方解释称，其余23个问题因其基础设施无法运行而被排除。值得注意的是，这已经是OpenAI第二次在模型测试中采用这种"删题"操作。早在GPT-4.1发布时，就以相同理由排除了相同数量的测试题。

这种操作直接影响了测试结果的公正性。数据显示，在完整500题测试中，Claude Opus 4.1的表现优于GPT-5。而OpenAI通过删除部分题目，使得GPT-5在缩减后的测试集上仅以0.4%的微弱优势领先。更关键的是，若将被删除的23题按零分计算，GPT-5的实际得分将低于Claude Opus 4.1。

测试方法的不对等性也引发质疑。OpenAI将GPT-5的最大思维努力输出与Claude Opus 4.1的基础输出进行对比，这种不对称比较严重削弱了结果的参考价值。Anthropic公司明确指出，其Claude 4系列所有模型的测试成绩均基于完整的500题测试集，与OpenAI的做法形成鲜明对比。

具有讽刺意味的是，SWE-bench Verified基准本身就是OpenAI为解决原SWE-bench测试集的不足而特别设计的。该基准经过93位资深程序员的人工标注，从1699个样本中严格筛选出500个优质测试题，并按照修复难度进行分级。如今OpenAI却对自己参与制定的标准进行二次"裁剪"，这种做法难免让人质疑其动机。

在更权威的原始SWE-bench测试榜单中，Claude 4 Opus仍保持领先地位。这一结果与OpenAI的宣传形成反差，进一步加深了业界对GPT-5真实编程能力的怀疑。

此次事件反映出AI行业在模型评估标准化方面仍面临挑战。当企业既当"运动员"又当"裁判员"时，如何确保评估的客观性成为亟待解决的问题。行业需要建立更中立、透明的评估机制，避免因商业竞争损害技术发展的公信力。目前来看，GPT-5在编程领域的实际能力可能需要更全面、公正的评估才能得到准确判断。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）