OpenAI的GPT-5发布进展并不顺利-阿里西西

OpenAI的GPT-5发布进展并不顺利

时间：2025-08-20 17:30:02来源：互联网

下面小编就为大家分享一篇OpenAI的GPT-5发布进展并不顺利，具有很好的参考价值，希望对大家有所帮助。

更新于8月8日周五美国东部时间下午5:21：本文发布后不久，OpenAI联合创始人兼CEO山姆·奥特曼宣布公司将恢复部分用户对GPT-4o等旧模型的访问权限，并承认GPT-5的发布"比我们预期的更坎坷"。

OpenAI备受期待的新模型GPT-5的发布，至少可以说开局不利。

即便忽略昨日新模型直播演示中出现的图表错误和语音问题（实为四个独立模型，其中三个可启用"思考"模式），自GPT-5发布以来，大量用户报告显示其在解决相对简单问题时表现糟糕——这些问题OpenAI前代模型及竞品都能正确解答。

例如数据科学家科林·弗雷泽发布的截图显示，GPT-5在数学证明上出错（判断8.888无限循环是否等于9——显然不等于）。

它还在小学生都能解答的简单代数题5.9 = x + 5.11上失败。

用GPT-5来评估OpenAI自身错误的演示图表，也未能给出有用或正确的回应。

下面这道数学应用题同样难倒了它（公平地说，笔者最初也被难住...但埃隆·马斯克的Grok 4 AI却答对了。提示：本题中地砖不可分割，必须保持80块完整单位）。

在至少一道数学题上，旧版4o模型表现更佳。遗憾的是，OpenAI正逐步淘汰这些旧模型——包括原先默认的GPT-4o和强力推理模型o3，不过开发者仍可通过API接口调用。

编码能力未达基准测试水平

尽管OpenAI内部基准测试和部分第三方测试显示GPT-5编码能力领先，但实际使用中Anthropic最新版Claude Opus 4.1在"一次性"完成特定任务时表现更优。详见开发者孙宇晨在X平台的案例：

此外，安全公司SPLX报告指出OpenAI内部安全层在商业对齐、提示注入攻击和逻辑混淆防御方面存在重大漏洞。

早期采用者的反馈也相当冷淡。AI网红、前谷歌员工比拉瓦尔·西杜在X平台发起的投票显示，目前172票中绝大多数选择"有点平庸"。

匿名账号AI Leaks and News写道："X平台和Reddit AMA对GPT-5的负面评价占压倒性多数"。

AIPRM首席工程师蒂博尔·布拉霍指出，ChatGPT-5自动根据问题难度选择"思考模式"的新功能成为主要槽点，因多数情况下系统默认非思考模式。

这种非一边倒的好评暴露出OpenAI的严峻问题——既要应对谷歌、Anthropic等美国对手，还要面对越来越多具备美国模型所无特性的中国开源大模型。

以阿里巴巴Qwen团队为例，其高性能Qwen 3模型今日升级至100万token上下文窗口——单次交互信息量可达GPT-5的4倍。

考虑到OpenAI本周另一重要发布——开源gpt-oss模型——同样反响平平，这家拥有7亿月活用户的头部AI公司前景堪忧。

博彩平台Polymarket用户普遍押注谷歌将在2025年8月底前推出最佳AI模型。

虽获GPT-5早期访问权限的Otherside AI CEO马特·舒默等资深用户认为，随着使用方式优化，评价可能扭转：

尽管GPT-5尚处早期阶段，但比起GPT-4乃至4o/o3发布时的盛况，这次显然不是OpenAI的"全垒打"。这对刚完成融资却因高额研发支出仍未盈利的公司而言，无疑是个危险信号。

本站部分内容转载自互联网，如果有网站内容侵犯了您的权益，可直接联系我们删除，感谢支持！