更新于8月8日周五美国东部时间下午5:21:本文发布后不久,OpenAI联合创始人兼CEO山姆·奥特曼宣布公司将恢复部分用户对GPT-4o等旧模型的访问权限,并承认GPT-5的发布"比我们预期的更坎坷"。
OpenAI备受期待的新模型GPT-5的发布,至少可以说开局不利。
即便忽略昨日新模型直播演示中出现的图表错误和语音问题(实为四个独立模型,其中三个可启用"思考"模式),自GPT-5发布以来,大量用户报告显示其在解决相对简单问题时表现糟糕——这些问题OpenAI前代模型及竞品都能正确解答。
例如数据科学家科林·弗雷泽发布的截图显示,GPT-5在数学证明上出错(判断8.888无限循环是否等于9——显然不等于)。
它还在小学生都能解答的简单代数题5.9 = x + 5.11上失败。
用GPT-5来评估OpenAI自身错误的演示图表,也未能给出有用或正确的回应。
下面这道数学应用题同样难倒了它(公平地说,笔者最初也被难住...但埃隆·马斯克的Grok 4 AI却答对了。提示:本题中地砖不可分割,必须保持80块完整单位)。
在至少一道数学题上,旧版4o模型表现更佳。遗憾的是,OpenAI正逐步淘汰这些旧模型——包括原先默认的GPT-4o和强力推理模型o3,不过开发者仍可通过API接口调用。
编码能力未达基准测试水平
尽管OpenAI内部基准测试和部分第三方测试显示GPT-5编码能力领先,但实际使用中Anthropic最新版Claude Opus 4.1在"一次性"完成特定任务时表现更优。详见开发者孙宇晨在X平台的案例:
此外,安全公司SPLX报告指出OpenAI内部安全层在商业对齐、提示注入攻击和逻辑混淆防御方面存在重大漏洞。
早期采用者的反馈也相当冷淡。AI网红、前谷歌员工比拉瓦尔·西杜在X平台发起的投票显示,目前172票中绝大多数选择"有点平庸"。
匿名账号AI Leaks and News写道:"X平台和Reddit AMA对GPT-5的负面评价占压倒性多数"。
AIPRM首席工程师蒂博尔·布拉霍指出,ChatGPT-5自动根据问题难度选择"思考模式"的新功能成为主要槽点,因多数情况下系统默认非思考模式。
虎视眈眈的竞争对手
这种非一边倒的好评暴露出OpenAI的严峻问题——既要应对谷歌、Anthropic等美国对手,还要面对越来越多具备美国模型所无特性的中国开源大模型。
以阿里巴巴Qwen团队为例,其高性能Qwen 3模型今日升级至100万token上下文窗口——单次交互信息量可达GPT-5的4倍。
考虑到OpenAI本周另一重要发布——开源gpt-oss模型——同样反响平平,这家拥有7亿月活用户的头部AI公司前景堪忧。
博彩平台Polymarket用户普遍押注谷歌将在2025年8月底前推出最佳AI模型。
虽获GPT-5早期访问权限的Otherside AI CEO马特·舒默等资深用户认为,随着使用方式优化,评价可能扭转:
尽管GPT-5尚处早期阶段,但比起GPT-4乃至4o/o3发布时的盛况,这次显然不是OpenAI的"全垒打"。这对刚完成融资却因高额研发支出仍未盈利的公司而言,无疑是个危险信号。