创作猫手机版
173.48MB · 2025-11-18
昨天凌晨,OpenAI发布了GPT-5.1。我花了一整天时间深度测试,结果可能和你预期的不太一样。
本篇笔记所对应的视频:www.bilibili.com/video/BV1RJ…
先说结论:GPT-5.1确实比三个月前的GPT-5有进步,但如果你期待的是碾压级的提升,可能要失望了。更直白点说,在很多实际任务中,它依然不如Claude Sonnet 4.5。
这不是黑,是实测数据。我做了横向对比测试,包括长文本生成、文学创作、前端开发等多个场景,有些结果出乎意料。
OpenAI这次主打"务实"路线。三个月前GPT-5发布时翻车了——很多用户反映新模型还不如老的好用,数学题算错,代码写得不靠谱。OpenAI当时解释说是"路由系统"的锅,就是AI不知道该用哪个版本来回答你。
GPT-5.1的改进主要集中在三个方面:
第一,双模式系统。 Instant模式速度快,适合日常对话;Thinking模式专攻难题,会根据问题复杂度动态调整思考时间。听起来很美好,实测下来确实比GPT-5更灵活。
第二,减少"胡编乱造"。 官方数据说幻觉率从4.8%降到2.1%,这个改进挺实在的。测试中遇到不确定的问题,它确实更愿意承认"我不知道",而不是硬着头皮瞎编。
第三,个性化定制。 现在可以选8种不同的对话风格,从专业严肃到有趣轻松都有。这个功能挺有用,不同场景可以切换不同风格。
我的第一个测试是让两个AI生成万字学习报告。给了同样的开源项目仓库链接,要求深度分析。
结果?
GPT-5.1: 总字符3.1万,中文约6900字 Claude Sonnet 4.5: 总字符5.1万,中文约1.2万字
Claude直接多写了近一倍。这不是个例,在多轮测试中,GPT-5.1的长文本输出能力始终比较"克制"。如果你需要生成长篇报告、详细分析,Claude确实更给力。
有意思的是第二轮测试。我让它们写一篇1000字左右的公众号文章介绍这个项目。
GPT-5.1: 写了1600多字,技术细节很详实,但风格偏硬核,适合开发者看 Claude Sonnet 4.5: 写了1400多字,更接近1000字的要求,通俗易懂,小白也能看懂
拿这两篇文章给Gemini 2.5 Pro评判,它的结论是:GPT-5.1写的是技术文档,Claude写的是科普文。各有千秋,但Claude在字数控制和受众定位上更精准。
这个测试让我挺意外的。我让两个AI按照"望海潮"这个词牌名写一首宋词,主题是"秋去冬来,慨叹时光流逝",要求严格遵循格律。
Claude Sonnet 4.5 50秒就写出来了:
"霜染层林,风吹落叶,西窗又见秋残。 雁阵惊寒,荷池凋敝,凄凄几度凭栏..."
意象经典(霜、雁、荷池都是写秋的标准配置),情感到位,格律基本符合。虽然下阕有一句"冬临春去匆忙"不太合适(题目要求的是秋冬,不是冬春),但整体很有意境。
GPT-5.1 思考更久才给出答案:
"霜风渐紧,疏林欲尽,残阳又坠天涯。 寒雁横空,芦花带雪,疏钟远度平沙..."
格律也对,但问题不少:
老实说,在古诗词这种需要意境和文采的任务上,GPT-5.1明显不如Claude。
测试了几个前端任务:
SVG动画: 让它们用SVG画一只猫和一只狗在草地上走路,天空有云和飞鸟。
UI设计: 让它们做一个蜂箱管理仪表盘。
页面还原: 给一张截图让它们还原。
3D开发: 让它们用Three.js开发魔方游戏。这个难度大,涉及3D图形、WebGL、旋转算法、交互逻辑等多个技术点。
结果两个都翻车了:
这个测试说明,真正复杂的3D应用,目前的AI还搞不定。
最后测试了一个有趣的任务:用Python写一个冒泡排序的可视化动画,画面中有12只不同大小的小鸭子,一只大母鸭用冒泡算法把小鸭子从小到大排序。
两个AI都完成了:
这个任务上两个差不多,都能完成,只是视觉效果各有问题。
一个容易被忽略的点:知识库截止日期。
整整差了7个月。如果你需要了解最新的技术动态、时事信息,Claude的知识更新。
在OpenAI的Atlas浏览器中测试了自动化任务:访问博客,提取第一篇文章,改写后发布到X平台。
GPT-5.1完成这个任务用了1分05秒,速度比之前的GPT-5快了不少。虽然最后没有直接点击发布(需要人工审核),但整个流程执行得挺流畅。
这可能是GPT-5.1少数明显优于前代的地方。
测试下来,我的真实感受是:
GPT-5.1的优点:
GPT-5.1的短板:
适用场景建议:
OpenAI这次的更新很务实,没吹牛,老老实实修bug、优化体验。但客观说,GPT-5.1并没有拉开和竞品的差距,在某些场景甚至还落后。
AI的竞争现在是白热化阶段,每个模型都有自己的长处和短处。作为用户,最好的策略是根据任务选模型,而不是盲目迷信某一个。
我的建议:Plus会员可以同时订阅ChatGPT和Claude,根据任务切换使用。专业用户建议两个都试试,找到最适合自己工作流的那个。
三个月后GPT-5的翻车还历历在目,这次5.1算是稳住了,但要说惊艳,还差点意思。
你用过GPT-5.1了吗?实际体验如何?欢迎在评论区分享你的测试结果。
测试环境说明: