一项最新全面研究表明,开源人工智能模型在执行相同任务时消耗的计算资源远超闭源竞品,这可能削弱其成本优势并重塑企业评估AI部署策略的方式。
由AI公司Nous Research开展的这项研究发现,开源权重模型消耗的token(AI计算基本单位)比OpenAI和Anthropic等闭源模型多1.5至4倍。在简单知识问答场景中,差距更为惊人——某些开源模型token消耗量高达闭源模型的10倍。
研究人员在周三发布的报告中指出:"开源权重模型每个查询消耗的token量是闭源模型的1.5-4倍(简单知识问题可达10倍),这使得尽管单token成本更低,其每次查询总成本有时反而更高。"
这一发现挑战了AI行业普遍存在的认知,即开源模型相比专有方案具有明确经济优势。虽然开源模型单token运行成本通常较低,但研究表明"如果它们需要更多token来推理特定问题,这种优势很容易被抵消"。
AI的真实成本:为何"更便宜"的模型可能让你超支
研究团队测试了19个AI模型在三大类任务中的表现:基础知识问答、数学解题和逻辑谜题。团队创新性地采用"token效率"指标(模型消耗计算单元与解决方案复杂度的比值)——这个对成本影响重大却鲜少被系统研究的维度。
"token效率成为关键指标有几个现实原因,"研究人员强调,"虽然托管开源模型可能更便宜,但如果它们需要更多token来推理问题,这种成本优势将轻易丧失。"
这种低效在大型推理模型(LRM)中尤为明显。这些采用扩展"思维链"解决复杂问题的模型,可能耗费数千token来思考本应简单的问题。例如回答"澳大利亚首都是什么?"这类基础知识问题时,研究发现推理模型会"耗费数百token反复推敲",而实际上只需一个单词就能作答。
哪些AI模型真正物有所值
研究揭示了不同供应商模型的显著差异。OpenAI的模型(特别是o4-mini和新发布的开源变体gpt-oss)展现出卓越的token效率,尤其在数学解题方面。研究发现OpenAI模型"在数学问题上展现出极致的token效率",比其他商业模型少用达三倍的token。
在开源选项中,英伟达的llama-3.3-nemotron-super-49b-v1被评为"全领域token效率最高的开源权重模型",而Mistral等公司的新模型则因"异常高的token消耗量"成为离群值。
效率差距随任务类型波动明显。开源模型在数学和逻辑问题上消耗约两倍token,而在本无需复杂推理的简单知识问题上,差距进一步扩大。
企业决策者必须了解的AI计算成本真相
这项发现对企业AI应用具有直接指导意义——在计算成本随使用量快速攀升的现实中,企业评估AI模型时往往关注准确率基准和单token定价,却可能忽视实际任务中的总计算需求。
研究人员分析总推理成本时发现:"闭源权重模型更优的token效率,往往能抵消其较高的API定价。"
研究还表明闭源模型供应商正积极优化效率:"闭源权重模型经过迭代优化以减少token使用量",而开源模型"新版反而增加token消耗,可能反映其优先考虑推理性能提升"。
研究人员破解AI效率测量难题的方法
研究团队在跨架构效率测量中面临独特挑战。许多闭源模型不暴露原始推理过程,而是提供内部计算的压缩摘要以防止技术被抄袭。
为此,研究人员采用完成token(每次查询计费的总计算单元)作为推理工作量的代理指标。他们发现"最新闭源模型通常不会共享原始推理轨迹",而是"使用较小语言模型将思维链转译为摘要或压缩表达"。
研究方法包括使用改编版经典问题测试(如修改美国数学邀请赛AIME题目变量),以最小化记忆答案的影响。
AI效率演进的下一个前沿
研究人员建议token效率应与准确率共同成为未来模型开发的主要优化目标。他们写道:"更紧凑的思维链不仅能提升上下文使用效率,还可能缓解复杂推理任务中的上下文退化问题。"
OpenAI开源模型gpt-oss的发布(其"免费开放的思维链"展现顶尖效率)可能成为优化其他开源模型的参照系。
完整研究数据集和评估代码已开源至GitHub,供同行验证和拓展研究成果。当AI行业竞相追逐更强大的推理能力时,这项研究暗示真正的竞争或许不在于谁能打造最聪明的AI——而在于谁能构建最高效的AI。
毕竟,在这个token即成本的世界里,最浪费的模型终将被市场淘汰——无论它们的思考能力多么出色。