一项全面新研究揭示,开源人工智能模型在执行相同任务时消耗的计算资源远超闭源竞品,这可能削弱其成本优势并重塑企业评估AI部署策略的方式。
AI公司Nous Research的研究发现,开源权重模型使用的token数量(AI计算基本单位)是OpenAI和Anthropic等闭源模型的1.5至4倍。对于简单知识问题,差距更为显著,某些开源模型token消耗量高达10倍。
研究人员在周三发布的报告中指出:"开源权重模型每个查询使用的token数量是闭源模型的1.5-4倍(简单知识问题可达10倍),这使得尽管单token成本更低,但每次查询总成本有时反而更高。"
这一发现挑战了AI行业普遍认为开源模型具有明显经济优势的假设。虽然开源模型单token运行成本通常更低,但研究表明"如果它们需要更多token来推理给定问题,这种优势很容易被抵消"。
AI真实成本:为何"更便宜"的模型可能让你超支
研究测试了19个AI模型在三类任务中的表现:基础知识问答、数学问题和逻辑谜题。团队测量了"token效率"——模型所用计算单元与其解决方案复杂度的比值,这个对成本影响重大的指标此前鲜有系统研究。
"token效率是关键指标,"研究人员强调,"虽然托管开源权重模型可能更便宜,但如果需要更多token进行推理,这种成本优势很容易被抵消。"
大型推理模型(LRM)的低效尤为明显。这些采用"思维链"技术逐步解决问题的模型,可能消耗数千token来思考本应简单计算的问题。
对于"澳大利亚首都是什么?"这类基础知识问题,研究发现推理模型会"耗费数百token思考本可一词回答的简单问题"。
哪些AI模型真正物有所值
研究显示不同模型提供商差异显著。OpenAI模型(特别是o4-mini和新发布的开源gpt-oss变体)展现出卓越的token效率,尤其在数学问题上"比其他商业模型少用达三倍token"。
开源模型中,英伟达的llama-3.3-nemotron-super-49b-v1是"全领域token效率最高的开源权重模型",而Mistral等公司的新模型则呈现"异常高的token消耗"。
效率差距随任务类型变化:开源模型在数学和逻辑问题上token用量约为两倍,但在本无需复杂推理的简单知识问题上差距急剧扩大。
企业决策者必须了解的AI计算成本
研究发现对企业AI应用具有直接启示:计算成本会随使用量快速攀升。企业评估AI模型时往往关注准确度基准和单token定价,却可能忽视实际任务的总计算需求。
研究人员分析总推理成本后发现:"闭源权重模型更优的token效率通常能补偿其更高的API定价。"
研究还表明闭源模型提供商似乎在积极优化效率:"闭源权重模型经过迭代优化以减少token使用",而开源模型"新版token用量增加,可能反映其对更好推理性能的优先考虑"。
研究人员如何破解AI效率测量难题
研究团队在测量不同架构模型效率时面临独特挑战。许多闭源模型不公开原始推理过程,而是提供内部计算的压缩摘要以防止技术被仿制。
为此,研究人员使用完成token(每个查询计费的总计算单元)作为推理工作量的代理指标。他们发现"最新闭源模型不会分享原始推理痕迹",而是"使用较小语言模型将思维链转录为摘要或压缩表示"。
研究方法包括使用改编版经典问题测试,如修改美国数学邀请赛(AIME)题目变量,以最小化记忆答案的影响。
AI效率的未来趋势
研究人员建议token效率应与准确度共同成为未来模型开发的主要优化目标。"更密集的思维链还能实现更高效的上下文使用,并可能抵消复杂推理任务中的上下文退化。"
OpenAI开源gpt-oss模型的发布(以"免费开放的思维链"实现尖端效率)可为优化其他开源模型提供参考。
完整研究数据集和评估代码已在GitHub开源。当AI行业竞相发展更强推理能力时,这项研究表明真正的竞争或许不在于谁能打造最聪明的AI,而在于谁能构建最高效的AI。
毕竟,在这个token即成本的世界里,最浪费的模型终将被市场淘汰——无论它们多么善于思考。