企业似乎将以下事实视为基本认知:AI模型需要大量算力;他们必须设法获取更多资源。
但Hugging Face的AI与气候负责人Sasha Luccioni认为,事实并非如此。如果存在更智能的AI使用方式呢?如果企业不必追求更多(通常不必要的)算力及其能源消耗,而是专注于提升模型性能与准确度呢?
Luccioni指出,模型开发者和企业最终关注了错误的方向:他们应该更智能地计算,而非更费力或更频繁。
"我们目前对更高效的方法探索不足,因为我们被'需要更多FLOPS、更多GPU、更多时间'的想法蒙蔽了双眼,"她说道。
以下是Hugging Face总结的五项关键经验,可帮助各规模企业更高效地使用AI。
1. 根据任务选择合适规模的模型
避免对所有用例默认采用庞大的通用模型。针对特定任务优化的或蒸馏后的模型,能以更低成本和能耗,在目标工作负载上达到甚至超越大型模型的准确度。
Luccioni在测试中发现,专用模型的能耗比通用模型低20至30倍。"因为这类模型只处理单一任务,而非像大语言模型那样应对任意任务,"她解释道。
模型蒸馏是关键——可先完整训练基础模型,再针对特定任务微调。例如DeepSeek R1"规模过大,多数机构难以承担",因其至少需要8块GPU。而蒸馏版本可缩小10、20甚至30倍,仅需单块GPU即可运行。
她强调,开源模型能提升效率,因其无需从头训练。与几年前企业因找不到合适模型而浪费资源的情况不同,如今他们可以基础模型为起点进行微调适配。
"这实现了渐进式共享创新,而非各自为政——每个团队都在自己的数据集上训练模型,本质上造成了算力浪费,"Luccioni表示。
随着成本与收益失衡,企业对生成式AI的幻想正迅速破灭。虽然写邮件、转录会议记录等通用场景确有价值,但Luccioni指出专用模型仍需"大量工作",因为现成模型不仅效果欠佳,成本也更高。
"许多企业需要的是特定任务解决方案,而非通用人工智能。这正是需要填补的空白,"她补充道。
2. 将高效设为默认原则
在系统设计中应用"助推理论":设置保守的推理预算,限制常驻生成功能,要求用户主动启用高成本算力模式。
Luccioni以外卖餐具为例说明助推理论:让顾客自主选择是否需要塑料餐具,而非默认配送,能显著减少浪费。"要求用户主动选择而非被动退出,是改变行为的有效机制。"
默认机制往往导致不必要的资源消耗。例如谷歌等搜索引擎默认显示生成式AI摘要,或GPT-5对简单问题自动启用完整推理模式。"这些场景根本不需要生成式AI,默认设置应是无推理模式,"她指出。
3. 优化硬件利用率
采用批处理技术,根据硬件代际调整精度和批量大小,最大限度减少内存与电力浪费。
Luccioni建议企业评估:模型是否需要持续在线?是否会面临瞬时百次请求?若非必要,可采用定期运行和批处理来优化内存使用。"这属于工程挑战,需要针对具体场景调整——不能简单地说'蒸馏所有模型'或'改变所有模型精度'。"
她最近研究发现,批量大小甚至受特定硬件型号影响,微小调整可能导致能耗激增。"人们常忽视这点,但精细化调整能带来显著能效提升——尽管仅适用于特定环境。"
4. 建立能源透明度激励机制
今年Hugging Face推出的"AI能效评分"采用1-5星评级体系,高效模型可获得五星认证。该机制参考了即将退场的联邦"能源之星"计划。
"就像当年企业追逐能源之星认证那样,我们希望模型开发者将能效评分视为荣誉徽章,"Luccioni表示。该排行榜将每半年更新,9月将新增DeepSeek、GPT-oss等模型。
5. 重构"算力至上"思维
与其追逐最大GPU集群,不如先思考:"实现目标的最智能方式是什么?"对多数工作负载而言,更优架构和精炼数据胜过暴力扩展。
"企业实际需要的GPU可能远少于预估,"Luccioni建议重新评估GPU的用途、历史任务执行方式,以及新增硬件能带来的实际价值。"当前算力竞赛如同逐底竞争,关键是想清楚AI的应用场景、所需技术及其真实需求。"