GEPA无需昂贵的强化学习即可优化LLM

时间:2025-08-21 13:30:01来源:互联网

下面小编就为大家分享一篇GEPA无需昂贵的强化学习即可优化LLM,具有很好的参考价值,希望对大家有所帮助。

来自加州大学伯克利分校、斯坦福大学和Databricks的研究人员提出了一种名为GEPA的新型AI优化方法,在使大语言模型(LLM)适配专业任务方面显著优于传统强化学习(RL)技术。

GEPA摒弃了通过简单数值评分引导数千次试错学习的流行范式,转而利用LLM自身的语言理解能力进行性能反思、错误诊断和指令迭代进化。相较于成熟技术,GEPA不仅更精确,且效率大幅提升——仅需最高减少35倍的试验次数即可获得更优结果。

对于构建复杂AI智能体和工作流的企业而言,这意味着更短的开发周期、显著降低的计算成本,以及更高性能、更可靠的应用程序。

优化现代AI系统的高昂成本

现代企业级AI应用很少仅涉及单次LLM调用。它们通常是"复合AI系统"——通过串联多个LLM模块、数据库/代码解释器等外部工具及定制逻辑来执行多步骤研究与数据分析等复杂任务的精密工作流。

当前主流优化方式是强化学习方法,例如应用于DeepSeek-R1等流行推理模型中的组相对策略优化(GRPO)。该方法将系统视为黑箱:执行任务后获得简单成功指标(如7/10的"标量奖励"),并据此缓慢调整模型参数方向。

RL的核心缺陷在于样本效率低下。要从这些稀疏数值评分中有效学习,RL方法通常需要数万甚至数十万次"试验运行"。对于涉及昂贵工具调用(如API查询、代码编译)或使用强大专有模型的实际企业应用,这一过程在速度与成本上均难以承受。

论文合著者、UC伯克利博士生Lakshya A Agrawal向VentureBeat透露:"由于成本和复杂性,RL对多数团队并不实用——他们目前主要依赖手工提示工程。"GEPA专为需要优化顶级模型(通常无法微调)的团队设计,使其无需管理定制GPU集群即可提升性能。

研究者将挑战表述为:"如何从每次昂贵的试验中提取最大学习信号,使复杂模块化AI系统能在低数据/有限预算条件下有效适配?"

基于语言学习的优化器

GEPA(遗传-帕累托)通过用丰富的自然语言反馈替代稀疏奖励来应对这一挑战。其方法论基于三大支柱:

首先是"遗传提示进化"——将提示群体视为基因池,通过智能迭代"变异"生成潜在更优版本。变异过程由第二支柱"自然语言反馈反思"驱动:GEPA向LLM提供完整执行轨迹(系统尝试步骤)和结果(成败细节),LLM据此用自然语言诊断问题并编写改进版提示。例如面对代码生成低分时,它能分析编译器错误并得出需指定特定库版本的结论。

第三支柱"帕累托优选"确保智能探索:GEPA不仅追踪单一最佳提示,还维护针对不同案例表现优异的"专家提示"清单。通过从这些获胜策略中采样,系统更可能发现具有广泛输入泛化能力的优质提示。

该过程的核心被研究者称为"反馈工程"。Agrawal强调关键在于利用系统已生成但常被丢弃的文本细节:"传统流程将这些细节压缩为单一数值奖励,掩盖了结果成因。GEPA的核心指导原则是构建能呈现结果、中间轨迹及纯文本错误的反馈——正如人类诊断系统行为时会使用的证据。"

实战表现

研究团队在HotpotQA多跳问答和PUPA隐私保护查询等四项任务中评估GEPA,使用Qwen3 8B开源模型和GPT-4.1 mini专有模型,对比基于RL的GRPO与尖端提示优化器MIPROv2。

在所有任务中,GEPA均大幅超越GRPO——最高提升19%得分的同时减少35倍试验次数。Agrawal举例说明:"用GEPA优化QA系统仅需3小时,而GRPO耗时24小时,开发时间缩短8倍且性能提升20%。相同测试场景下,RL优化耗资300美元GPU时长,GEPA则以不到20美元成本获得更优结果——实验节省15倍开支。"

除原始性能外,GEPA优化系统面对新数据时表现更可靠(通过训练数据与最终测试数据的"泛化差距"衡量)。Agrawal认为这源于GEPA从更丰富的反馈中学习:"较小的泛化差距可能因为GEPA对每个结果都使用自然语言反馈(包括成功/失败原因),而非依赖单一标量奖励。这促使系统建立基于成功广义理解的策略,而非仅学习训练数据特定模式。"对企业而言,这意味着面向客户的AI应用将具备更强适应性和鲁棒性。

另一显著优势是GEPA生成的指令提示比MIPROv2等优化器短9.2倍(后者包含大量少样本示例)。简短提示可降低基于API模型的延迟与成本,使最终应用在生产环境中运行更快更经济。

研究还展示了GEPA作为"推理时"搜索策略的潜力——将AI从单次应答生成器转变为迭代问题解决者。Agrawal描述了将GEPA集成至企业CI/CD管线的场景:提交新代码时,GEPA可自动生成优化版本,测试性能后提交最佳变体供工程师审核。"这使优化成为持续自动化流程——快速生成的解决方案常能媲美或超越专家手工调优。"在CUDA代码生成实验中,该方法使20%任务达到专家水平(GPT-4o单次尝试成功率则为0%)。

论文作者认为GEPA标志着AI开发新范式的基础一步。其最直接的影响或许在于 democratize 高性能系统构建能力。

"我们预期GEPA将推动AI系统建设的积极变革——让终端用户(通常具备任务相关领域知识但无暇学习复杂RL技术)也能参与系统优化,"Agrawal表示,"它直接将权力赋予具有具体任务专业知识的利益相关者。"

本站部分内容转载自互联网,如果有网站内容侵犯了您的权益,可直接联系我们删除,感谢支持!