作为开源AI运动中崛起的隐秘人工智能初创公司,Nous Research于周一悄然发布Hermes 4系列大语言模型。该公司宣称该模型在性能上可匹敌主流闭源系统,同时提供前所未有的用户控制权与极低的内容限制。
这次发布标志着开源AI倡导者与科技巨头之间关于高级AI技术控制权的博弈升级。与OpenAI、谷歌或Anthropic的模型不同,Hermes 4设计上可响应几乎所有请求,摒弃了商业AI系统中标配的安全护栏。
"Hermes 4延续了我们用户导向模型的传统,并扩展了测试阶段算力能力,"Nous Research在X平台(原推特)宣布,"我们特别注重使模型交互更具创造力与趣味性,不受审查制度束缚,在保持数学、编程和推理能力达到开源权重模型顶尖水平的同时实现价值中立。"
Hermes 4"混合推理"模式如何超越ChatGPT和Claude数学基准
Hermes 4引入所谓"混合推理"机制,允许用户在快速响应与深度分步思考间切换。启用时,模型会先在特殊
标签内生成内部推理过程再输出最终答案——类似OpenAI的o1推理模型,但完全透明展示AI思考路径。
其技术成就令人瞩目:测试中,4050亿参数的最大模型在MATH-500基准推理模式下取得96.3%准确率,在难度极高的AIME'24数学竞赛达81.9%——这些表现足以匹敌或超越耗资数千万开发的闭源系统。
"关键在于使思维轨迹既实用又可验证,同时避免无限推理,"AI研究员Rohan Paul在X平台指出,点明本次发布的技术突破之一。
最值得注意的是,Hermes 4在Nous Research新开发的"拒绝基准"(RefusalBench)上取得所有测试模型最高分。该基准用于衡量AI系统拒绝回答问题的频率,Hermes 4在推理模式下获得57.1%的应答率,显著优于GPT-4o(17.67%)和Claude Sonnet 4(17%)。
DataForge与Atropos揭秘:Hermes 4能力背后的突破性训练系统
支撑Hermes 4的是Nous Research多年研发的复杂训练基础设施。模型通过两大创新系统训练:基于图形的合成数据生成器DataForge,以及开源强化学习框架Atropos。
DataForge通过有向图中的"随机游走"生成训练数据,将简单预训练数据转化为复杂指令跟随样本。例如,该系统可将维基百科文章改写成说唱歌曲,再基于该转换生成问答对。
Atropos则如同数百个专业训练场,AI模型在其中练习数学、编程、工具使用和创意写作等专项技能——仅当产出正确解决方案时才会获得反馈。这种"拒绝采样"方法确保训练数据仅包含经核验的高质量响应。
"Nous利用这些环境生成Hermes 4数据集!"投资方Delphi Ventures风投家Tommy Shaughnessy解释,"数据集总计包含350万推理样本和160万非推理样本!Hermes接受的是强化学习数据训练,而非静态问答数据集!"
最大模型训练消耗192块Nvidia B200 GPU和71,616 GPU小时——虽非史无前例但堪称巨大的计算投入,证明专业技法可与科技巨头的规模优势抗衡。
为何Nous Research认为AI安全护栏"极度烦人"且阻碍创新
Nous Research以"用户控制高于企业内容政策"的哲学立身。其模型设计为"可引导式",意味着无需商业AI系统的刚性安全约束即可通过微调或提示词实现特定行为。
"Hermes 4不受免责声明、规则和过度谨慎态度的束缚——这些烦人限制会扼杀创新与可用性,"Shaughnessy在分析文章中写道,"若开源模型拒绝所有请求就毫无意义。Hermes 4不存在这个问题。"
该理念使其在追求极致灵活性的AI研究者中广受欢迎,但也将公司置于AI安全与内容审核争议的中心。尽管模型理论上可能被滥用,Nous Research主张透明性与用户控制权优于企业把关。
随模型发布的技术报告空前详细地公开了训练过程、评估结果乃至基准测试原始输出。"我们相信这份报告为基准测试透明度树立了新标准,"公司声明称。
小公司如何用192块GPU对抗科技巨头数十亿AI预算
Hermes 4发布于AI产业关键转折点。当科技巨头斥资数百亿开发强大AI系统时,日益壮大的开源运动主张这些能力不应由少数企业掌控。
近期开源AI进展显著:Meta的Llama 3.1、DeepSeek的R1和阿里巴巴的Qwen系列等模型性能已比肩闭源系统。Hermes 4特别是推理领域的突破——这一直被认为是OpenAI o1等闭源系统的强项。
"首先,Nous是家拥有数十名顶尖人才的初创公司,"Shaughnessy指出,"他们没有超大规模企业上千亿美元的年度资本支出,也没有数千名员工,却持续以惊人速度推出创新模型与研究。"
这家年初获Paradigm领投6500万美元的初创公司,同时开发着Psyche Network——基于区块链技术协调联网计算机进行AI训练的分布式训练系统。
阻止Hermes 4陷入无限循环的技术修复
Hermes 4最重要的技术贡献之一解决了推理模型的通病:过度冗长的思考过程。研究人员发现140亿参数的小型模型在推理时60%的情况会达到上下文长度极限,陷入无限思考循环。
解决方案是增加第二阶段训练,教会模型在恰好3万标记处停止推理,将过长生成减少65-79%同时保持大部分推理性能。这项"长度控制"技术对AI研究社区具有广泛价值。
"小型模型(<140亿)蒸馏时容易过度思考,但大模型不会,"AI研究员何沐雨在X平台引用技术报告指出。
然而Hermes 4仍存在开源模型的共同局限。尽管基准测试表现亮眼,这些模型需要大量计算资源运行,在许多应用场景下可能不及商业AI服务的易用性与可靠性。
如何体验Hermes 4及其与ChatGPT、Claude的成本对比
Nous Research通过多种渠道开放Hermes 4,体现开源理念。模型权重可在Hugging Face免费下载,同时公司还通过新版聊天界面及与Chutes、Nebius、Luminal等推理服务商的合作提供API访问。
"您可以在全新升级的Nous Chat界面体验Hermes 4,"公司公告强调其并行交互与记忆系统等特性。
对企业用户和研究者而言,该模型是闭源系统API付费访问的潜在替代方案,特别适用于需要高度定制化或处理敏感内容的应用场景。
宏观意义:Hermes 4对AI发展未来的启示
Hermes 4的发布不仅是又一款AI模型面世——更是关于谁该掌控人工智能未来的宣言。在这个日益被资源无限的科技巨头主导的行业,Nous Research证明创新仍可来自意料之外的地方。
该公司的做法引发根本性思考:在安全与能力、企业控制与用户自由之间如何权衡。当科技巨头强调谨慎内容审核与安全护栏对负责任AI部署至关重要时,Nous Research主张透明性与用户自主权比企业强加的限制更有价值。
这种哲学最终利大于弊仍有待观察。但有一点可以肯定:Hermes 4证明AI的未来不会仅由资金最雄厚的公司决定。
在这个"昨日之不可能成为今日之商品"的领域,Nous Research刚刚证明:比起总说"不"的AI,更危险的或许是那个愿意说"是"的AI。