今天会议异常密集,直到现在我才注意到加拿大初创公司Cohere(由Transformer论文原作者Aidan Gomez联合创立,专注于为企业提供易用、强大且安全的生成式AI产品)正式发布了其首个推理大语言模型Command A Reasoning。
这次发布堪称重磅。基准测试、技术参数和早期实验均表明,该模型在灵活性、效率及原始推理能力方面表现卓越。
Cohere宣称该模型专为企业级安全环境设计,可自动化处理客户服务、市场调研、日程安排、数据分析等规模化任务。
虽然目前仅支持文本模态,但能轻松对接多模态模型与工具——事实上,工具调用正是其核心卖点之一。
研究人员可免费用于非商业用途,企业用户则需付费获取权限。由于提供定制化部署方案,Cohere未公开具体定价。
就在八天前,Cohere以68亿美元估值完成5亿美元新一轮融资。
企业级调优
Command A Reasoning专为文档库庞大、邮件链冗长、且无法容忍幻觉的企业场景优化。
在多GPU配置下支持256,000 tokens上下文窗口,规模与OpenAI的GPT-5相当。
研究版模型参数量达1110亿,训练时特别强化了工具调用与多语言能力。
原生支持23种语言(含英语、法语、西班牙语、日语、阿拉伯语和印地语),这对需要全球市场保持统一服务质量的跨国企业至关重要。
该模型可直接接入Cohere的新平台North——专用于本地化部署AI智能体与自动化流程。
企业可在自有基础设施中构建定制化智能体,在掌控数据流的同时获得先进推理能力。
Cohere显然战略性地识别了企业高频需求(入职培训、市场研析、产品开发等),并针对性训练模型以支持这些自动化工作流。
可控推理机制
与英伟达Nemotron-Nano-9B-v2等近期推理模型类似,Command A Reasoning引入token预算功能,允许用户/开发者指定分配给特定输入任务的推理资源。预算越低响应越快成本越低,预算越高则推理越深越准。
Hugging Face版本甚至直接开放此调节选项:通过简单参数即可开关推理模式。
开发者可启用"推理模式"获取最强性能,或关闭它以处理低延迟任务——无需切换模型。
领跑企业级基准测试
实际表现如何?Cohere的基准测试给出清晰答案。
在企业推理任务中,Command A Reasoning持续超越DeepSeek-R1 0528、gpt-oss-120b和Mistral Magistral Medium等竞品。
多语言测试同样出色,这对全球化业务尤为关键。
token预算系统并非噱头:在与前代Command A的对比中,满意度随预算提升稳步增长。即便在最低预算的"即时推理"模式下,新模型仍优于旧版;预算增加时优势更显著。
深度研究场景亦如是。在衡量指令遵循、可读性、洞察力与全面性的DeepResearch Bench上,Cohere系统击败了Gemini、OpenAI、Anthropic、Perplexity及xAI的Grok。
该模型特别擅长将复杂问题转化为详实且易读的报告——这正是企业知识工作的核心挑战。
工具调用与智能体工作流
超越基准测试,该模型为实战而生。Cohere专门针对对话式工具调用进行训练——使其能在任务中调用API、连接数据库或查询外部系统。
开发者可通过JSON模式定义工具,并集成至Transformers的聊天模板,轻松对接现有企业系统。
这一设计支撑着Cohere对智能体工作流的宏大构想:由多个协同智能体组成的AI系统,各自分工完成复杂任务。
Command A Reasoning正是确保这些工作流连贯执行的核心推理引擎。
安全架构:为高风险场景而生
安全性亦是Cohere主打特性。该模型既避免企业场景常见的过度拒绝问题(AI因过度谨慎拒绝合理请求),又能有效过滤有害内容。
评估聚焦五大高风险领域:儿童安全、自残、暴力与仇恨、露骨内容及阴谋论。
对受监管行业或敏感领域的企业用户,这种平衡设计极大提升了日常实用性。
头部企业早期采用
SAP SE成为首批集成该模型的重要合作伙伴。其全球AI负责人Walter Sun博士表示,此次合作将增强SAP业务技术平台的生成式AI能力,为客户提供可定制化的企业级智能体应用。
获取与授权
Command A Reasoning已在Cohere平台上线,研究版可通过Hugging Face获取。
Hugging Face仓库提供CC-BY-NC许可的开放权重,使用者需提交联系方式并遵守Cohere可接受使用政策。
商业或私有化部署需求,企业用户可联系Cohere销售团队获取定制报价。
对企业而言,价值主张清晰明确:单一模型支持多种部署模式、细粒度性能调控、多语言能力、工具集成,以及全面领先的基准测试表现。