毫无疑问,AI智能体——那些能在企业工作流中自主异步运作的数字化存在——正成为当前企业界的焦点话题。
但越来越多人担忧这不过是场空谈,充斥着华而不实的炒作,缺乏实质内容。
高德纳咨询公司指出,企业正处在"过高期望的峰值期",这个阶段之后往往伴随幻灭,因为供应商未能用真实用例兑现承诺。
不过,这并非说企业没有进行AI智能体实验并获得早期投资回报。以全球企业Block和葛兰素史克(GSK)为例,它们分别在金融服务和药物研发领域探索概念验证。
"多智能体绝对是未来方向,但我们需要找到符合人类习惯的便利实现方式,"Block公司AI与数据平台技术负责人Brad Axen在本月SAP主办的AI Impact活动上表示。
协作对象是同事,而非机器人群
拥有Square、Cash App和Afterpay的Block公司目前处于全面探索阶段,今年1月推出了代号"Goose"的可互操作AI智能体框架。
Goose最初用于软件工程任务,现已被4000名工程师使用,采用率每月翻倍。该平台能编写约90%的代码,通过自动化代码生成、调试和信息过滤,每周为工程师节省约10小时。
除编写代码外,Goose还充当"数字同事",整合Slack和邮件流,跨公司工具协同工作,并在任务需要时生成新智能体。
Axen强调Block致力于打造单一交互界面:"我们希望用户感觉是在与一个人协作,尽管这个'人'能以多种方式在多处为你代劳。"
Goose在开发环境中实时运作,基于大语言模型(LLM)进行代码搜索、导航和编写,同时自主完成文件读写、代码测试、输出优化和依赖安装。
本质上,用户可在偏好LLM上构建系统,Goose则作为应用层运作。它内置桌面应用和命令行界面,也支持自定义UI开发。平台基于Anthropic的模型上下文协议(MCP)构建,这是连接数据仓库与开发环境的开源API标准。
Goose以Apache 2.0许可开源,允许自由商用。用户无需技术背景即可访问Databricks数据库并执行SQL查询。
"我们真正想要的是让非专家也能获取价值,"Axen解释道。例如用户用自然语言描述需求,框架就能生成数千行可审阅的代码。
AI智能体尚未物尽其用,但人类专业知识仍不可或缺
Axen指出流程适配是最大瓶颈:"不能简单扔给员工工具就指望奏效,智能体必须映射现有工作流程。"用户关心的是任务完成度,而非技术架构。
因此开发者需观察员工实际需求,尽可能原样复刻工作流,再逐步扩展解决更复杂问题。
"当前我们对智能体的运用远远不足,"Axen坦言,"瓶颈在于人员与流程——技术发展速度已让我们难以追赶。技术潜力与实际应用间存在巨大鸿沟。"
当行业弥合这一鸿沟时,人类专业知识是否仍有价值?Axen给出了肯定答案。以金融服务为例,代码必须经过人工审查以确保可靠合规。
"人类专家在公司运营各环节仍至关重要。专业知识的内涵虽未改变,但表达方式因新工具而进化。"
Block的开源基因
Axen认为用户界面是AI智能体最大挑战之一——目标是在保持界面简洁的同时,让AI在后台主动作为。
他呼吁更多企业采用MCP类标准:"如果Google能为Gmail开放MCP接口,我们的工作会轻松许多。"
谈及开源承诺时,Axen表示:"我们始终以开源为基石。"过去一年公司持续加大对开放技术的投入。
"在这个快速迭代的领域,我们希望通过开源治理机制,让工具能持续适配新兴模型和产品。"
GSK的多智能体药物研发实践
这家疫苗与肿瘤研究领域的制药巨头,正应用多智能体架构加速药物发现。
GSK全球AI/ML负责人Kim Branson表示,智能体正成为公司"绝对核心业务",科学家们将领域专用LLM与本体论、工具链及严格测试框架结合。
这套系统能查询海量科研数据,设计实验方案(即便缺乏基准真相),整合基因组学、蛋白质组学和临床数据。智能体可提出假设,验证数据关联,压缩研究周期。
Branson指出,随着测序技术提速和穿戴设备普及,科研数据量激增:"人类拥有的连续脉搏数据比史上任何时候都多。"AI的价值在于加速数据迭代分析。
但药物研发的特殊性在于,许多场景缺乏明确基准真相,更多是假设驱动的证据探索过程。
"引入智能体后我们发现,多数人甚至没有标准化工作流程,"Branson说,"这种差异未必是坏事,但常引发新问题。"
他调侃道:"我们要能获得绝对真相,工作就轻松多了。"核心挑战在于确定正确靶点,或设计可能成为生物标志物的假设证据。
GSK自主构建了基于Cerebras的表观基因组语言模型。"我们为特定应用开发独家模型,"Branson强调。推理速度是关键考量,但盲目扩大上下文窗口并非良策。
持续测试至关重要
GSK对智能体系统实施严格测试,常并行运行多个智能体交叉验证结果。
Branson回忆早期开发时,一个SQL智能体在万次运行中突然"伪造"数据。"虽未复现,但提醒我们必须加强约束。"
为此团队会强制工具调用限制,让不同LLM执行相同序列并比对结果。他们自建内部评估体系,因为公开基准往往"过于学术化"。
"我们特别关注失败案例,因为这才是学习契机,"Branson说,"在关键环节保留人类专家判断至关重要。"