Salesforce与南加州大学的研究人员开发出一种创新技术,赋予计算机操作智能体在图形用户界面(GUI)导航时执行代码的能力——即让智能体在移动光标或点击按钮的同时编写脚本,通过融合两种方式的优势来加速工作流程并降低错误率。
这种混合方法使智能体能够绕过脆弱低效的鼠标点击操作,转而通过编码更高效地完成任务。
名为CoAct-1的系统在关键智能体基准测试中创造了新纪录,不仅性能超越其他方法,完成复杂计算机任务所需的操作步骤也大幅减少。
这一升级为更强大、可扩展的智能体自动化铺平了道路,在现实场景中具有巨大应用潜力。
点击式AI智能体的脆弱性
传统计算机操作智能体依赖视觉语言模型(VLM/VLA)来感知屏幕并执行操作,模拟人类使用鼠标键盘的行为模式。
虽然这类基于GUI的智能体可完成多种任务,但面对冗长复杂的工作流时(尤其是办公软件等菜单选项密集的应用)往往表现不佳。
例如在电子表格中定位特定数据表、筛选并另存为新文件的操作,就需要一系列精确的GUI操作序列。
这正是脆弱性显现之处。研究人员在论文中指出:"现有智能体常受困于视觉定位模糊性(如区分外观相似的图标或菜单项),以及长流程中单步错误概率的累积。一次误点击或UI元素误解就可能导致整个任务失败。"
CoAct-1:计算机任务的多智能体协作系统
为突破这些限制,研究人员开发了CoAct-1(编码即动作的计算机操作智能体),该系统旨在"将GUI操作的人性化优势与代码直接交互的精确性、可靠性相结合"。
该系统由三个专业智能体组成协作团队:调度器(Orchestrator)、程序员(Programmer)和GUI操作员(GUI Operator)。
调度器担任核心规划者角色,将用户目标分解为子任务并分配给最适合的智能体。它可将文件管理等后台操作委托给能编写执行Python/Bash脚本的程序员。
对于需要点击按钮或导航视觉界面的前端任务,则交由基于VLM的GUI操作员处理。
论文指出:"这种动态委派机制使CoAct-1能策略性地避开低效GUI操作,在适当时采用稳健的单次代码执行,同时在必要场景保留视觉交互能力。"
更高效的自动化路径
在包含369个现实任务的OSWorld基准测试中,CoAct-1以60.76%的成功率刷新纪录。
性能提升在编程控制优势明显的领域尤为显著,例如系统级任务和多应用工作流。设想这样的系统级任务:在复杂文件夹结构中查找所有图片文件,调整尺寸后压缩整个目录。
纯GUI智能体需要执行一长串脆弱的点击拖拽操作,而CoAct-1可将整个流程委托给程序员智能体通过单一稳健脚本完成。
CoAct-1平均仅需10.15步即可完成任务,显著优于GTA-1等纯GUI智能体所需的15.22步。更少的操作步骤不仅提升效率,更重要的是降低了错误概率。
从实验室到企业工作流
论文合著者、Salesforce应用人工智能研究总监Ran Xu指出客户支持是典型应用场景:"服务人员需要使用Salesforce、医疗行业专用工具EPIC等多种系统处理客户请求。我们的技术能创建兼容API、代码或纯屏幕操作的计算机使用智能体。"
该技术在销售线索挖掘、营销活动资产生成等领域同样具有高价值应用前景。
应对现实挑战与人工监督需求
企业环境中遗留系统和不可预测的UI对系统健壮性提出更高要求。研究人员的目标是建立"智能体可观察人类工作模式,在沙盒环境中训练,上线后在人类监督下持续执行任务"的体系。
程序员智能体的代码执行能力也带来安全隐患。Xu强调:"访问控制与沙盒隔离是关键,必须由人类理解风险后授权AI访问权限。"在关键系统部署前,沙盒测试和行为验证将至关重要。
对于模糊任务处理,Xu认为应采用渐进策略:"初期需要人工参与,虽然部分任务最终可实现全自动,但关键任务可能永远需要人工审批。"