Salesforce的新一代CoAct-1智能代理不仅能点击操作——它们还能编写代码,以更快速度完成任务且成功率更高

时间:2025-08-21 14:30:01来源:互联网

下面小编就为大家分享一篇Salesforce的新一代CoAct-1智能代理不仅能点击操作——它们还能编写代码,以更快速度完成任务且成功率更高,具有很好的参考价值,希望对大家有所帮助。

Salesforce与南加州大学的研究人员开发出一种创新技术,赋予计算机操作智能体在图形用户界面(GUI)导航时执行代码的能力——即让智能体在移动光标或点击按钮的同时编写脚本,通过融合两种方式的优势来加速工作流程并降低错误率。

这种混合方法使智能体能够绕过脆弱低效的鼠标点击操作,转而通过编码更高效地完成任务。

名为CoAct-1的系统在关键智能体基准测试中创造了新纪录,不仅性能超越其他方法,完成复杂计算机任务所需的操作步骤也大幅减少

这一升级为更强大、可扩展的智能体自动化铺平了道路,在现实场景中具有巨大应用潜力。

点击式AI智能体的脆弱性

传统计算机操作智能体依赖视觉语言模型(VLM/VLA)来感知屏幕并执行操作,模拟人类使用鼠标键盘的行为模式

虽然这类基于GUI的智能体可完成多种任务,但面对冗长复杂的工作流时(尤其是办公软件等菜单选项密集的应用)往往表现不佳

例如在电子表格中定位特定数据表、筛选并另存为新文件的操作,就需要一系列精确的GUI操作序列。

这正是脆弱性显现之处。研究人员在论文中指出:"现有智能体常受困于视觉定位模糊性(如区分外观相似的图标或菜单项),以及长流程中单步错误概率的累积。一次误点击或UI元素误解就可能导致整个任务失败。"

CoAct-1:计算机任务的多智能体协作系统

为突破这些限制,研究人员开发了CoAct-1(编码即动作的计算机操作智能体),该系统旨在"将GUI操作的人性化优势与代码直接交互的精确性、可靠性相结合"。

该系统由三个专业智能体组成协作团队:调度器(Orchestrator)、程序员(Programmer)和GUI操作员(GUI Operator)。

调度器担任核心规划者角色,将用户目标分解为子任务并分配给最适合的智能体。它可将文件管理等后台操作委托给能编写执行Python/Bash脚本的程序员

对于需要点击按钮或导航视觉界面的前端任务,则交由基于VLM的GUI操作员处理。

论文指出:"这种动态委派机制使CoAct-1能策略性地避开低效GUI操作,在适当时采用稳健的单次代码执行,同时在必要场景保留视觉交互能力。"

更高效的自动化路径

在包含369个现实任务的OSWorld基准测试中,CoAct-1以60.76%的成功率刷新纪录

性能提升在编程控制优势明显的领域尤为显著,例如系统级任务和多应用工作流。设想这样的系统级任务:在复杂文件夹结构中查找所有图片文件,调整尺寸后压缩整个目录。

纯GUI智能体需要执行一长串脆弱的点击拖拽操作,而CoAct-1可将整个流程委托给程序员智能体通过单一稳健脚本完成

CoAct-1平均仅需10.15步即可完成任务,显著优于GTA-1等纯GUI智能体所需的15.22步。更少的操作步骤不仅提升效率,更重要的是降低了错误概率。

从实验室到企业工作流

论文合著者、Salesforce应用人工智能研究总监Ran Xu指出客户支持是典型应用场景:"服务人员需要使用Salesforce、医疗行业专用工具EPIC等多种系统处理客户请求。我们的技术能创建兼容API、代码或纯屏幕操作的计算机使用智能体。"

该技术在销售线索挖掘、营销活动资产生成等领域同样具有高价值应用前景。

应对现实挑战与人工监督需求

企业环境中遗留系统和不可预测的UI对系统健壮性提出更高要求。研究人员的目标是建立"智能体可观察人类工作模式,在沙盒环境中训练,上线后在人类监督下持续执行任务"的体系

程序员智能体的代码执行能力也带来安全隐患。Xu强调:"访问控制与沙盒隔离是关键,必须由人类理解风险后授权AI访问权限。"在关键系统部署前,沙盒测试和行为验证将至关重要。

对于模糊任务处理,Xu认为应采用渐进策略:"初期需要人工参与,虽然部分任务最终可实现全自动,但关键任务可能永远需要人工审批。"

本站部分内容转载自互联网,如果有网站内容侵犯了您的权益,可直接联系我们删除,感谢支持!