Salesforce的新一代CoAct-1智能代理不仅能点击操作——它们还能编写代码，以更快速度完成任务且成功率更高-阿里西西

Salesforce与南加州大学的研究人员开发出一种创新技术，赋予计算机操作智能体在图形用户界面(GUI)导航时执行代码的能力——即让智能体在移动光标或点击按钮的同时编写脚本，通过融合两种方式的优势来加速工作流程并降低错误率。

这种混合方法使智能体能够绕过脆弱低效的鼠标点击操作，转而通过编码更高效地完成任务。

名为CoAct-1的系统在关键智能体基准测试中创造了新纪录，不仅性能超越其他方法，完成复杂计算机任务所需的操作步骤也大幅减少。

这一升级为更强大、可扩展的智能体自动化铺平了道路，在现实场景中具有巨大应用潜力。

点击式AI智能体的脆弱性

传统计算机操作智能体依赖视觉语言模型(VLM/VLA)来感知屏幕并执行操作，模拟人类使用鼠标键盘的行为模式。

虽然这类基于GUI的智能体可完成多种任务，但面对冗长复杂的工作流时（尤其是办公软件等菜单选项密集的应用）往往表现不佳。

例如在电子表格中定位特定数据表、筛选并另存为新文件的操作，就需要一系列精确的GUI操作序列。

这正是脆弱性显现之处。研究人员在论文中指出："现有智能体常受困于视觉定位模糊性（如区分外观相似的图标或菜单项），以及长流程中单步错误概率的累积。一次误点击或UI元素误解就可能导致整个任务失败。"

为突破这些限制，研究人员开发了CoAct-1（编码即动作的计算机操作智能体），该系统旨在"将GUI操作的人性化优势与代码直接交互的精确性、可靠性相结合"。

该系统由三个专业智能体组成协作团队：调度器(Orchestrator)、程序员(Programmer)和GUI操作员(GUI Operator)。

调度器担任核心规划者角色，将用户目标分解为子任务并分配给最适合的智能体。它可将文件管理等后台操作委托给能编写执行Python/Bash脚本的程序员。

对于需要点击按钮或导航视觉界面的前端任务，则交由基于VLM的GUI操作员处理。

论文指出："这种动态委派机制使CoAct-1能策略性地避开低效GUI操作，在适当时采用稳健的单次代码执行，同时在必要场景保留视觉交互能力。"

在包含369个现实任务的OSWorld基准测试中，CoAct-1以60.76%的成功率刷新纪录。

性能提升在编程控制优势明显的领域尤为显著，例如系统级任务和多应用工作流。设想这样的系统级任务：在复杂文件夹结构中查找所有图片文件，调整尺寸后压缩整个目录。

纯GUI智能体需要执行一长串脆弱的点击拖拽操作，而CoAct-1可将整个流程委托给程序员智能体通过单一稳健脚本完成。

CoAct-1平均仅需10.15步即可完成任务，显著优于GTA-1等纯GUI智能体所需的15.22步。更少的操作步骤不仅提升效率，更重要的是降低了错误概率。

论文合著者、Salesforce应用人工智能研究总监Ran Xu指出客户支持是典型应用场景："服务人员需要使用Salesforce、医疗行业专用工具EPIC等多种系统处理客户请求。我们的技术能创建兼容API、代码或纯屏幕操作的计算机使用智能体。"

该技术在销售线索挖掘、营销活动资产生成等领域同样具有高价值应用前景。

企业环境中遗留系统和不可预测的UI对系统健壮性提出更高要求。研究人员的目标是建立"智能体可观察人类工作模式，在沙盒环境中训练，上线后在人类监督下持续执行任务"的体系。

程序员智能体的代码执行能力也带来安全隐患。Xu强调："访问控制与沙盒隔离是关键，必须由人类理解风险后授权AI访问权限。"在关键系统部署前，沙盒测试和行为验证将至关重要。

对于模糊任务处理，Xu认为应采用渐进策略："初期需要人工参与，虽然部分任务最终可实现全自动，但关键任务可能永远需要人工审批。"