您的位置: 首页> AI模型

不止能聊，还能“动手”：谷歌AI代理掀起数字浪潮

匿名上传

发布时间:2025-10-14 14:30:02

想象一下，你不再需要亲自盯着屏幕，点击鼠标，输入文字，一遍遍重复那些枯燥的在线操作。有一天，你只需对AI说一声：“帮我预订下周五的餐厅，找到离家最近的那个，并且确保能带宠物。”然后，它就能像一个训练有素的助手，熟练地在浏览器中穿梭，完成一系列复杂的任务——搜索、筛选、填写信息、预约……

这并非遥远的科幻场景。就在最近，谷歌扔下了一颗重磅炸弹：Gemini 2.5 Computer Use模型正式登场。这不仅仅是一个新模型，更是谷歌向“计算机使用智能体”（CUA）这个未来战场吹响的号角，预示着AI将从“能说会道”迈向“能看会做”的新阶段。

iShot_2025-10-11_23.42.38

当AI拥有“数字之手”：它是如何做到的？

简而言之，Gemini 2.5 Computer Use，这个基于强大Gemini 2.5 Pro构建的视觉理解与推理模型，就是让AI学会了像人类一样“看”和“操作”图形用户界面，尤其是我们最熟悉的网页浏览器。

它的工作模式，简直就是把一个经验丰富的“数字助理”装进了AI的大脑。你可以把它想象成一个聪明的循环过程：

“看”： 你给AI一个任务，它立刻接收到当前屏幕的截图，就像人眼一样捕捉到界面上的每一个按钮、文本框和图片。
“想”： 结合你的指令和它“看到”的画面，AI开始思考下一步。它会推理出完成任务需要哪些操作，比如点击哪里、输入什么文字、何时需要滚动页面。
“做”： 思考完毕，AI会生成具体的、人类化的操作指令——点击某个坐标、输入特定内容、拖拽元素，它能模拟多达13种日常操作。
“反馈与迭代”： 指令执行后，屏幕状态随之改变，AI会再次“看”到新的画面，然后进入下一轮“想-做”循环，直到任务圆满完成。

每一次操作，都像一个深思熟虑的决策过程，而不是简单的预设脚本，这才是它的颠覆性所在。

iShot_2025-10-11_23.42.52

实力不容小觑：超越对手，效率倍增

别以为这只是个概念。谷歌的数据显示，Gemini 2.5 Computer Use在多项网页和移动端自动化任务中，不仅超越了OpenAI和Anthropic的同类产品，甚至在速度上实现了低延迟的优势。这意味着，它在处理复杂数据录入、跨网站信息整理、甚至网页游戏等任务时，都能展现出领先的性能。国内媒体“机器之心”的初步测试也印证了这一点：在处理简单任务时，它表现得游刃有余；虽然面对高度复杂的、需要深层语义理解和跨领域知识的任务时仍有进步空间，但其基础能力已足够令人惊叹。

比如，从一个网页抓取宠物信息，然后自动填入另一个在线表格，并设置后续预约——这些过去需要耗费人力的繁琐工作，如今AI能一气呵成。

iShot_2025-10-11_23.42.58