据动察 Beating 监测,谷歌将电脑操控 (Computer Use) 功能作为内置工具,直接整合进主力大模型 Gemini 3.5 Flash。 在原生整合前,开发者必须调用专门的 Gemini 2.5 电脑操控模型才能执行代理任务。原生集成后,开发人员与企业用户能够直接通过 Gemini API 或谷歌云 Gemini 企业智能体平台 (Gemini Enterprise Agent Platform,即原 Vertex AI 平台) 让主力模型操控设备,简化了智能体 (Agent) 开发架构。 内置的电脑操控工具通过接收浏览器、移动端或桌面环境的屏幕截图,进行视觉感知与步骤推理,随后输出鼠标点击、键盘输入、滚轮滚动及菜单导航等操作指令,用以完成软件持续测试、跨网页数据采集等长流程自动化任务。为了方便调试与审计,模型生成指令时会附带「意图」 (intent) 字段,用以说明每一步操作的逻辑。 针对智能体在真实网络环境中可能遭遇的提示词注入风险,谷歌对模型进行了定向对抗训练,并提供两项可选防护:涉及资金支付、文件删除等不可逆操作时强制引入人工核准;截图中若发现间接注入指令则自动熔断任务。 目前,Browserbase 提供了在线托管演示环境 (gemini.browserbase.com),谷歌官方也同步在 GitHub 开源了名为 computer-use-preview 的参考实现代码。
查看原文 >