谷歌主力模型Gemini 3.5 Flash原生支持电脑操控，解锁企业级智能体自动化

火星财经快讯

06月25日 11:38

据动察 Beating 监测，谷歌将电脑操控 (Computer Use) 功能作为内置工具，直接整合进主力大模型 Gemini 3.5 Flash。在原生整合前，开发者必须调用专门的 Gemini 2.5 电脑操控模型才能执行代理任务。原生集成后，开发人员与企业用户能够直接通过 Gemini API 或谷歌云 Gemini 企业智能体平台 (Gemini Enterprise Agent Platform，即原 Vertex AI 平台) 让主力模型操控设备，简化了智能体 (Agent) 开发架构。内置的电脑操控工具通过接收浏览器、移动端或桌面环境的屏幕截图，进行视觉感知与步骤推理，随后输出鼠标点击、键盘输入、滚轮滚动及菜单导航等操作指令，用以完成软件持续测试、跨网页数据采集等长流程自动化任务。为了方便调试与审计，模型生成指令时会附带「意图」 (intent) 字段，用以说明每一步操作的逻辑。针对智能体在真实网络环境中可能遭遇的提示词注入风险，谷歌对模型进行了定向对抗训练，并提供两项可选防护：涉及资金支付、文件删除等不可逆操作时强制引入人工核准；截图中若发现间接注入指令则自动熔断任务。目前，Browserbase 提供了在线托管演示环境 (gemini.browserbase.com)，谷歌官方也同步在 GitHub 开源了名为 computer-use-preview 的参考实现代码。

查看原文 >

本内容旨在传递行业动态，不构成投资建议或承诺。

商务合作：TG：@Lottie96

所有栏目

谷歌主力模型Gemini 3.5 Flash原生支持电脑操控，解锁企业级智能体自动化