据动察 Beating 监测,Cloudflare 今日公布了参与 Anthropic 内部安全项目 Project Glasswing 的实测结果。在针对自身 50 多个代码库的测试中,Cloudflare 证实安全模型 Mythos Preview 突破了此前大模型的瓶颈。它不仅能发现孤立的系统缺陷,更能将多个低危漏洞串联组合,自主写代码生成可执行的攻击证明(PoC)。 此前的 Opus 4.7 或 GPT-5.5 在测试中往往只停留在输出漏洞分析报告的阶段。Mythos 则具备了沙盒闭环验证能力。它会写出触发漏洞的代码并编译运行,若执行失败,模型会自动读取报错信息、修正假设并再次尝试,直到彻底打通攻击链。 Cloudflare 透露,业内部分安全团队已被迫执行 2 小时内完成修补的极限标准。但 Cloudflare 强调,单纯压缩补丁时间会因跳过回归测试引发更大的系统故障,未来的防御重心必须转向从架构层面切断代码的连通性。 在工程调度上,Cloudflare 发现单流编程智能体会迅速耗尽上下文,无法胜任大规模漏洞挖掘。他们为此搭建了一套平行对抗框架,让一个智能体在极窄范围内寻找漏洞,同时安排另一个搭载不同模型的智能体专门驳斥前者的结论。这种对抗机制大幅过滤了模型扫描中普遍产生的大量误报噪音。 由于本次测试使用的是无外部限制的预览版,Mythos 展现出了极不稳定的内部护栏。面对同一段目标代码,仅仅改变运行环境的上下文描述,模型就会从拒绝执行转为直接提供攻击载荷。Cloudflare 警告,由模型自发生成的内生护栏极其脆弱,未来面向公众发布时必须强制叠加外部防线。
查看原文 >