哈喽比特

>

资源

>

360在乌镇互联网大会上发布《大模型安全白皮书》,附下载地址

发表于2025-11-09 16:52:35 | 总阅读数:503 次

资源列表

360《大模型安全白皮书》.pdf
登录后可下载11.57 MB

引言:外筑内固,构建大模型安全全链路防护体系

据IDC预测,到2030年,人工智能将为全球带来22.3万亿美元经济收入,大模型正驱动百行千业智能化变革,而开源大模型在性能提升、部署成本降低的推动下,加速向政务、金融、能源等重点行业落地,安全风险也随之渗透到全生命周期:从模型层的提示注入、越狱攻击,到数据层的敏感信息泄露,再到应用层的智能体越权,任何一处漏洞都可能威胁个人、企业国家的财产安全,甚至是生命安全。清晰的网络安全边界正不断消融、趋于模糊,并延伸至大模型的全链路安全,传统基于规则和特征匹配的防御体系已然失效。

我们正在从传统的“网络安全”时代,迈入以“大模型安全”为核心挑战的新阶段。当前威胁呈现指数级演化态势:一方面,攻击面急剧扩大,针对算力基础设施的劫持、供应链中的恶意模型文件、以及利用LangChain等框架漏洞的新型攻击,表明风险已深度嵌入技术底座。另一方面,攻击主体高度“平民化”,自然语言取代专业代码成为攻击武器,提示注入、越狱攻击让“全民黑客”从概念走向现实,极大降低了网络犯罪门槛。与此同时,模型固有的“幻觉”问题、智能体在工具调用中的越权风险、以及数据泄露与知识污染,共同构成了一个多维、动态、交织的复杂威胁矩阵。

在此背景下,360主张:必须采用以AI对抗AI、原生融合安全的新范式来应对大模型时代的安全挑战。我们提出“外筑‘以模治模’动态屏障,内固‘平台原生’安全底座的核心理念,将安全能力内嵌于大模型的构建、训练、部署与运营的全过程。通过构建一个纵深防御、动态演化的全景框架,从基础设施安全、内容与价值对齐、幻觉缓解到智能体行为管控,实现从“网络安全”到“大模型安全”的范式升维,为人工智能时代提供一个“安全、向善、可信、可控”的底座。面对这一全球性挑战,中国开创了“发展与安全并重”的敏捷治理之路,以《生成式人工智能服务管理暂行办法》为代表的“包容审慎、分类分级”原则,为技术创新与风险防控提供了动态平衡框架。

核心观点

本白皮书系统性地论证了大模型安全正经历从传统网络边界防御到原生、全栈、智能动态防御的范式转移,并提出“外筑"以模治模"动态屏障,内固"平台原生"安全底座”的核心理念,覆盖“安全、向善、可信、可控”四大支柱的全景安全框架,构建智能时代的核心免疫系统。

本白皮书系统性地论证了大模型安全正经历从传统网络边界防御到原生、全栈、智能动态防御的范式转移,并提出“外筑"以模治模"动态屏障,内固"平台原生"安全底座”的核心理念,覆盖“安全、向善、可信、可控”四大支柱的全景安全框架,构建智能时代的核心免疫系统。

1. 风险之变:从边界防御到全栈免疫

大模型安全风险是系统性、全栈式的。它贯穿基础设施、模型层、数据层、智能体层及用户端五大层次,具体表现为算力劫持、供应链投毒、内容越狱、模型幻觉、知识污染、隐私泄露、行为失控以及工具滥用等诸多方面,共同构成了一个传统安全方案无法应对的复杂威胁立体空间。

2. 攻击之变:从专业黑客到全民黑客

攻击技术持续向高端化演进,例如针对框架和基础设施的深度利用;与此同时,攻击主体则日趋平民化,“自然语言黑客” 的出现极大降低了攻击门槛。这导致攻防不对称性加剧,必须发展出同等智能、动态感知的防御体系。

3. 治理之智:中国特色的“发展与安全”平衡术

中国的治理模式采用“发展与安全并重”的动态平衡策略。通过“包容审慎、分类分级”的监管框架,既划定安全底线,又为技术快速迭代预留了弹性空间,为产业创新提供了关键的政策窗口期。

4. 应对之道:以模治模+平台原生安全

360提出的“以模治模+平台原生安全”是应对新范式的技术必然。它通过专用安全大模型,例如风险检测、幻觉纠正与红蓝对抗模型,对抗通用大模型风险,它既具备“外挂式”插件的灵活快速,又兼具“原生式”的深度安全能力,实现了双向赋能的协同防御,构筑起从模型、数据、内容到行为的全链路深度防护体系。露、行为失控以及工具滥用等诸多方面,共同构成了一个传统安全方案无法应对的复杂威胁立体空间。

5. 生存之道:开放共生,生态共治

大模型安全的复杂性、全局性,决定了仅靠单一力量的技术或资源难以实现全链路、全场景的大模型安全治理。必须通过标准共建、产学研协同——例如开源安全模型、共建联合平台,以及组建产业联盟等形式,汇聚各方力量,共同打造智能时代可信、向善的安全基底。这既是产业发展的必然要求,也是国家层面的战略需求。

版权声明

本站资源收集于网络,只做学习和交流使用,版权归原作者所有。

若为付费内容,请在下载后24小时之内自觉删除,若作商业用途请购买正版。

由于未及时购买和付费发生的侵权行为,与本站无关,本站发布的内容若侵犯到您的权益,请联系邮箱 websitesfeedback@gmail.com 删除,我们将及时处理!