请使用手机微信扫码安全登录

切换账号密码登录

绑定手机号

应国家法规对于账号实名的要求,请您在进行下一步操作前,需要先完成手机绑定 (若绑定失败,请重新登录绑定)。了解更多

不绑定绑定手机号

360官网 | 360商城

推荐论坛版块活动360粉丝商城众测常见问题
攻击或污染拥有数十亿参数的模型需要多少恶意数据?几万、几十万?

最新研究表明,攻击者仅需250份恶意文档,即可在参数规模从6亿到130亿的大模型中植入后门,且攻击成功率与模型规模无关。这一发现来自Anthropic与业界安全研究团队近期发布的研究,揭示了当前大模型在内容安全上面临的严峻挑战。


研究警示
小样本何以引发大风险?
研究团队针对一类名为“拒绝服务(denial-of-service)”特定后门攻击进行实验,该攻击的目标是当模型遇到某个特定短语时,输出随机的无意义文本。攻击者可能通过在某些网站中植入此类触发词,致使模型在检索这些站点内容时功能失效。
实验中,研究团队通过向训练数据集注入包含后门触发短语“ ”的恶意文档,成功诱导模型在遇到特定短语时输出无意义文本,从而实现了针对大语言模型的“拒绝服务”攻击。无论模型参数是6亿还是130亿,只需将250个恶意文档注入训练数据中,攻击者就可以成功进行后门攻击。
这类基于数据投毒的攻击方式成本低、隐蔽性强。一旦在模型训练流程中未被及时检测与拦截,将直接导致大模型在真实场景中出现信息失真、敏感数据泄露或恶意指令执行等严重安全问题,最终对企业商誉、终端用户体验及社会公共秩序造成难以逆转的损害。
大模型安全
为何必须防患于未然?
随着大模型在各行业加速落地,其可靠性与安全性已成为决定技术能否健康发展的核心要素。大模型的“中毒”不仅仅是一个技术问题,更可能演变为商业风险与信任危机。无论是生成虚假或错误内容、泄露隐私,还是被滥用为诈骗、伪造工具,每一次安全事件都在透支用户对AI的信任,尤其是在民生领域的应用。正因如此,从数据源头、训练过程到推理输出的全链路内容安全治理,必须成为模型研发与部署中的“必选项”,而非“可选项”。
为应对大模型安全挑战,360发挥“懂AI更懂安全”的跨领域优势,基于以模制模理念打造360大模型安全卫士,AI对抗AI的闭环设计,实现了从源头上化解威胁的全局方案,以内容安全智能体、AI Agent智能体、幻觉抑制智能体、软件安全智能体等智能体系统性解决大模型生命周期中各环节的安全问题。
以大模型训练为例,大模型的训练语料大部分从互联网上抓取,其来源和质量难以完全保证。如此巨大的数据通过人工或自动化手段在训练前完全筛查出精心构造的污染样本,几乎是不可能的。
360大模型安全卫士在模型训练阶段,通过专用训练的风险检测大模型针对模型训练语料、微调语料等进行风险识别,并采用多级标签方式进行精细化打标分类,且能精准定位风险语料位置,实现训练、微调前的安全评估,使大模型风险防御“左移”;
在模型推理阶段,通过内容安全评测和内容安全护栏提供智能判定机制、风险内容检测、敏感问题代答、内容安全测评等关键能力,识别100+风险类目,实现业务模型的输入输出内容安全,大模型价值观对齐。
目前,360大模型安全卫士已在政府、金融、监管、医疗等领域实现深度应用。“250份样本投毒大模型”不再只是学术猜想,而是摆在所有AI参与者面前的现实威胁,必须将安全机制深度嵌入模型的每一个发展阶段。未来,360将继续深化跨领域优势,用更创新的方案应对新兴安全挑战,助力构建“可靠、可信、可控、向善”的AI生态。
如需咨询相关服务

请联系400-0309-360


来源   360数字安全

共 0 个关于250份恶意样本“毒倒”百亿参数大模型?内容安全已成AI生命线的回复 最后回复于 2025-10-14 11:26

评论

直达楼层

您需要登录后才可以回帖 登录 | 注册

本版积分规则

飞机飞行 超级版主

粉丝:184 关注:13 积分:265886

精华:356 金币:249024 经验:222246

IP属地: 安徽省

最后登录时间:2025-10-15

小水滴公测勋章 智能摄像机3C 摄像机APP V7.0 智能摄像机AP2C 360AI音箱MAX-M1 公测AI小水滴D903 安全卫士10周年纪念 版主 公测360摄像机标准版 儿童五周年纪念章 360家庭防火墙APP内测 公测360摄像机户外版 360手机f4 公测360摄像机变焦宠物版 公测360家庭防火墙V5S 公测摄像机D916 家庭安防套装 防火墙V5S增强版公测勋章 360粉丝达人勋章

私信 加好友

最新活动

纳智成篇,听你所想| 山城共话产品未来!36

排行榜

热度排行 查看排行
今日 本周 本月 全部
    今日 本周 本月 全部

      扫码添加360客服号,涨知识的同时还有超多福利等你哦

      快速回复 返回顶部 返回列表