整治AI技术滥用，中央网信办出手！

为规范AI服务和应用，促进行业健康有序发展，保障公民合法权益，近日，中央网信办印发通知，在全国范围内部署开展为期3个月的“清朗·整治AI技术滥用”专项行动。

两阶段“组合拳”推进AI技术治理
中央网信办有关负责人表示，本次专项行动分两个阶段开展。
\ | /
第一阶段强化AI技术源头治理，清理整治违规AI应用程序，加强AI生成合成技术和内容标识管理，推动网站平台提升检测鉴伪能力。将重点整治违规AI产品、违规教程和商品、训练语料管理不严、安全管理漏洞、未落实内容标识、重点领域安全风险等6类突出问题。
\ | /
第二阶段关注AI内容治理，聚焦利用AI技术制作发布谣言、不实信息、色情低俗内容，假冒他人、从事网络水军活动等突出问题，集中清理相关违法不良信息，处置处罚违规账号、MCN机构和网站平台。将重点整治利用AI制作发布谣言、不实信息、色情低俗内容、假冒侵权违法行为、网络水军活动、违规应用程序、未成年人侵害等7类突出问题。
防范AI技术滥用，重视AI生成内容安全
《通知》强调，网站平台对照专项行动有关要求，健全AI生成合成内容审核机制，提升技术检测能力，做好整改落实。面对不断演化的AI生成内容安全挑战，360率先提出“以模制模”防护思路，并将相关能力产品化，推出业界领先的大模型内容安全解决方案“360智盾”，构建原生安全的底层模型，打造多层次、多种类、多场景的内容安全体系，实现对大模型内容安全的全面保护。
原生安全底层模型
通过持续预训练、安全监督微调、安全对齐等方式，360结合插值/外插训练技术和真实场景数据，不断提升模型本身的原生安全性能，最终构建出一个能够应对越狱攻击、处理高风险问题时依然保持“向善”响应的“安全回复大模型”。

多层次内容安全保障
在应用层，360智盾为业务大模型外部加装“内容防护盔甲”。在输入端，用户输入内容首先经过风险识别分类器，根据风险等级进行分级处理；在输出端，模型生成内容将再次经过检测，确保无违规风险。

多种类内容风险识别
360自研的风险内容分类器基于语义大模型构建，在识别精度和训练效率上全面优于传统关键词匹配和BERT类分类模型。其训练数据严格对标《生成式人工智能服务安全基本要求（TC260-003）》中5大类31小类的违法不良信息类型，并结合实际业务场景细化出100余类风险标签。仅需少量示例样本，即可训练出行业领先水平的检测能力。
多场景模拟实战评估
面对大模型服务面临的复杂多变的风险，360创新构建基于大模型的红蓝对抗靶场体系：由360红蓝对抗攻击大模型模拟真实攻击者，主动发起越狱、诱导等攻击；由安全回复大模型等防护模型接收攻击并构建防御机制；由360安全评测大模型对每轮输入输出进行定量分析，自动评估攻防成效。通过标准化指标与自动化评估流程，大大提高评测效率与覆盖率，实现产品能力的快速闭环迭代。
赋能行业落地，全流程守护大模型安全
目前，360智盾已全面部署于360内部各大模型业务中，为C端用户提供可靠的内容安全保障。同时，360智盾已在政务、金融、交通、能源等重点行业完成落地，持续为行业客户打造更稳固的大模型安全底座，助力其户在AI大模型应用落地过程中实现安全可控。
除智盾外，360还推出智鉴、智搜等大模型安全产品：
AI
大模型系统安全检测平台360智鉴
覆盖了从模型训练到推理的全链路安全检测，支持对模型服务的相关组件识别、生态链漏洞扫描和多语言代码审计，确保大模型系统安全。
AI
大模型可信增强工具360智搜
融合多模态检索与语义理解技术，能够提供精准的搜索结果，并支持基于企业私域数据的知识提炼与总结。通过整合多领域精品知识库，实现全网与私域知识的无缝对接，提升信息获取效率，并可帮助大模型缓解幻觉问题，减少虚假或不准确信息，提升大模型的可信度与可靠性，从而为企业提供更安全、更高效的业务支持。
未来，360将继续在AI安全方向深耕，为构建一个安全、向善、可信、可控的AI发展环境持续贡献力量。

来源 360数字安全