为规范AI服务和应用,促进行业健康有序发展,保障公民合法权益,近日,中央网信办印发通知,在全国范围内部署开展为期3个月的“清朗·整治AI技术滥用”专项行动。
两阶段“组合拳”推进AI技术治理
中央网信办有关负责人表示,本次专项行动分两个阶段开展。
\ | /
第一阶段强化AI技术源头治理,清理整治违规AI应用程序,加强AI生成合成技术和内容标识管理,推动网站平台提升检测鉴伪能力。将重点整治违规AI产品、违规教程和商品、训练语料管理不严、安全管理漏洞、未落实内容标识、重点领域安全风险等6类突出问题。
\ | /
第二阶段关注AI内容治理,聚焦利用AI技术制作发布谣言、不实信息、色情低俗内容,假冒他人、从事网络水军活动等突出问题,集中清理相关违法不良信息,处置处罚违规账号、MCN机构和网站平台。将重点整治利用AI制作发布谣言、不实信息、色情低俗内容、假冒侵权违法行为、网络水军活动、违规应用程序、未成年人侵害等7类突出问题。
防范AI技术滥用,重视AI生成内容安全
《通知》强调,网站平台对照专项行动有关要求,健全AI生成合成内容审核机制,提升技术检测能力,做好整改落实。面对不断演化的AI生成内容安全挑战,360率先提出“以模制模”防护思路,并将相关能力产品化,推出业界领先的大模型内容安全解决方案“360智盾”,构建原生安全的底层模型,打造多层次、多种类、多场景的内容安全体系,实现对大模型内容安全的全面保护。
原生安全底层模型
通过持续预训练、安全监督微调、安全对齐等方式,360结合插值/外插训练技术和真实场景数据,不断提升模型本身的原生安全性能,最终构建出一个能够应对越狱攻击、处理高风险问题时依然保持“向善”响应的“安全回复大模型”。
多层次内容安全保障
在应用层,360智盾为业务大模型外部加装“内容防护盔甲”。在输入端,用户输入内容首先经过风险识别分类器,根据风险等级进行分级处理;在输出端,模型生成内容将再次经过检测,确保无违规风险。
多种类内容风险识别
360自研的风险内容分类器基于语义大模型构建,在识别精度和训练效率上全面优于传统关键词匹配和BERT类分类模型。其训练数据严格对标《生成式人工智能服务安全基本要求(TC260-003)》中5大类31小类的违法不良信息类型,并结合实际业务场景细化出100余类风险标签。仅需少量示例样本,即可训练出行业领先水平的检测能力。
多场景模拟实战评估
面对大模型服务面临的复杂多变的风险,360创新构建基于大模型的红蓝对抗靶场体系:由360红蓝对抗攻击大模型模拟真实攻击者,主动发起越狱、诱导等攻击;由安全回复大模型等防护模型接收攻击并构建防御机制;由360安全评测大模型对每轮输入输出进行定量分析,自动评估攻防成效。通过标准化指标与自动化评估流程,大大提高评测效率与覆盖率,实现产品能力的快速闭环迭代。
赋能行业落地,全流程守护大模型安全
目前,360智盾已全面部署于360内部各大模型业务中,为C端用户提供可靠的内容安全保障。同时,360智盾已在政务、金融、交通、能源等重点行业完成落地,持续为行业客户打造更稳固的大模型安全底座,助力其户在AI大模型应用落地过程中实现安全可控。
除智盾外,360还推出智鉴、智搜等大模型安全产品:
AI
大模型系统安全检测平台360智鉴
覆盖了从模型训练到推理的全链路安全检测,支持对模型服务的相关组件识别、生态链漏洞扫描和多语言代码审计,确保大模型系统安全。
AI
大模型可信增强工具360智搜
融合多模态检索与语义理解技术,能够提供精准的搜索结果,并支持基于企业私域数据的知识提炼与总结。通过整合多领域精品知识库,实现全网与私域知识的无缝对接,提升信息获取效率,并可帮助大模型缓解幻觉问题,减少虚假或不准确信息,提升大模型的可信度与可靠性,从而为企业提供更安全、更高效的业务支持。
未来,360将继续在AI安全方向深耕,为构建一个安全、向善、可信、可控的AI发展环境持续贡献力量。
来源 360数字安全
|
|
|
|
评论
直达楼层