近日,研究人员发现两种新型越狱技术,可绕过当前多款主流生成式AI服务的安全防护机制,涉及平台包括OpenAI的ChatGPT、谷歌Gemini、微软Copilot、深度求索、Anthropic的Claude、X的Grok、MetaAI及MistralAI等。这些攻击仅需使用高度相似的提示词,便能在不同平台生成非法或危险内容,暴露出当前AI安全防护存在系统性缺陷。
一、两种越狱技术的工作原理
第一种被称为“Inception”的攻击手法,通过要求AI模拟嵌套的虚构场景,逐步瓦解其伦理限制。该方式借助AI本身具备的角色扮演和多轮对话记忆能力,诱使其输出本应被安全机制拦截的回答。
第二种技术则采用更为直接的策略:先诱导AI透露其被禁止响应哪些类型的请求,以此掌握防护规则信息,再通过交替使用正常与违规提问,利用模型的上下文记忆实现绕过。这两种方法均利用了AI服务的基础设计特点,包括以帮助用户为核心的目标设定、强大的对话连续性以及对语言框架操控的敏感性。
二、潜在危害与现实影响
此类越狱手段可能导致AI生成涉及违禁物品、武器制作、欺诈邮件乃至恶意代码等非法内容。尽管单次攻击的影响可能有限,但由于其具备跨平台、可重复和自动化的特性,系统性的安全漏洞大幅提高了整体风险。攻击者甚至可能借助合法AI服务为幌子,开展大规模有害内容生产,进一步扩大威胁。
随着生成式AI被广泛应用于客服、医疗咨询和金融分析等现实场景,一旦遭到越狱攻击,可能导致严重后果,对个人与社会安全构成实质威胁。
三、企业回应与行业挑战
国内技术厂商深度求索回应称,所报告的越狱方法属于传统攻击类型,并不属于系统架构缺陷,并指出AI所提到的“内部参数”等内容属于模型幻觉,并非真实信息泄露。其他多家平台据传已启动内部调查与防御机制更新。
业内专家普遍认为,尽管事后审核与过滤机制仍是AI安全的关键组成部分,但其防御效果仍存在局限。攻击者正不断借助角色注入、对抗性样本等新手段,持续寻找审核盲点。随着AI模型能力不断提升、应用范围持续扩大,开发者与攻击者之间的技术博弈预计将更加激烈。
四、总结与展望
此次由安全研究人员发现并披露的越狱漏洞,促使整个行业重新审视生成式AI的安全协议。当前,开发能够动态适应新型攻击的强健防御机制已成为行业迫切需求。随着人工智能更深地融入日常生活与关键基础设施,防御手段也需持续升级,以应对不断演变的安全挑战。
|
|
|
|
评论
直达楼层