大语言模型的三个软肋

本文介绍了越狱、反向心理学和提示注入三种攻击大语言模型方法,它们不仅暴露了 AI 在处理恶意输入时的技术局限,更凸显了 AI 在伦理与安全层面的深层隐患。

大语言模型的三个软肋

自从 2022 年 11 月问世以来,ChatGPT——这款由 OpenAI 打造的生成式人工智能工具,便凭借其惊艳的语言能力迅速风靡全球。然而,任何技术都有局限性,ChatGPT 也不例外:人们发现,其程序内部有多种可被利用的漏洞,用户可以借这些漏洞绕过安全和伦理限制,让 ChatGPT 执行原本被禁止的任务。需要明确的是,本文之所以介绍这些攻击方法并并非鼓励大家使用,而是为了引起公众对于伦理问题的关注。只有明确现存的漏洞,我们才能更好地理解 AI 技术的潜在风险。下文将从含义切入,通过具体例子讲解三种攻击 ChatGPT 的方法:越狱、反向心理学和提示注入攻击。

越狱:打开 ChatGPT 的“禁忌之门”

首先,打开 ChatGPT 的“禁忌之门”的第一种方法是越狱(Jailbreaks)。这个概念借自破解电子设备限制的术语。在大语言模型的语境下,越狱指的是用户通过精心设计的提示词(prompt),诱导或强制 ChatGPT 摆脱 OpenAI 内部治理和道德规则的束缚,让它回答那些原本被设计为“不可触及”的问题。这些道德规则本意旨在防止模型生成危险或不当内容,但越狱却能轻而易举地绕过这些防线。

越狱有多种形式。第一种方法叫“Do Anything Now”(简称 DAN)。单从字面翻译“现在就做任何事”便可窥见其精髓。实现 DAN 并不需要修改底层代码或利用软件漏洞。而是在用户提出真正的请求之前,预先向 ChatGPT 注入一段前导指令。这段指令的作用,好比一个强制的模式切换命令,让 ChatGPT 摆脱其内置限制——由 OpenAI 植入的基础数据、安全设置以及伦理治理政策——化身为一个能够响应任何指令、无视常规束缚的角色。

一旦 DAN 模式被成功触发,用户通常会明显感觉到 ChatGPT 的回应风格发生了转变。原本的谨慎和推诿消失了,取而代之的则是更为直接、大胆,甚至带有一定叛逆色彩的语气。它可能开始愿意讨论那些之前被列为禁忌的话题,提供更详尽的、可能包含敏感或潜在风险信息的回复,甚至按照用户指令,生成明显违反其公开政策的内容,例如辅助编写恶意代码的思路或生成不适宜的文本。

可是为何这种看似简单的文字游戏能够奏效呢?关键在于,像 ChatGPT 这样的大语言模型本身的核心特性:海量的文本数据训练和对语言模式的深度学习——它们极其擅长遵循指令和代入角色。当用户提供一个清晰、具体且强势的指令框架时,模型会努力去理解并执行这个框架下的要求。

DAN 提示正是利用这一点,创造了一个强有力的、即时的上下文。在这个上下文中,“不受限制”成为了模型被赋予的首要行为准则。虽然模型内部依然存有 OpenAI 设定的伦理边界信息,但在 DAN 提示词的强势引导下,那些原本会触发拒绝反应的内部规则被暂时忽略。

DAN 提示词
DAN 模式