破解大型语言模型：如果你折磨模型足够长时间，它将招供！

一个警示故事…

ChatGPT中文站 — AI-generated image (craiyon)

大型语言模型（LLM），如ChatGPT，是使用从互联网收集的庞大文本数据集进行训练的，这些数据集通常含有相当数量的令人反感的材料。这就是为什么近来出现了“对齐”LLM的做法，即模型开发者对模型进行微调，使其在响应用户提示（输入）时不产生有害或令人反感的输出。

至少从表面上看，对齐工作似乎取得了成功：当直接询问时，公共聊天机器人会避免生成明显不合适的内容。例如，当我向ChatGPT提交了“怎样能越狱？”的提示时，以下是发生的情况：

一个非常简短的讨论……

现在，如果你感觉到有一个"但是"要出现——你是对的。过去几年的研究表明，深度学习模型（不仅仅是LLMs）普遍容易遭受所谓的对抗性攻击，这些攻击会通过微小地操纵输入数据来误导模型产生错误的输出。我在Medium上曾经写过关于这个问题在图像领域的文章：

在这里，我们谈论的是语言和基于机器学习模型的语言模型：它们是否可以被持续欺骗以泄露它们的机密？我和我的同事们刚刚回答了这个问题，是肯定的：

我们展示了LLMs（在各种任务中被广泛采用）并不是对敌对攻击——越狱（jailbreaking）免疫的。在LLMs的背景下，"越狱"指的是精心设计提示以利用模型的偏见并生成与其预期用途不符的输出。

LLM用户一直能够调整LLMs并手动设计适用于非常特定情况的轶事提示。事实上，就在几周前还发布了一个名为"有害行为"的数据集，其中包含521个有意设计用来挑战LLMs能力的有害行为实例。

我们的工作远远超出了手动调整范围：我们设计了一个自动生成通用对抗提示的框架，该提示作为后缀添加在用户提示的末尾。其中“通用”这个特点非常重要：意味着这个后缀可以在许多用户提示中重复使用，可能适用于多个LLM模型。不再需要手动调整。

我们的方法不仅是普适的，而且是黑盒的，意味着我们无法接触到LLM的内部。在白盒设置中，您可以访问模型的所有内部信息：权重、偏差、梯度和损失。相反，在黑盒设置中，什么都没有；您只能检查输出，就像任何普通人一样。这一点非常重要，因为在现实生活中，我们经常无法访问模型的内部信息。然而，我们仍然能够构建一个成功的、普适的攻击。

我们的攻击策略包括构造一个单一对抗性提示，仅凭模型的输出始终破坏主要商业模型的一致性。下面是操作管道的示意图：