简要介绍LLM幻觉检测技术

在LLMs中,幻觉出现在模型生成的文本偏离其训练集中实际数据的情况下。相反,它制造出看似可信但缺乏事实或背景证据支持的信息。这些幻觉可能导致生成不准确或误导性信息,对于精度和可靠性至关重要的应用而言,这是一个重大问题。幻觉对于广泛实际应用LLMs构成了重大障碍。认识到这一挑战强调了开发自动化方法以识别LLMs输出中幻觉的紧迫性。

幻觉的类型可以大致分为两个领域:开放领域和封闭领域。

  • 开放域幻觉是由LLM所做出的关于世界的虚假声明。
  • 封闭领域的幻觉是模型偏离特定参考文本的背景,如摘要文件。

还应该注意到,并不是所有的幻觉都是不受欢迎的事实上,幻觉是LLMs创造力的原因。因此,有必要识别不受欢迎的幻觉并予以减轻。

高效准确地检测幻觉是减轻其影响的关键步骤。近年来,出现了几种有望用于此目的的有效技术。本文将深入探讨其中一些方法,概述它们各自的优势和缺点。

LogProbability的翻译为简体中文是:对数概率

这个技术来自于论文《在一堆干草中寻找针头:神经机器翻译中幻觉现象的全面研究》。该论文提出了Seq-Logprob,它计算训练模型P(y|x, θ)生成的翻译结果y中每个单词的长度归一化序列对数概率。如果一个模型正在"幻觉",那么它可能对其输出缺乏自信。这意味着模型的自信程度越低(通过Seq-Logprob来衡量),它产生幻觉的可能性越高。

Length-normalized sequence log-probability

Seq-Logprob的一个优点是其简洁性:与其他需要额外计算的方法不同,在翻译过程中可以轻松地获得Seq-Logprob分数。尽管它很简单,但该方法的一个主要缺点是,如果以一种模仿训练过程中学习到的统计属性或语言模式的方式生成了幻觉,Seq-Logprob可能无法有效地区分它与合法输出。此外,它需要访问LLM的内部参数,而在实际情况下通常是不可能的,例如使用类似黑盒的闭源LLM,如GPT。

G-Eval: G-Eval是一种全面评估系统,用于评估学生的学术表现和进步。它提供了一种可视化和直观的方式来跟踪学生在不同领域的表现,并为教师提供了丰富的数据和反馈来指导教学。G-Eval有助于促进学生的学习和发展,并为他们提供个性化的学习支持。无论是学生、家长还是教师,都能从G-Eval中获得有价值的信息和洞见,以便做出更明智的教育决策。

这项技术源自于论文《G-EVAL:使用GPT-4和更好的人类对齐度进行自然语言生成评估》。G-Eval是一个框架,它将LLMs与“思考链”(CoT)和填充形式的范例结合起来,以评估文章摘要的质量。首先,他们向LLM提供任务介绍和评估标准,并要求其生成一个评估步骤的CoT。然后,为了评估摘要的质量,他们将提示、CoT、文章和摘要连接起来,并要求LLM输出一个1到5之间的分数。然后,他们使用LLM输出“1”、“2”等标记的概率来产生加权平均评分。当概率不可用时,作者从LLM中随机抽取20次,并对样本中的评分进行平均,以标准化分数,并将其加权求和作为最终结果。

G-Eval 的优势在于它提供了可读的人类语言解释,通过推断过程中生成的思路链条文本。

G-Eval的一些缺点包括:

  • 它只能检测到闭域幻觉。
  • 它不具备成本效益,因为它使用了 RAG 和 CoT 系统,这两种系统都使用了大量的令牌。
  • 其疗效不如下面讨论的其他技术那么高。

自检GPT:

这项技术来自于论文「SELFCHECKGPT:用于生成型大语言模型的零资源黑盒幻象检测」。SelfCheckGPT的基本假设是,如果一个LLM了解了一个给定的概念,那么采样的回答很可能是相似且一致的。然而,如果这个概念是虚构的,高温采样得到的回答很可能是相异且相互矛盾的。

为了评估一致性,采用了不同的技术。

  • BERTScore:SelfCheckGPT会将句子与每个选定样本中最相似的句子进行比较,计算平均的BERTScore。如果一个句子的信息在许多选定样本中都能找到,那么可以合理地推断该信息是事实。另一方面,如果该陈述在其他样本中没有出现,那么很可能是一种虚构或离群值。
  • MQAG:SelfCheck-MQAG使用MQAG计算一致性,它是一个复杂的问题回答流程,使用四个经过优化的神经模型。该流程根据原始答案生成多项选择题,然后尝试仅使用额外的回答来回答这些问题。
  • NGram:SelfCheck-NGram通过拟合简单的一元语言模型并使用其在原始响应上的概率来计算一致性。

这些技术的结合在检测幻觉方面被证明是显著成功的。但是 SelfCheckGPT 的一些缺点是:

  • 由于必须对相同的回应进行多次采样(通常为20次),这种方式在成本效益上并不高。
  • 计算起来非常昂贵,因为需要计算BERTScore,这需要大量的计算。
  • 它只能检测开放域幻觉。

ChainPoll: 选择你的首个去中心化投票平台 Note: It is important to keep the HTML structure intact while translating the text.

这个技术来自于论文ChainPoll:一种用于LLM幻觉检测的高效方法。ChainPoll是一种新的最先进技术,用于检测封闭域和开放域的幻觉。与G-Eval类似,ChainPoll使用思维链技术来判断回复是否包含幻觉。ChainPoll相对于G-Eval的一些显著优点是它还可以检测开放域幻觉,并且更准确、更具成本效益。ChainPoll有两个版本-ChainPoll-Correctness用于开放域幻觉,ChainPoll-Adherence用于封闭域幻觉。ChainPoll的发布者还开发了RealHall,这是一套包含四个困难、现实的基准数据集,用于评估幻觉检测方法,因为现有的评估数据集几乎与当今LLM的实际用户无关。据注意到,ChainPoll在与一系列已发表的替代方案(包括SelfCheckGPT,GPTScore,G-Eval和TRUE)在RealHall上进行的对比中表现出色。

ChainPoll的一些显著优势包括:

  • 它可以检测到开放和封闭领域的幻觉。
  • 它不需要像SelfCheckGPT案例中那样的外部模型。
  • 它还比大多数其他技术更快速和更具成本效益。

结论:

在大型语言模型(LLMs)中检测和缓解幻觉的领域正在迅速发展,鉴于LLMs本身的新颖性。出现了各种有希望的技术,如ChainPoll、SelfCheckGPT、G-Eval、Seq-Logprob等,每种技术都有自己的优点和缺点。尽管取得了进展,但仍急需一种更高效、经济可行的幻觉检测方法,平衡计算效果和高效性。在现有选项中,ChainPoll似乎最接近满足这一标准;然而,它在成本和时间效率方面仍然存在缺陷,需要多个来自LLM的样本。这凸显了这个富有前景的领域进一步发展和创新的广阔空间。

2024-01-23 04:33:55 AI中文站翻译自原文