ChatGPT用于AI内容检测

对OpenAI的GPT-4o检测人工智能生成文本能力的评估

source: https://www.asmag.com/showpost/33665.aspx

只是一个月前,我和朋友讨论了AI指纹——AI参与生成内容的证据。我认为水印文本会很困难,不像其他生成的媒体(图片、视频和音频)可以有数字嵌入。但是噢!它们已经到我们这里了 😩!

AI指纹帮助解决生成AI带来的重要问题,比如深度伪造和错误信息。

AI 指紋

随着高质量的人工智能生成媒体的普及,质量达到了几乎人类水平的程度,越来越难区分人类创作和人工智能生成的内容。2024年3月,欧盟通过了人工智能法案,要求人工智能系统的提供商将他们的产出标记为人工智能生成的内容。这种标记要求旨在让用户能够识别何时与人工智能系统生成的内容进行交互,以应对诸如换脸视频和虚假信息等问题。这就是人工智能指纹技术变得重要的地方。

AI指纹识别是一种将数字内容来源识别为AI的方法。这类似于一个人的指纹,或者一个艺术家的签名。

在最基本的层面上,人工智能指纹可以采取简单的水印或图章形式(特别是视觉内容)。更复杂的方法是将微妙的图案嵌入到只有计算机才能检测的内容中。 Google的SynthID是一种专门用于给人工智能生成的内容加水印和识别ID的工具,包括文本,这对需要免费论文作家的大学生和奖学金申请人来说是一个重要工具。

文本水印是通过强制模型在生成过程中偏爱某些词,而不会损害质量,当生成较长文本时变得更加稳健。

文本的统计水印

文字水印是一个非常有趣的话题。你怎么给文字加水印呢?这是通过一种叫做统计水印的技术来实现的。对于文字来说,这涉及到使语言模型随机偏爱某些词汇并避免其他词汇,这取决于之前出现的内容。

统计上来说,水印文字在生成长篇内容时非常成功。然而,谷歌声称SynthID只需3句话就可以完成这一工作。

考虑到切文宁禁止使用AI工具来生成文章[3],我决定研究“捉猫”的工具。我尝试了第一个工具ChatGPT 4o。以下是我的过程。

ChatGPT水印检测

我给了ChatGPT一个角色扮演提示。作为一个AI内容探测器,它的目标是识别文本来源中的模式,并根据自己的感知评估文本中具有AI输入的百分比。

“AI content detector” role-playing prompt sent to ChatGPT

在撰写本文时,OpenAI并未对生成的文本应用水印(哦!阿巴西素素ඝ!🙇🏽‍♂️🙏🏽)[6,7],因此我无法针对任何具体内容提示模型。只是一个零提示。

测试完全由人工智能生成的内容

这个示例文本是通过ChatGPT生成的,用于我针对专业人士和创作者的Prompt Engineering课程的定价理由,以下是模型的估算:

Content ratings for AI assistance by ChatGPT on a 100% AI content

它根据“人工智能生成的文本中常见的高度精湛的结构、专业的语调和重复的用语”,将人工智能辅助的整体可能性评为75%。请查看以下链接中的完整聊天👇🏽。

打开一个新的聊天窗口,我用一个修改过的版本的定价理由文本给了相同的提示 — 这个文本是由ChatGPT以0.9的温度设置和0.7的频率惩罚重新编写的。这一次,该模型给出了80-90%的整体评分。

Content ratings for AI assistance by ChatGPT on a 100% AI content: 2

使用人工智能辅助内容进行测试

在同一个聊天中,我提供了我几周前写的一首诗。说实话,我写《天上的证人》83%都是自然创作的。通常,我所有的艺术作品都是我自己写的,只用ChatGPT来评估语气和参与度,使用Llama 3来制定标题和SEO关键词选择。然而,在这个特别的场合,我在最后一节出现了写作障碍,因此我请ChatGPT提供写作帮助。

虽然我最初认为模型回应的前两个版本侮辱了我的创造力,但输出是不完整的。因此,第三个版本使用了整体AI辅助评分为70-80%。请查看评分和完整聊天记录。

The first two incomplete generations
Content ratings for AI assistance by ChatGPT on a 17% AI content

我通常会删除我发送给ChatGPT的任何艺术作品,除非我想让OpenAI对其进行训练(我不想)。 (这就是我原创性的证据!)

使用完全由人类创建的内容进行测试

最后,我打开了另一个具有相同提示的聊天。 这次的示例文本是我2020年著作《信仰手册》中的几段文字。 这里是模型的评分:

Content ratings for AI assistance by ChatGPT (4)

以85%的整体评级,ChatGPT评定我的工作得到了高度的AI协助。直到2021/22年我甚至还没有开始使用Grammarly,更别提了解GPT2了。(详细评估见下文。)

在这个实验中,我感到受宠若惊,ChatGPT认为我的工作写得太棒了😊。

我也意识到,尽管ChatGPT在文本内容中具有一定的模式检测能力,但它并不是一种高精度的AI检测工具。结果显示存在偏见,模型倾向于将内容标记为AI辅助。这些情况表明,尽管ChatGPT的能力很有见地,但并不适用于可靠的AI内容检测。

在测试中显著的一点是,ChatGPT倾向于关注表面层次的属性,比如精美的措辞或重复的结构,这些属性通常在人工智能生成和高质量人类写作中都存在。例如,当评估完全由人类创作的内容时,仍然有很大可能性会返回AI参与。这强调了区分人类和人工智能生成文本之间的专门手段的必要性。

结论

1. ChatGPT 在人工智能检测方面的局限性:该工具可以检测广泛的风格模式,但并不是为了捕捉嵌入式水印或提供对人工智能参与的明确评估。其估计是基于模式而不是具体证据,可能会导致潜在的高估,就像在我的写作中看到的情况一样。

2. 假阳性令人担忧: 该模型以显著的置信水平将人工创建的内容标记为AI辅助,引发了假阳性的问题。 这在现实世界的应用中可能会带来问题,特别是在那些错误分类造成后果的环境中,比如在学术或专业写作中。

3. 专用水印工具至关重要:虽然ChatGPT可以提供有关结构和语调的洞察,可能表明AI的参与,但更可靠的结果将来自专门开发用于水印检测的工具。这些工具可以使用更复杂的技术,如统计水印或隐藏标记,这些技术不太依赖表面模式。

总之,我对ChatGPT作为AI内容检测器的探索揭示了,虽然它对于一般模式识别很有用,但不应被视为检测AI生成文本的解决方案。我鼓励那些有兴趣评估他们的写作是否涉及AI的人去探索专门为此目的开发的工具。

如果你在想如何打败水印文本生成器,这是我发现的内容:

Excerpt from “There’s a Tool to Catch Students Cheating With ChatGPT. OpenAI Hasn’t Released It”

感谢阅读。

PS:你能分辨出这篇文章是由人工智能生成的吗? 😈

参考资料

[1] AI法案中的AI水印要求是追求透明度的一个错误步骤。

[2] 数字水印技术简介:检测人工智能指纹:从水印技术到更深层次的探讨

[3] 抄袭和人工智能:常见的应用错误

[4] 统计水印:检测人工智能指纹:水印技术及更多的指南

[5] 合成ID

[6] 多年的辩论:有一种捕捉学生作弊的工具叫做ChatGPT。OpenAI尚未发布它。

[7] “哦!Abasi sosoŋo!”是一种伊比比奥语短语,翻译为“哦!感谢耶稣/上帝。”

Stackademic 🎓 编程巅峰 🎓

感谢您一直阅读到最后。在您离开之前:

  • 请考虑为作者鼓掌并关注!👏
  • 关注我们 X | 领英 | YouTube | Discord
  • 访问我们的其他平台:简明英语 | CoFeed | Differ
  • 在Stackademic.com上查看更多内容。

2024-10-10 04:25:58 AI中文站翻译自原文