OpenAI的网络爬虫和FTC的失误

OpenAI推出默认选择加入的网络爬虫以收集互联网数据，而联邦贸易委员会则对一起不明确的消费者欺诈调查展开调查。

ChatGPT中文站 — Photo by Giammarco Boscaro on Unsplash

随着人工智能的普及，对于数据专业人员来说，思考数据采集变得越来越重要。虽然最初一波高性能语言模型(LLMs)的训练采用了一种常见但有争议的数据爬取策略，但这种可疑做法最近备受关注，引发了诉讼和数据所有权的问题。本文将详细介绍背后的法律概念以及监管机构对这个问题的应对情况（剧透：效果不太好）。

从Towards Data Science编辑处的注意事项：虽然我们允许独立作者根据我们的规则和指南发布文章，但我们不会为每个作者的贡献提供背书。在寻求专业建议之前，您不应该仅凭作者的作品来进行依赖。详细信息请参阅我们的读者条款。

上周，OpenAI（ChatGPT 的制造商）正式宣布了他们的网络爬虫-这是一款从互联网上的所有网站抓取内容的软件，然后用于AI模型训练。网络爬虫的存在并不令人意外，目前已经有几个合法的网络爬虫存在，包括谷歌的爬虫，它索引整个互联网。然而，这是OpenAI首次明确宣布其存在，并提供了网站选择退出被抓取的机制。

请注意，默认情况下，爬虫是选择加入的，也就是说，您需要明确更改网站上的一段代码，要求爬虫不要抓取您的数据。加入/退出默认设置是粘性的，通常决定了大多数用户的行为，因为大多数人不会费心去更改默认设置。这也是为什么苹果的iOS14隐私变更对数字广告产业产生了重大影响的原因。

那么，为什么还要提供选择退出的选项呢？这很可能是OpenAI为了应对最近针对该公司提起的侵犯内容所有者版权的诉讼而采取的一种预防性举措（如果你想深入了解数据抓取的相关文章，可以进一步了解）。ChatGPT的竞争对手Google Bard面临着类似的挑战，但Google尚未宣布相应的解决方案，他们确实提出了一个评论请求，了解如何升级robots.txt以解决这个问题（文章用了一些巧妙的公关措辞）。

在本文中，我们将深入探讨：

OpenAI的爬虫对内容所有者的影响
FTC对OpenAI的当前调查
今天我们所处的法律环境
为什么FTC追击OpenAI的方式是（又一次）错误之举

OpenAI人工智能爬虫对内容所有者的影响

虽然该公告为广告商提供了一种选择，可以阻止OpenAI的爬虫程序对他们的数据进行抓取，但其中有几个问题不太好：

默认情况下它是选择加入的，这意味着 OpenAI 可以继续抓取，直到网站明确告知他们停止抓取为止。
在未经同意的情况下，为模型训练而刮取内容所有者的数据时，至今尚未有明确的法律裁决，这个问题可以归结为被强迫默认选择同意的任何人的情况。

今天，有两个法律构造确定了语言模型在没有同意的情况下是否可以获取所有这些数据-版权和合理使用。

+版权（在美国版权法第102条中）对特定类型的内容提供保护，但也有例外/豁免：

版权保护依照本标题规定，适用于以任何有形媒介固定的创作作品，不论是现在已知或将来开发出的媒介，通过这些媒介能够感知、复制或以其他方式传播，无论是直接传播还是借助机器或设备传播。创作作品包括以下类别：(1) 文学作品；(2) 音乐作品，包括任何附带的文字；(3) 戏剧作品，包括任何附带的音乐；(4) 哑剧和舞蹈作品；(5) 图像、图形和雕塑作品；(6) 电影和其他视听作品；(7) 音频录音；以及(8) 建筑作品。

(b) 鉴于任何创作原作的版权保护都不扩展到任何想法、程序、过程、系统、操作方法、概念、原则或发现，无论以何种形式描述、解释、说明或体现在该作品中。

例如，版权保护大多数原创作品（例如，如果你写了一篇关于某个主题的原创博客文章或书籍），但不保护广泛的观念（例如，你不能声称自己是第一个撰写人工智能对数据权利影响的人，因此这个观念属于你）。

另一个侵犯版权保护的例外是合理使用（美国版权法第107条）。

合理使用版权作品，包括通过复制品或声音记录或根据该部分指定的任何其他方式使用作品，以便进行批评、评论、新闻报道、教学（包括课堂使用的多份复制品）、学术或研究等目的，不构成侵权。

在确定任何特定情况下对作品的使用是否为合理使用时，需要考虑以下因素：（1）使用的目的和性质，包括使用是否具有商业性质或用于非盈利教育目的；（2）版权作品的性质；（3）所使用的部分在整个版权作品中所占比例和实质性重要性；以及（4）使用对版权作品的潜在市场或价值的影响。

例如，如果您从一篇研究论文中提取内容，并对其撰写评论，那是可以的，您不会侵犯内容所有者的版权。当我从本页面链接另一篇文章并添加引述其中的文本时，情况也是相同的。

这两个概念的创立是为了保护内容所有者的权利，同时也允许信息的自由流动，尤其是在教育、研究和批评的背景下。

我不是法律专家，但根据我的研究/对上述语言的理解，人工智能模型在爬取培训内容时存在一些模糊的地方。

AI公司通常从内容所有者的网站上爬取全文（这受版权保护），训练模型学习"观点" / "概念" / "原则"（这不受版权保护），然后最终模型生成不同的文本。在这种情况下，内容所有者是否获得版权保护？
由于经过训练的语言模型最终用于商业目的（例如，ChatGPT Plus是一个付费产品），这是否违反了内容所有者的版权（因为合理使用例外不再适用）？

在这个问题上尚无法预测结果，因为还没有任何法庭裁决。我个人不是律师，但我的观点是第二种情况可能更容易成立：OpenAI使用爬取的数据创建了一个商业产品，因此他们在《公平使用》条款下没有例外。我想第一种情况（模型是基于"想法"还是原创文本进行训练）很难说。请注意，这两种情况都必须有利于内容所有者才能胜诉，即只有在上述两种例外情况（"想法"例外或《公平使用》例外）都不适用于OpenAI时，内容所有者才能获胜。

我提及这个细微差别是因为在人工智能风险的广泛范围中（非详尽），从内容所有者的权利，到加剧欺诈，到工作自动化，到超级智能/人类毁灭等问题，眼下最紧迫的是内容所有者的权利问题，正如大量诉讼和对内容平台的影响所证明的那样（例如StackOverflow的故事）。

虽然像联邦贸易委员会（FTC）这样的监管机构可以考虑真正长期的问题，并提出假设性/创造性的方式来解决这些风险，但它们真正的短期潜力在于能够解决在未来5至10年影响我们的风险。比如版权侵权问题，这让我们关注起FTC正在采取的行动。

FTC目前对OpenAI的调查

在七月中旬，联邦贸易委员会（FTC）宣布正在调查OpenAI。令人感兴趣（以及沮丧）的是FTC调查OpenAI的原因。ChatGPT的制造商正在接受调查，以评估该公司是否违反了任何消费者保护法，将个人声誉和数据置于风险之中。听起来没有道理吗？你并不孤单。让我们更详细地介绍一下事情的背景。

FTC对AI监管问题最为强硬的立场是在四月份提出的：“法律对AI没有任何豁免，并且FTC将积极执法，以打击不公平或欺骗性行为以及不公平竞争的方式”。随后发生了几起与诽谤相关的问题：电台主持人马克·沃尔特斯起诉了OpenAI，因为ChatGPT指控他欺诈非营利组织，一位法学教授被ChatGPT错误指控性骚扰。

无论哪种情况，都会对相关人员造成困扰，我对此感同身受。然而，众所周知，语言模型（如GPT）及其基于其之上构建的产品（如ChatGPT）会“产生幻觉”，并且经常出现错误。FTC调查的前提之一是ChatGPT会产生幻觉，从而造成声誉损害。

在一次激烈的国会听证会上，一位代表（理所当然地）询问FTC为何追究诽谤和诬告等通常由州法律处理的事务。FTC主席Lina Khan给出了一个复杂的论证：

汗回应称，诽谤和诽谤不是FTC执法的重点，但是在人工智能培训中滥用他人的私人信息可能构成欺诈或FTC法案下的欺骗形式。汗说：“我们关注的是，人们是否受到重大伤害？伤害可能表现为各种各样的事情。”

为了总结全面的论点-FTC表示，ChatGPT的幻觉产生了不正确的信息（包括诽谤），这可能会构成消费者欺骗的形式。此外，敏感用户私人信息可能已被使用/泄露（基于OpenAI快速修复的一个错误）。

作为调查的一部分，FTC已向openAI要求了一长串事项——从有关他们的模型训练方式的细节，到他们使用的数据来源，再到他们向客户推销产品的方式，以及因为已确认的风险而暂停模型发布的情况。

问题是-考虑到当前的法律环境，FTC是否应该采取最佳方法来监管可能成为最大的人工智能公司之一的公司？

我们所经营的法律环境

为了对FTC与OpenAI的战略进行批评，了解我们今天所处的法律环境是很有用的。我们不会详细讨论，但让我们简要地以反托拉斯历史为例来说明：

在20世纪，大型联合企业（"财团"）的出现使得公私权力的平衡转向了这些公司。
作为回应，1890年通过了谢尔曼法案，增加了对私人权力的制约并保护竞争；这项法律被用于诉讼和打破从事反竞争行为（掠夺性定价、卡特尔交易、分销垄断）的“信托”组织。
大约在上世纪60年代，法官因根据法律的精神而非字面解释来进行判决而遭受了很多反对声。例如，对谢尔曼法进行解释以判断一组公司是否“不合理地限制贸易”涉及主观判断，法官被指责参与司法激进主义。
为了引入客观性，芝加哥学派创立了消费者福利标准——“法庭应该完全以消费者福利为准则”（例如，垄断企业明目张胆地提高价格是错误的，但对于其他活动，监管机构有责任证明对消费者造成了损害）。
这仍然是今天的标准之一，也是FTC和DOJ在打击科技巨头方面面临困难的原因之一 — 例如，FTC无法主张谷歌正在提高价格，因为他们的大部分产品都是免费的，即使谷歌参与其他反竞争行为。

由此带来的启示是——我们今天的运作环境仍然是一个非常依靠"法律的字面意义"而非"法律的精神意义"来开展诉讼的世界。这一点，再加上如今美国最高法院的组成，导致了对法律的相对保守解释。

对FTC来说，这意味着要接受这个现实环境，并找到一种赢得案件的方法。FTC和DOJ的运作模式（理所当然地）是针对少数重大案件进行严厉执法，以此让那些小公司谨慎违法。为了实现这一目标，FTC需要在少数问题上取得重大胜利，并在当前法律环境的限制下拥有获胜策略。

为什么美国联邦贸易委员会对OpenAI采取的方法是（又一个）错误之举。

FTC一直在与科技巨头们的诉讼中屡屡失败，我认为这些败诉可以归因于一种失败的“我们憎恨所有科技巨头”的战略，即过激而不精准的策略。

例如，垄断法委员会采取了一种很野蛮的方式来阻止微软与动视暴雪合并，但结果却很糟糕（我要说相当糟糕）。垄断法委员会认为微软收购动视暴雪将会扼杀游戏市场上的竞争。法官对此作出了相当坦率的裁决，驳回了垄断法委员会的所有论点，以下是法官的一则评论：

没有内部文件、电子邮件或聊天记录与微软公开表示不将使命召唤系列独占于Xbox游戏机的意图相矛盾。尽管在FTC行政调查中完成了广泛的相关证据搜集，包括提交了近100万份文件和30次证人出庭作证，FTC仍未找到一份文件与微软公开承诺使命召唤系列能在PlayStation（和任天堂Switch）上游玩相矛盾。

另一个强硬手法的例子是FTC试图阻止Meta收购VR公司Within，但他们失败了。他们为什么要这样做呢？他们想要试探一下在某个市场变得庞大之前，是否有阻止收购的意愿，并且考虑到目前的法律环境，结果可预料地被驳回了。

FTC对OpenAI的调查存在类似问题：

他们正在追求（在我看来）相当琐碎的问题，这是语言模型的已知限制 — 幻觉；他们应该转而关注实际上在未来 5-10 年内具有重要意义的人工智能问题，比如版权问题。
尽管当前的法律环境中已经否定了多种“创造性”的法律手段，但他们正试图另辟蹊径提出一项新的创造性论点：幻觉→诽谤→消费者误导。

他们行动的慷慨解释是他们希望为他们“人工智能不享受现有法律豁免”的立场设立先例，并且这场“逐鹅”游戏使他们从OpenAI获得了大量的自行报告数据（FTC要求提供20页信息）。

然而，考虑到他们一再追求强力手段/针对任何大型科技公司不具竞争力的方法，并结合那些在法庭上一再被驳回的创造性主张，我相信FTC在这个案件中没有获得优势可疑的好处。

结论

我坚决认为OpenAI应该受到监管。并不是因为他们的LLM会产生幻觉（当然会），而是因为他们明目张胆地未经允许使用创作者的内容。这不是为了改变过去，而是为了帮助创作者为将来打下健康的基础，以保护他们的内容所有权（是否被法院视为版权侵权还有待观察）。

如果美国联邦贸易委员会继续重复采用锤子而非手术刀的方法，就不会发生这种情况。以手术刀的方式成功应对大型科技公司已经有充分的先例，其中最著名的案例就是英国竞争与市场管理局。他们在与谷歌的两个重要案件中侧重于特定的反竞争机制：阻止谷歌对其AdTech技术堆栈中自家产品的优先处理，并允许其他提供应用内支付服务的支付提供商。

如果联邦贸易委员会继续沿着他们目前的道路前进，他们的连败将会使科技公司更加大胆地继续任意行事，因为他们知道他们可以在法庭上获胜。现在是联邦贸易委员会反思自己的失败，从其他监管机构的成功中吸取经验，并纠正错误的时候了。

如果您喜欢这篇文章，请考虑订阅我的周刊。每周，我都会发表一篇深度分析的文章，内容涵盖当前的科技话题/产品战略，阅读时间约为10分钟。最好的祝福，Viggy。