新闻学与人工智能,决战开始。

A New York Commuter reads a newspaper on the Metro

这起诉讼声称《纽约时报》的“数以百万计”的文章被未经许可使用来提升ChatGPT的智能,并声称该工具现在作为一个可信的信息来源正在与该报竞争。

《纽约时报》将这场争斗直接发起给OpenAI和微软。他们提出了一个公平的观点,即这些人工智能公司的大型语言模型市值是建立在他们并未创建或拥有的内容上。很大程度上将取决于法院对于何为公平使用和/或变形使用的定义或重新定义情况。

我喜欢新闻工作。我认同维持一个可靠的新闻采集机构的重要性,这其中包括记者、撰稿人、研究员、事实核查员和编辑,这些都需要花费资金。我相信完善的大报纸生态系统是对于宣传和那些更愿意避开审查的权力来源的重要制衡力量。实际上,我还是《纽约时报》的全额付费订阅者!

这是我不喜欢的。《纽约时报》似乎更新了它的robots.txt文件,以防止LinkedIn从他们的网站上提取社交摘要和缩略图。我不想在他们的网站上搜索文章;我希望在谷歌新闻上能看到他们的内容。我不想与《纽约时报》指定的聊天机器人交谈;我希望通过我选择的通用人工智能聊天机器人(如Bard,ChatGPT或其他致力于技术投资的机器人)来访问他们的内容,以使这些内容尽可能有用和易于获取。

那么,这将引导我们到哪里呢?一个训练数据跟踪系统,根据使用的源材料比例支付人工智能生成内容的版税?这是否通过某种预先计算的潜空间提取来实施,还是一种后期生成的“剽窃”检测器,带有所有可能的延迟?我怀疑这两种方法都不可行。

最终,纽约时报的内容有可能滑入一个黑暗网络的黑洞,无法再在自身域外被访问或合作。这与过去25年来革新媒体格局并赋予记者通过谷歌和必应等公司在自己的电脑上轻松开展调查研究的互联互通相背。更不用说人工智能已经使得商业财经和体育比分等细分内容的报道自动化成为可能了。

这里有一个先例。鲁珀特·默多克在2010年阻止谷歌新闻发布摘要。结果是:他们的流量大幅下降。然后,两年后,新闻集团发现如何编写更好的内容,保留了自己域名上的免费流量,并随时以其方便进行货币化,这是一个十分尴尬的转变。

当你发现石油时,你不仅需要估计储量中的桶数,还需要考虑开采成本。这将给出每桶的实际美元价值。有时,过于热衷的采油工程师和报纸出版商会忽略这个计算中的部分。

报纸、Reddit、Twitter、Facebook、GitHub和Stack Overflow都发现了自己的数据湖具有可持续变现的潜力。我希望人工智能公司和这些内容提供者之间能够达成一种公平的利润分享,以确保新闻业的未来和更好地满足受众需求的新平台的出现。现在,我们开始努力使这成为可能和可行。

2024-01-01 04:29:07 AI中文站翻译自原文