让我们弄清楚为什么ChatGPT变得懒惰了

你有没有注意到ChatGPT最近的性能变化？如果你是这个生成式人工智能工具的日常用户，你可能在过去几个月里观察到一些差异。这不仅仅是你的想象 - 最新模型GPT-4的表现出现了明显变化。虽然我们不太清楚原因，但社区似乎已经注意到了。我将向你解释最有可能的假设。

This realistic 3D-rendered scene depicts a professional office setting filled with robots from a ‘lazy robot squad’. Several robots are sprawled across desks and chairs, visibly asleep with their heads resting on desks and limbs in relaxed positions. The robots have a modern, metallic design, humorously portraying an exaggerated depiction of laziness in the workplace. — Lazy office robots — Generated by DALL·E 3

您听说过Hugging Face网站上的LMSYS Chatbot Arena排行榜吗？它就像一个显示AI模型排名的记分板，展示了哪些模型在领域中处于领先地位。

这个排行榜对用户和开发者来说都非常有用，因为它提供了哪些模型表现出色，哪些模型落后的指示。有趣的是，人们可能期望在排行榜上占据主导地位的新版本OpenAi或anthropic实际上排名低于它们的前辈。

Chatbot Arena Leaderboard — snapshot of Jan 18, 2024

GPT-4 的更新版本并非位于顶部，这可能出人意料：

GPT-4-Turbo — 发布日期：2023年4月 — Elo评分：1249
GPT-4–0314 — 发布日期：2023年3月 — Elo：1191
GPT-4–0613 — 发布日期：2023年6月 — Elo评分：1160

这与人类学模型相同。

克劳德-1 — Elo评分：1150
克劳德2.1 — 电竞等级：1131
克劳德2 — 赛季等级：1119

如果你想知道什么是Elo评分系统，那它是一种用于计算棋类等零和游戏中各玩家相对技能水平的方法。在这种系统中，玩家的评分会根据与其他玩家对局的结果增加或减少。

这意外的排名逆转表明最新的更新可能并非在每个方面都有所改进，并提出了一个关键性问题：为什么最新的不一定是最好的呢？

我希望最新版本是最强大的。然而，它们被评价的非按时间顺序排列并不反映出这一点。这表明新版本中的改进可能与用户所重视或期望的内容不一致。这可能是由于多种因素，包括模型训练数据的变化、算法的更新，或者其预期用途的转变。理解这些版本对于把握GPT-4的发展历程中的细微差别至关重要。

假設

以下所有内容都是基于ChatGPT的日常使用、对话和阅读的假设。正如您在上文中所见，这不仅仅是一种感觉。甚至OpenAI自己也谈到了这个问题。

如果您正在使用它来生成代码，这将令人惊叹。几周前，当我要求ChatGPT生成函数时，它生成了整个代码。我非常惊讶它能够生成如此长且复杂的内容。今天，如果我不要求它详细生成所有内容，90%的时间里，它不会生成整个代码，而是会添加注释，如“在此处理逻辑”，“执行与上述相同操作”或“实现”... 我在下面添加了最近得到的一个具体示例👇

// Implement this function based on how you store user IDs in your context
func getUserId(c *gin.Context) (uuid.UUID, bool) {
    ... [rest of your function code] ...
    return uuid.UUID{}, false
}

我认为OpenAI是有意为之，为了降低推理的成本（推理是根据之前的所有内容预测下一个词生成文本的过程）。在之前的一篇文章中，我详细解释了ChatGPT的运行基础设施可能造成的巨大成本。最新估计大约是每天70万美元左右。

在简单的ChatGPT界面背后，是一个复杂的高性能计算资源架构，这也意味着巨大的成本。这些成本可能会对模型的设计和运行产生影响。为了管理开支，开发人员可能会选择对模型进行微小的更改，以稍微降低其响应速度或复杂性。

AI模型在保持高质量和确保高效性能之间存在微妙的平衡。像量化这样的技术有助于进行管理，但它们也有自己的权衡。量化是一种减少模型中数值精度的技术（因为在内部，一切都是用数字表示的）。通常情况下，LLM模型（例如GPT）使用浮点数，这需要大量的内存和计算能力。通过量化，这些值被转换为较低精度的格式，例如仅保留小数点后的某些位数，从而减小模型的大小、内存使用量和功耗，提高其效率，同时尽量减少性能损失。这类似于GPT的高级版本。举个简单的例子，可以将其比喻为图像压缩。通过使用 .jpg 格式，你拍摄的照片看起来几乎与原始照片相同，但在计算机上占用的空间更小，显示的速度更快。

Sleepy office robots — Generated by DALL·E 3 as

最后，GPT-4在移动设备上与桌面设备上的行为不同。移动版本往往提供较短的回答，这可能是出于策略考虑，考虑到平台的性质。然而，这种差异凸显了用户体验如何根据设备而异。

在移动设备上，用户通常寻求快速和简明的答案，GPT-4的回答更短。这种适应可能会提升移动平台的用户体验，但也揭示了人工智能性能如何根据平台而显著变化。

结论

ChatGPT和其诸如GPT-4的迭代版本正在不断发展。虽然最新版本可能并非总是最好的，但它反映了人工智能开发中的持续进程。现在已经不再只是关于哪个模型将是最强大的，还考虑哪个模型将是最高效的，这对于可持续性和生态十分有益🌿 越来越多的新模型声称能与GPT媲美，同时需要更少的功耗和资源来运行，例如来自法国公司Mixtral的MISTRAL 7B和MIXTRAL 8X7B模型。

如果您对ChatGPT变得懒散有具体例子，请分享！另外，如果您有其他假设，请在评论中讨论！

谢谢阅读。如果你喜欢这篇文章，或者想鼓励我多写一些，请随意给个👏