双子座声称比ChatGPT更优越：我尝试复制他们的发现。

当我尝试过Gemini后，我并没有感觉到它的优越性，开始对它的声称产生了怀疑，这让我产生了一个问题：为什么呢？

如果你的第一个想法是，“他们在撒谎吗？”那是可以理解的；但是，我鼓励你不要继续沿着那样的思路去想。我相信Gemini的开发者们的诚信，质疑这一点并不是这个问题的关键所在。

等等，我们应该无条件相信他们的声明吗？

绝对不会；这就是科学的美妙之处：某人取得突破并发表论文后，其他人开始通过复制来验证研究结果。我们并不质疑个人的诚信；我们通过追求真理来推动科学的进步。

我会分析并试图复现MMLU基准测试，该测试用于展示Gemini在其网站上的优势。

The image features two abstract, side-facing head profiles, one blue and the other green, against a light background. They have simplistic inner designs, with the blue head showing concentric circles and the green head sporting a single swirl. Both have a pixelated trail behind them, suggesting digital fragmentation or assembly. The artwork conveys a modern, digital vibe, possibly representing technology or communication. — Creation of DALL·E 3 for this story.

分析MMLU基准结果

这是关于Gemini性能的技术报告：Gemini：一系列高度能干的多模态模型。

根据报告，在大多数任务中，吉米尼在页面7上的表格中表现优于GPT。

In the MMLU benchmark, Gemini Ultra leads with 90.04% accuracy using CoT@32 and achieves 83.7% with a 5-shot method. GPT-4 is close behind, scoring 87.29% for CoT@32 through the API and 86.4% for 5-shot. Gemini Pro follows with 79.13% accuracy with CoT@8 and 71.8% with a 5-shot. Lastly, GPT-3.5 reached 70% accuracy with the 5-shot method.

让我们解析MMLU的结果：该基准测试评估文本模型在数学、历史、计算机科学、法律等各种主题下的多任务准确性。高准确性要求模型具备广泛的知识和强大的问题解决能力：衡量大规模多任务语言理解。

测试详细信息位于GitHub上，可以从伯克利网站下载。问题遵循以下格式：

人体消化系统的哪个部分主要负责吸收水分？

A) 胃。B) 小肠。C) 大肠。D) 食道。

在开始测试之前，让我们先解释一些术语。

使用的工程技术，以提高答案的准确性：

CoT: 链式思维促使模型逐步解释其推理过程。
五方案：少数样本提供了一个模型，在提问之前提供了一些例子和它们的预期答案。

结果的起源

报道：他们使用了其他来源的数字，而没有进行自己的测试。
通过API：通过API自行收集的结果。

让我们对每个术语中的* 星号也保持准确。

CoT@8 和 CoT@32:

该模型使用k=8或32个样本生成一系列思路。如果达成共识超过一个阈值（基于验证集划分选择），则选择该答案；否则，返回贪婪样本。请参阅附录9.1进行进一步分析。

通过API：

2023年11月，通过API自行收集的结果。

设计测试

这里有一些前提条件：

Gemini Ultra 应该与 GPT-4 进行比较。
双子座 Pro 应与 GPT-3.5 进行比较。
两个模型的提示应完全一致。
结果应该是可复制的和开放接受挑战的。
使用可供终端用户访问的API来评估两者。

重现结果可能具有挑战性，原因如下：

我没有使用Gemini Ultra的权限，只能使用Gemini Pro。
Google报告了Gemini Pro CoT@8与GPT-3.5 5-shot的结果。
我不明白为什么该网站将Gemini Ultra的CoT@32与GPT-4的5-shot进行比较，而没有与GPT-4的CoT@32进行比较，这似乎更合理。另外，不清楚为什么只有GPT-4有CoT@32的结果，而没有GPT-3.5。

让我们尽力而为，以我们所拥有的。

Translate English text to Simplified Chinese

Click the button below to translate the text.

我们将采用连锁思维方法来评估他们在MMLU测试中的表现。提示：

最初的

人体消化系统的哪个部分主要负责水的吸收？

A) 胃。B) 小肠。C) 大肠。D) 食管。

从解剖学的相关知识入手。分析每个选择，考虑解剖学的原则、事实和逻辑。为每个选择提供详细分析。

后续:

根据您的分析和推理，哪个选项似乎最合理，并且是正确答案？

最终

只给我正确答案选项的字母。

我们将使用纳米机器人来测试使用1,760个MMLU数据集问题的Ruby模型，对于正确回答的问题给予1分，对于错误或未回答的问题给予0分。GPT-4 Turbo（gpt-4-1106-preview）将评分模型的答案。

结果

A chart comparing Reported vs. Reproduced results. The following text will describe the content of these charts in detail. — Reported vs. Reproduced Results

水平条形图显示 Gemini Pro、GPT-3.5 和 GPT-4 的报告和重复结果。

双子座 Pro：再现结果为63.98%，比报告结果的79.13%低。
GPT-3.5：复现的结果为63.75%，低于报告的结果70.00%。
GPT-4: 在87.29%的情况下，所报告的结果是三个中最高的，而再现的结果也非常接近，为85.91%。

双子座Pro和GPT-3.5的表现低于报告的数值，几乎相同，相差不到1%，而不是报告的9.13%。GPT-4的表现几乎与报告的数据相匹配，差异为1.38%。

你可以查看数据、分析细节并审核评估代码。

知识诚实

不信任我的结果并质疑它们的原因：

在API中，模型版本（gemini-pro、gpt-3.5-turbo-1106和gpt-4-1106-preview）可能与产生报告结果的版本不同。

应用的提示工程技术，将带有两个后续提示的思维链技术与报告中概述的CoT@8和CoT@32方法可能不同。

我相信GPT-4可以像AlpacaEval一样评估评价，但这种方法可能存在缺陷。人类同行评审会提供更可靠的评分。

测试模型可能会从MMLU数据集中污染数据。当模型从“泄漏”的测试数据中学习时，就会发生数据污染，从而扭曲结果，并导致模型复制答案而不是在新数据上进行推理。

根据包含13,709个问题的完整MMLU集，1,760个问题样本可能不足以得出结论。

我可能弄错了或者漏掉了一些东西。

结论

我的MMLU测试复现与GPT-4的结果相符，但与GPT-3.5和Gemini Pro的结果相矛盾，包括它们所报道的性能差距。目前仍在等待Gemini Ultra的访问权限，以检查其数据。为了科学的缘故，看到其他基准测试的复制将会很有趣。

无论如何，为什么我觉得GPT-3.5要比Gemini Pro好，尽管基准测试显示性能相似？好吧，这些基准测试可能不符合我的具体需求。

我正在设计一个新的补充性基准来展示我认为Gemini相对于GPT的位置，尽管我目前无法科学地证明: LBPE得分。

我很快就会分享关于它的信息。

2023-12-26 04:13:01 AI中文站翻译自原文

🎅 特别圣诞促销：通过我们的优达米课程提升您的技能！🌟

ChatGPT中国站

一个非常温和的介绍大型语言模型的方式，没有夸大其词。

ChatGPT中国站

3000个ChatGPT提示信息

使用GPT构建器创建的10个走红的GPT

ChatGPT中国站

从打孔卡到ChatGPT

ChatGPT中国站

使用ChatGPT来加速商业应用中的角色塑造。 (Note: The translation "角色塑造" means "character development" or "creating a character" in the context of this sentence.)

ChatGPT中国站

3000 ChatGPT提示：综合评价

12个令人惊讶的免费AI工具！

ChatGPT中国站

8个赚钱的ChatGPT天才方式

ChatGPT中国站

为什么GPTs（通用预训练模型）还没有成为新的应用商店

ChatGPT中国站