双子座声称比ChatGPT更优越:我尝试复制他们的发现。

当我尝试过Gemini后,我并没有感觉到它的优越性,开始对它的声称产生了怀疑,这让我产生了一个问题:为什么呢?

如果你的第一个想法是,“他们在撒谎吗?”那是可以理解的;但是,我鼓励你不要继续沿着那样的思路去想。我相信Gemini的开发者们的诚信,质疑这一点并不是这个问题的关键所在。

等等,我们应该无条件相信他们的声明吗?

绝对不会;这就是科学的美妙之处:某人取得突破并发表论文后,其他人开始通过复制来验证研究结果。我们并不质疑个人的诚信;我们通过追求真理来推动科学的进步。

我会分析并试图复现MMLU基准测试,该测试用于展示Gemini在其网站上的优势。

The image features two abstract, side-facing head profiles, one blue and the other green, against a light background. They have simplistic inner designs, with the blue head showing concentric circles and the green head sporting a single swirl. Both have a pixelated trail behind them, suggesting digital fragmentation or assembly. The artwork conveys a modern, digital vibe, possibly representing technology or communication.
Creation of DALL·E 3 for this story.

分析MMLU基准结果

这是关于Gemini性能的技术报告:Gemini:一系列高度能干的多模态模型。

根据报告,在大多数任务中,吉米尼在页面7上的表格中表现优于GPT。

In the MMLU benchmark, Gemini Ultra leads with 90.04% accuracy using CoT@32 and achieves 83.7% with a 5-shot method. GPT-4 is close behind, scoring 87.29% for CoT@32 through the API and 86.4% for 5-shot. Gemini Pro follows with 79.13% accuracy with CoT@8 and 71.8% with a 5-shot. Lastly, GPT-3.5 reached 70% accuracy with the 5-shot method.
In the MMLU benchmark, Gemini Ultra leads with 90.04% accuracy using CoT@32 and achieves 83.7% with a 5-shot method. GPT-4 is close behind, scoring 87.29% for CoT@32 through the API and 86.4% for 5-shot. Gemini Pro follows with 79.13% accuracy with CoT@8 and 71.8% with a 5-shot. Lastly, GPT-3.5 reached 70% accuracy with the 5-shot method.

让我们解析MMLU的结果:该基准测试评估文本模型在数学、历史、计算机科学、法律等各种主题下的多任务准确性。高准确性要求模型具备广泛的知识和强大的问题解决能力:衡量大规模多任务语言理解。

测试详细信息位于GitHub上,可以从伯克利网站下载。问题遵循以下格式:

人体消化系统的哪个部分主要负责吸收水分?

A) 胃。B) 小肠。C) 大肠。D) 食道。

在开始测试之前,让我们先解释一些术语。

使用的工程技术,以提高答案的准确性:

  • CoT: 链式思维促使模型逐步解释其推理过程。
  • 五方案:少数样本提供了一个模型,在提问之前提供了一些例子和它们的预期答案。

结果的起源

  • 报道:他们使用了其他来源的数字,而没有进行自己的测试。
  • 通过API:通过API自行收集的结果。

让我们对每个术语中的* 星号也保持准确。

CoT@8 和 CoT@32:

该模型使用k=8或32个样本生成一系列思路。如果达成共识超过一个阈值(基于验证集划分选择),则选择该答案;否则,返回贪婪样本。请参阅附录9.1进行进一步分析。

通过API:

2023年11月,通过API自行收集的结果。

设计测试

这里有一些前提条件:

  • Gemini Ultra 应该与 GPT-4 进行比较。
  • 双子座 Pro 应与 GPT-3.5 进行比较。
  • 两个模型的提示应完全一致。
  • 结果应该是可复制的和开放接受挑战的。
  • 使用可供终端用户访问的API来评估两者。

重现结果可能具有挑战性,原因如下:

  • 我没有使用Gemini Ultra的权限,只能使用Gemini Pro。
  • Google报告了Gemini Pro CoT@8与GPT-3.5 5-shot的结果。
  • 我不明白为什么该网站将Gemini Ultra的CoT@32与GPT-4的5-shot进行比较,而没有与GPT-4的CoT@32进行比较,这似乎更合理。另外,不清楚为什么只有GPT-4有CoT@32的结果,而没有GPT-3.5。

让我们尽力而为,以我们所拥有的。

Translate English text to Simplified Chinese

Click the button below to translate the text.

我们将采用连锁思维方法来评估他们在MMLU测试中的表现。提示:

最初的

人体消化系统的哪个部分主要负责水的吸收?

A) 胃。B) 小肠。C) 大肠。D) 食管。

从解剖学的相关知识入手。分析每个选择,考虑解剖学的原则、事实和逻辑。为每个选择提供详细分析。

后续:

根据您的分析和推理,哪个选项似乎最合理,并且是正确答案?

最终

只给我正确答案选项的字母。

我们将使用纳米机器人来测试使用1,760个MMLU数据集问题的Ruby模型,对于正确回答的问题给予1分,对于错误或未回答的问题给予0分。GPT-4 Turbo(gpt-4-1106-preview)将评分模型的答案。

结果

A chart comparing Reported vs. Reproduced results. The following text will describe the content of these charts in detail.
Reported vs. Reproduced Results

水平条形图显示 Gemini Pro、GPT-3.5 和 GPT-4 的报告和重复结果。

  • 双子座 Pro:再现结果为63.98%,比报告结果的79.13%低。
  • GPT-3.5:复现的结果为63.75%,低于报告的结果70.00%。
  • GPT-4: 在87.29%的情况下,所报告的结果是三个中最高的,而再现的结果也非常接近,为85.91%。

双子座Pro和GPT-3.5的表现低于报告的数值,几乎相同,相差不到1%,而不是报告的9.13%。GPT-4的表现几乎与报告的数据相匹配,差异为1.38%。

你可以查看数据、分析细节并审核评估代码。

知识诚实

不信任我的结果并质疑它们的原因:

在API中,模型版本(gemini-pro、gpt-3.5-turbo-1106和gpt-4-1106-preview)可能与产生报告结果的版本不同。

应用的提示工程技术,将带有两个后续提示的思维链技术与报告中概述的CoT@8和CoT@32方法可能不同。

我相信GPT-4可以像AlpacaEval一样评估评价,但这种方法可能存在缺陷。人类同行评审会提供更可靠的评分。

测试模型可能会从MMLU数据集中污染数据。当模型从“泄漏”的测试数据中学习时,就会发生数据污染,从而扭曲结果,并导致模型复制答案而不是在新数据上进行推理。

根据包含13,709个问题的完整MMLU集,1,760个问题样本可能不足以得出结论。

我可能弄错了或者漏掉了一些东西。

结论

我的MMLU测试复现与GPT-4的结果相符,但与GPT-3.5和Gemini Pro的结果相矛盾,包括它们所报道的性能差距。目前仍在等待Gemini Ultra的访问权限,以检查其数据。为了科学的缘故,看到其他基准测试的复制将会很有趣。

无论如何,为什么我觉得GPT-3.5要比Gemini Pro好,尽管基准测试显示性能相似?好吧,这些基准测试可能不符合我的具体需求。

我正在设计一个新的补充性基准来展示我认为Gemini相对于GPT的位置,尽管我目前无法科学地证明: LBPE得分。

我很快就会分享关于它的信息。

2023-12-26 04:13:01 AI中文站翻译自原文