英伟达Nemotron-70B：新的LLM击败了GPT-4o和Claude 3.5

在生成式人工智能竞赛中领先的顶尖LLM

现在已经成为常规惯例：由一个模型设定的生成式AI基准，将在接下来的10天或一个月内被另一个打破。在这个生成AI超级竞赛中，NVIDIA创造了新记录，发布了一个基于开源Llama3.1的模型Nemotron-70B，击败了像GPT4o和Claude3.5 Sonnet这样的主要竞争对手。

最好的部分在于这个模型只有70B个参数，相比之下远远少于Claude3.5或GPT4o。

它在各种评估指标上取得了令人印象深刻的分数：

竞技场难度：85.0

羊驼评估 2 LC：57.6

MT-Bench：8.98

您可以比较一下为什么Nemotron相对于其他SOTA LLMs被视为一件大事。

Model                   ArenaHard        AlpacaEval2LC     MT-Bench
Llama-3.1-Nemotron-70B     85.0                57.6          8.98
Claude 3.5 Sonnet          79.2                52.4          8.81
GPT-4o                     79.3                57.5          8.74

这些指标将其置于自动对齐基准排行榜的榜首，超过了像Claude 3.5 Sonnet和Llama 3.1 405B这样的竞争对手。

如果这是你第一次听说这些指标：

Arena Hard: 这个分数反映了模型在Arena-Hard基准测试上的表现，该基准测试包括了500个具有挑战性的用户查询，这些查询来自于Chatbot Arena，这是一个用于评估语言模型的群策群力平台。
阿帕卡评估2 LC：此指标衡量在阿帕卡评估基准上的性能，重点关注模型对指令提示做出准确响应的能力。它利用固定的805个指令集（全部为单轮提示），这些指令集代表了典型用户交互，来源于阿帕卡农场评估集。该数据集旨在反映 LLMs 面临的各种任务和挑战的多样性。
MT-Bench：该分数表示模型在MT-Bench上的表现，该评估通过将回答与基准（GPT-4-Turbo）在各种指标上进行比较。该基准由80个高质量的多轮问题组成，挑战LLM的对话能力。这些问题旨在评估对话流程和遵循指导能力的各个方面。