英伟达Nemotron-70B:新的LLM击败了GPT-4o和Claude 3.5

在生成式人工智能竞赛中领先的顶尖LLM

Photo by Christopher John on Unsplash

现在已经成为常规惯例:由一个模型设定的生成式AI基准,将在接下来的10天或一个月内被另一个打破。在这个生成AI超级竞赛中,NVIDIA创造了新记录,发布了一个基于开源Llama3.1的模型Nemotron-70B,击败了像GPT4o和Claude3.5 Sonnet这样的主要竞争对手。

最好的部分在于这个模型只有70B个参数,相比之下远远少于Claude3.5或GPT4o。

它在各种评估指标上取得了令人印象深刻的分数:

竞技场难度:85.0

羊驼评估 2 LC:57.6

MT-Bench:8.98

您可以比较一下为什么Nemotron相对于其他SOTA LLMs被视为一件大事。

Model                   ArenaHard        AlpacaEval2LC     MT-Bench
Llama-3.1-Nemotron-70B 85.0 57.6 8.98
Claude 3.5 Sonnet 79.2 52.4 8.81
GPT-4o 79.3 57.5 8.74

这些指标将其置于自动对齐基准排行榜的榜首,超过了像Claude 3.5 Sonnet和Llama 3.1 405B这样的竞争对手。

如果这是你第一次听说这些指标:

  • Arena Hard: 这个分数反映了模型在Arena-Hard基准测试上的表现,该基准测试包括了500个具有挑战性的用户查询,这些查询来自于Chatbot Arena,这是一个用于评估语言模型的群策群力平台。
  • 阿帕卡评估2 LC:此指标衡量在阿帕卡评估基准上的性能,重点关注模型对指令提示做出准确响应的能力。它利用固定的805个指令集(全部为单轮提示),这些指令集代表了典型用户交互,来源于阿帕卡农场评估集。该数据集旨在反映 LLMs 面临的各种任务和挑战的多样性。
  • MT-Bench:该分数表示模型在MT-Bench上的表现,该评估通过将回答与基准(GPT-4-Turbo)在各种指标上进行比较。该基准由80个高质量的多轮问题组成,挑战LLM的对话能力。这些问题旨在评估对话流程和遵循指导能力的各个方面。

NVIDIA的Nemotron有什么独特之处?

多个事物,主要

RLHF 使用 REINFORCE 算法

为RLHF(即Llama-3.1-Nemotron-70B-Reward & HelpSteer2-Preference Prompts)提供新的奖励模型。

什么是RLHF?

  1. 该模型利用了REINFORCE算法,这是一种政策梯度方法,根据人类评估者的反馈更新模型的参数。这种方法使模型能够从错误中学习,并通过最大化其输出的预期奖励来不断改进。

如果您想阅读有关

强化算法

两种特定的奖励模型被纳入训练中:

  • Llama-3.1-Nemotron-70B-奖励: Llama-3.1-Nemotron-70B-奖励的主要功能是充当奖励模型,评估对话环境中回应的质量。它评估助手回应对话的最终转变,提供一个奖励分数,表示该回应的质量。

奖励模型是RLHF背景下的关键组成部分。它的作用是将人类偏好转化为数值,从而指导AI代理的行为。

  • HelpSteer2-偏好提示:这些提示通过将用户偏好整合到训练数据中,引导模型生成更有帮助和相关的答案。

帮助引导2-偏好提示

它包括对各种任务的详细用户反馈,捕捉特定偏好和整体评分。

偏好注释:用户指出他们的偏好回答并提供选择原因,丰富数据集。

注释随附人工编写的理由,为用户偏好提供背景解释。

过滤出在标注者之间存在显著分歧的任务,以确保高质量的数据。

如何使用这个模型?

免费接口可在此处获得

在本页底部列出了详细的步骤。

用这个方法,就算完成了。尝试使用在模型页面提到的NVIDIA NIMs模型!

2024-10-18 04:10:58 AI中文站翻译自原文