Qwen2.5 编程者:最优秀的编程 LLM

免费替代GPT-4o用于编程

Photo by Mohammad Rahmani on Unsplash

就在上个月,阿里巴巴发布了泉2.5版供一般用途,确实击败了一些主要竞争者。现在,专门的编码版本,泉2.5 编码师也发布了,并且大获成功!

如前所述,它已经在一些编码基准测试中击败了一些主要参与者,其中最好的部分是GPT-4o。

它是开源的,因此可以免费使用。

特点

  • 型号变种:QWEN2.5编码器系列包括具有0.5B、1.5B、3B、7B、14B和即将推出的32B参数的型号。重点是主要集中在7B变种上,该变种已经经过指令调整,以提高编码任务的性能。
  • 训练数据:这些模型已在一个庞大的数据集上进行了预训练,其中包含超过5.5万亿令牌。该数据集包括多样化的源代码,文本代码对齐数据以及生成的合成数据,以改善模型的健壮性和多功能性。
  • 体系结构:QWEN2.5 编码器采用了一个经过增强的变压器体系结构,配备了多种先进技术:

RoPE(旋转位置嵌入):提高模型理解令牌位置的能力。

SwiGLU激活函数:结合了ReLU和GLU激活函数的优点,以获取更好的性能。

RMSNorm:一种帮助稳定训练的归一化技术。

注意机制:利用自定义的注意机制,具有独立的查询和键/值头部,以改进上下文处理。

性能改进

QWEN2.5编码器在多个方面相比CodeQwen1.5显示出显著的改进:

  • 代码生成:增强功能,可生成符合语法规则和上下文相关的代码片段,支持多种编程语言。
  • 代码推理:提高了理解和推理代码逻辑的能力,使其对复杂编码任务更加有效。
  • 代码修复:更擅长识别和纠正现有代码中的错误。

基准测试

正如前面提到的,它在各种主要基准测试中击败了GPT-4o(并非全部)。但是鉴于它是免费提供的,它具有重大优势。

  • 辅助基准:QWEN2.5-Coder-32B 在辅助基准测试中得分为73.7,与GPT-4o的表现相当,表明在代码修复任务中与该模型不相上下。
  • Livebench 编程类别:在各种编程评估中,QWEN2.5 已被注意到在特定编程任务中优于 GPT-4o,展示了其在生成和推理代码方面的实力。
  • MdEval 基准测试:QWEN2.5-Coder-32B 得分为 75.2,高于 GPT-4o 在代码修复任务中的表现。
  • McEval基准测试:QWEN2.5编码器取得了65.9分的成绩,展示了在多种编程语言中表现出色,特别是在Haskell和Racket等语言中。
  • Livebench编码类别:QWEN2.5在这个类别内的特定编码任务中被注意到比GPT-4o的表现更好。
  • 代码生成基准测试:QWEN2.5-Coder-32B-Instruct模型在各种编码基准测试中取得了最先进的性能,表明其具有与GPT-4o直接竞争的全面能力。

如何使用 Qwen2.5 编码器?

许多方式

拥抱面

查看7B变体的模型详情。下面的代码片段应该可以工作(您可能需要一个HuggingFace Read令牌)。

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-Coder-7B")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Coder-7B")

奥拉玛

不带任何代码的本地使用,Ollama是最佳选择,该模型可供使用。

下载Ollama

运行

ollama run ollama run qwen2.5-coder

拥抱面部空间

HuggingFace Spaces也有一个UI托管,您可以直接进入并尝试模型。

总的来说,Qwen2.5 Coder标志着编码重点的大型语言模型领域迈出了重要的一步。凭借其出色的性能、开源可访问性和先进的架构改进,它将自己定位为针对其他领先模型(如GPT-4o)的强劲竞争对手。

无论您是想生成代码、理解复杂的编程问题,还是调试现有代码,Qwen2.5 Coder都提供了一个多功能且强大的工具集——完全免费使用。假设您是一名开发者或人工智能爱好者。在这种情况下,这个模型一定值得探索,而且它在Hugging Face和Ollama等平台上可用,更容易集成到您的项目中。

2024-11-14 04:15:30 AI中文站翻译自原文