亚马逊Bedrock与Azure OpenAI:定价考虑

Source: Image by the author.

亚马逊一直受到分析师和自家客户对其人工智能项目的质疑。稍微倾听一下其第三季度收益电话会议就能得知,他们确实在倾听意见。亚马逊在生成式人工智能方面的许多努力最终得以实现两个重要的发布:Bedrock和Titan。

但是,运输人工智能和赢得真实世界的客户是两回事。Bedrock与OpenAI相比如何?在两种情况下,我们发现亚马逊Bedrock模型相比对应的Azure OpenAI模型提供了30%和惊人的556%的节省(详见情景描述)。

亚马逊底座

Bedrock是一个完全托管的无服务器服务,通过单个API提供用户访问来自多个第三方提供商和亚马逊的FM。在选择要使用的FM之后,您可以私下自定义它并连接您的专有数据源和知识库。

基岩支持的模型

Azure开放人工智能

Azure OpenAI是Azure和OpenAI之间的合作伙伴关系,使Azure用户可以通过API、Python SDK或其基于Web的界面使用OpenAI,并通过验证其Azure云凭据进行身份认证。Azure OpenAI通过提供共同开发的API、增强安全性和私有网络与OpenAI区分开来。在本文中,“OpenAI”一词专指Azure OpenAI,以简洁起见。

OpenAI 支持的模型

亚马逊基岩 vs 微软Azure OpenAI功能对比

OpenAI肯定具有很高的知名度。因此,人们普遍认为它在其他生成AI服务方面遥遥领先。然而,正如Caylent的云策略与创新副总裁Randall Hunt在Yan Cui的《现实世界的无服务器》播客中所说:“OpenAI在做事情方面并没有什么特别好的地方,只是恰好是我们第一次通过界面看到这些语言模型的强大能力。”尽管如此,GPT-4普遍被认为是在纯质量方面的领导者。

服务比较

让我们在服务和模型层面上比较一些功能,看看它们的表现如何。由于这是云端服务,当比较Bedrock和OpenAI时,我们需要考虑诸如支持的地区和安全性之类的因素。

  • 文档/社区:准确地量化文档和社区支持是具有挑战性的,但根据个人评估,可以说这两项服务的文档至多仅仅满足了要求。有很多缺失的信息和不规范的说明。这很可能是因为这两项服务及其内部模型都非常新,并且不断发生变化。
  • 无代码游乐场:虽然这两个服务都可以通过API和SDK进行访问,但是无代码游乐场可以作为一个有帮助的接口来利用一些模型。
  • Amazon Bedrock Playground (left) Azure AI Studio Playground (right)
  • 预置吞吐量:Bedrock为某些模型类型提供了预置吞吐量付款计划,对于大型工作负载非常有利。

模型对比

同样,在比较各自类别内的模型时,需要考虑几个因素,如最大标记数、支持的语言和训练数据日期。稍后,我们将深入讨论定价和性能。

  • 最大令牌数:模型类别和类型的最大令牌数范围。- 嵌入模型:Bedrock和OpenAI都有8k令牌的模型。- 图像生成模型:字符到令牌的对应关系各不相同,但是1000个字符大约对应250个令牌。因此,DALL-E的令牌数比Stable Diffusion和Titan Image Generator要多。- 语言模型:Bedrock和OpenAI都提供4k和8k令牌选项的模型。OpenAI还扩展了16k和32k令牌的范围。Bedrock和OpenAI分别提供了100k和128k令牌的模型(相当于令人印象深刻的300页信息)。然而,Claude模型以令人印象深刻的最大容量200k令牌获得了冠军。这相当于500页的信息。
  • 支持的地区:Bedrock 在七个分布式地区可用。ChatGPT 在15个分布式地区可用,每个模型的地区略有不同,大多数地区只能访问少数模型。
  • 支持的语言:基岩语言容量因模型而异。Command,Embed - 仅支持英语,Llama 2,Stable Diffusion,Titan Image Generator,Titan Multimodal Embeddings和Titan Text Lite。Jurassic支持7种语言,Claude支持12种以上,Titan Embeddings支持25种以上,而Embed - 多语言和Titan Text Express支持超过100种语言。有关具体支持的语言,请查看模型页面。OpenAI关于支持的语言提供的信息较少,但此响应声称它可以在多种语言中使用。
  • 训练数据日期:OpenAI的模型Ada、GPT-3.5 Turbo、GPT-4和基础模型的训练截止至2021年9月。GPT-4 Turbo的训练截止至2023年4月。Bedrock的训练数据日期稍难找到,我们不得不去回顾提供者的网站才找到,目前公开的日期只有Claude(2022年12月)和Jurassic(截至2022年中)提供的。

基岩定价

Bedrock的收费适用于模型推理和定制。模型推理有两种可用的计划:按需和预留吞吐量。模型定制和预留吞吐量对于所有模型都不可用。价格因地区而异。

按需求

非承诺、按使用付费的选择。费用根据模型类型而异。文本生成模型按输入标记处理和输出标记生成收费。嵌入模型按输入标记处理收费。图像生成模型按生成的每个图像收费。

预置吞吐量

您有购买模型单位的选项(根据每分钟处理的最大输入/输出令牌数量来衡量的特定吞吐量)。定价按小时计费,您可以选择一个月或六个月的期限。这种定价模型最适合“需要保证吞吐量的大型一致推理工作负载”。

模型定制化

根据已处理的令牌数量和模型存储,您将被收取模型定制的费用。请记住,使用多个模型单元进行推理仅适用于预配吞吐量。

Azure开放AI定价

对于OpenAI的费用非常简单。这是按使用付费,没有任何承诺。还有额外的定制费用。价格因地区而异。

按需付费

费用因不同的模型类型和使用情况而异。文本生成模型按照输入提示和完成标记的数量计费。嵌入模型和基础模型按照使用标记的数量计费。图像生成模型按照生成100张图片的数量计费。

模型定制化

模型定制化收费基于训练时间和托管时间,不同地区的定价略有不同。

定价对比:Bedrock vs OpenAI

在逐个模型比较中,Bedrock比OpenAI更便宜。然而,成本并不能完全揭示全部情况,以下场景仅基于定价分析。

标准上下文窗口:Command,Llama 2,Titan Text对比GPT-3.5 Turbo 4k

对于低容量模型,我们想要执行诸如聊天、文章摘要、问答等任务,可以考虑使用最多4k个令牌的模型之一。有一个符合条件的OpenAI模型,即GPT-3.5 Turbo 4k,以及多个Bedrock模型,包括Command、Llama 2、Titan Text Lite和Titan Text Express。Command和GPT-3.5 Turbo 4k的定价相同,每1000个输入令牌为$0.0015,每1000个输出令牌为$0.002。

Titan Text Lite的价格更便宜,每1000个输入标记为$0.0003,每1000个输出标记为$0.0004。Llama 2的价格是每1000个输入标记为$0.00075,每1000个输出标记为$0.001。另一个选项是Titan Text Express,与Lite版本的区别在于它具有检索增强生成能力和最多8k个标记。其价格为每1000个输入标记为$0.0008,每1000个输出标记为$0.0016,比GPT-3.5 Turbo 4k更便宜。

聊天机器人场景:Titan 文本速递 对抗 GPT-3.5 Turbo 4k

考虑以下情境,你想要开发一个简单的客户服务聊天机器人。这个聊天机器人需要能够处理客户的咨询,提供帮助,并回答与你的产品和服务相关的各种话题的问题。该模型需要能够处理简短的句子以及更详细的讨论。

一个标准问题大约包含15个标记,而答案则可能为85个标记。如果您的聊天机器人每月回答250,000个类似长度的问题,预计费用将为:

15个记号 X 250,000个问题 = 3,750,000个输入记号

85个令牌 x 250,000个答案 = 21,250,000个输出令牌

泰坦文本快递:3,750,000 输入记号 / 1000 X $0.0008 + 21,250,000 输出记号 / 1000 X $0.0016 = $37

GPT-3.5 Turbo 4k: 3,750,000 输入标记 / 1000 X $0.0015 + 21,250,000 输出标记 / 1000 X $0.002 = $48

GPT-3.5 Turbo 4k比Titan Text Express多30%,使Bedrock成为更便宜的选择,适用于容量较低的模型。

长上下文窗口:长上下文窗口:侏罗纪2对GPT-4 8k

对于更高级的任务,例如高级信息提取、草案生成和对较大篇章的概括,让我们来比较一些具有8k标记(token)上限的模型。在侏罗纪2(Jurassic-2)的模型中,Ultra模型因其精细的创意而脱颖而出,因此与GPT-4 8k相比效果很好。与GPT-4 8k每1000个输入标记和每1000个输出标记分别为0.03美元和0.06美元相比,侏罗纪2 Ultra的价格要便宜得多,每1000个输入标记和每1000个输出标记仅需0.0188美元。

长上下文窗口:Claude Instant vs GPT-3.5 Turbo 16k

对于更大的任务,请考虑使用 Claude Instant(最多100,000个标记)和 GPT-3.5 Turbo 16k(最多16,000个标记)。性能和定价相对相似。然而,选择更加依赖于具体情况,因为 Claude Instant 的收费是每1,000个输入标记收取0.0008美元,每1,000个输出标记收取0.0024美元,而 GPT-3.5 Turbo 16k 的收费是每1,000个输入标记收取0.003美元,每1,000个输出标记收取0.004美元。因此,由于更低的定价,对于更多的输入标记和较少的输出标记量,选择 Claude Instant 是一个很好的选择。

长文本上下文窗: 克劳德 vs GPT-4 32k

对于具有非常高级任务的高容量模型,例如内容生成和复杂推理,请考虑Claude vs GPT-4 32k。Claude具有惊人的最大容量为100k个标记,而GPT-4 32k则提供32k个标记。由于Claude每1000个输入标记只需$0.008,每1000个输出标记只需$0.024,因此Claude是一个很好的选择。GPT-4 32k每1000个输入标记的费用是$0.06,每1000个输出标记的费用是$0.12。

文本摘要场景:克劳德对GPT-4 32k

您在一家内容创作代理机构工作,需要为客户总结冗长的文章和报告。您希望处理大约25,000个标记的文章,并将其总结为约5,000个标记。如果您每月处理300篇文章,请考虑以下估计价格:

25,000个词汇 X 300篇文章 = 7,500,000输入词元

5,000个标记 X 300个回答 = 1,500,000个输出标记

克劳德:7,500,000 输入代币 / 1000 X $0.008 + 1,500,000 输出代币 / 1000 X $0.024 = $96

GPT-4 32k:7,500,000 输入记号 / 1000 X $0.06 + 1,500,000 输出记号 / 1000 X $0.12 = $630

克洛德非常具有成本效益,将Bedrock定位为更经济的选择,在这种情况下可节省556%的费用。

从功能角度来看,这篇文章对这两个模型的功能进行了深度比较,并得出结论,即 GPT-4 32k 的表现稍微更好。一些要点是代码生成和转换方面的类似表现,GPT-4 32k 在数据集分析和数学技能方面表现更佳,而 Claude 在超过32k个标记的文本总结能力方面有着独特的能力。

结论

在比较Bedrock和OpenAI时,有许多要考虑的方面,例如地区可用性、令牌数量、模型质量和价格等。基于多样的模型、更低的价格以及来自Claude模型的大令牌上限,我们认为在不需要绝对最佳性能的应用程序中,Bedrock越来越具有竞争力。

最初于2023年10月31日在https://www.vantage.sh发布

2024-01-18 04:28:18 AI中文站翻译自原文