人工智能:即使体积很小,也能有巨大的发展。 RTZ#536

… 从大型语言模型到小型和微型模型(LLM、SLM、TLM)

更大的画面,星期天,11/10/24

在今年的AI技术浪潮中,重点大部分放在AI计算(GPU、数据中心、功率、内存、网络、人才)的数十亿美元以及其他需要的输入上,以使AI规模进一步扩大。并且以摩尔定律的倍数不断前进,直至实现AGI。但重要的是不要忽略光谱的另一面。

不仅是大型语言模型(LLMs)推动人工智能推理和主动特性,正如我之前强调的,小型语言模型(SLMs)也是一个关键方向。而且可能甚至还有微型语言模型(TLMs)也将有助于使人工智能真正强大。它们也被称为微语言模型(MLMs)。这是我今天想要涵盖的更大的画面。

首先,对SLM进行复习。以下是一篇关于SLM的好总结文章:“小语言模型的崛起:AI的效率和定制化”。

“大型语言模型(LLMs)以其在自然语言处理中的令人印象深刻的能力而引起关注和想象力。然而,它们巨大的尺寸和资源要求限制了它们的可访问性和适用性。进入小语言模型(SLM),这是一种紧凑高效的替代方案,旨在为不同需求实现人工智能的民主化。”

SLM基本上是LLM对应版本的较小版本。相比于具有数百亿甚至数万亿参数的LLM,它们拥有显著较少的参数,通常在几百万到几十亿之间。这种大小差异带来了几个优势。

BIG one 具有更强的计算和能量效率,而且能够在本地设备上运行,不仅仅在大型云AI数据中心运行。

  • 效率: SLMS 需要更少的计算资源和内存,使它们适用于部署在更小的设备或甚至边缘计算场景上。这为基于现实世界的应用程序如设备上的聊天机器人和个性化移动助手打开了机会。
  • 可访问性:由于资源需求较低,SLM更容易被更广泛的开发者和组织所接触。这使得人工智能更加民主化,使较小的团队和独立研究人员能够在不需要进行重大基础设施投资的情况下探索语言模型的力量。
  • 定制性:SLM更容易调整以适应特定领域和任务。 这使得可以创建为利基应用量身定制的专用模型,从而实现更高的性能和准确性。

以上导致了更多创造性的AI过程的方法,比如使用LLM来训练体积更小的模型,用于特定应用,具有更多包含“边缘情况”。这意味着更高的可靠性,并且在应用程序集中具有更好的隐性防护栏。

同时,更小更精巧的模型也可以帮助我之前讨论过的LLM AI的新应用,比如创建“合成数据”和“合成内容”。这两个步骤可以帮助生成更多的数据,从而进一步提升AI的规模。

许多这些技术将需要以新的方式将大量的LLMs、SLMs和TLMs结合在一起,这些技术刚刚从人工智能研究实验室和论文中问世。特别专注于创造大量新的人工智能数据和内容的更好方法:

如同LLM,SLM也是在大规模文本和代码数据集上进行训练的。但是,为了实现它们更小的体积和高效性,采用了几种技术:

  • 知识蒸馏: 这涉及将知识从预先训练的LLM转移到一个更小的模型,捕捉其核心能力而不涉及全部复杂性。
  • 修剪和量化:这些技术分别删除模型中不必要的部分并降低其权重的精度,进一步减小其大小和资源需求。
  • 高效架构:研究人员不断开发专为SLMs设计的新颖架构,旨在优化性能和效率。

最新的在LLMs、SLMs和TLMs方面的研究正在来自于Google Deepmind、OpenAI、Microsoft等地的人工智能研究。

在接下来的几年中,我们可能会发现通往真正有用的人工智能之路是在这场人工智能技术浪潮中有各种规模的许多人工智能模型。

潜在的数量几乎和今天设备中的晶体管一样多。更不用说通过各种规模的模型进行的无数计算中的“Teraflops”和“Tokens”。所有这些都是为了回答80亿人类提出的最大和最小问题。让我们更接近渴望的“智能代理”和“人工智能推理”。包括即将推出的机器人和汽车。

重要的是要记住,这不仅仅是数以十亿计和万亿美元用于不断增长的人工智能计算,而是数亿和万亿更小更微小的人工智能模型存在于本地设备上,使我们更接近人工智能应用程序真正让主流用户感到愉悦和惊喜的地方。这就是这个星期天要讨论的更大的画面。敬请关注。

这里的讨论仅供参考目的,并不构成任何时候的投资建议。感谢您加入我们。

您也可以免费订阅我的《AI: 重置为零》简报,获取更多类似内容。

2024-11-12 05:04:27 AI中文站翻译自原文