2023 一言以蔽之???LLM... 2023 的细节???请听我说

随着我们告别2023年,就像告别一个感觉像是一个超级令人兴奋的游乐园之年 - 充满了乐趣,惊喜和许多幸福。尤其是当谈到智能计算机技术(人工智能)时,这一年非常重要。那么,从所有的喧嚣和纷扰中,我们能得到什么重要的启示呢?让我们来分析一下,看看在人工智能世界中发生了哪些有趣的事情。

Image taken from here

嘿!今年以ChatGPT在开放式大型语言模型(LLMs)领域引起了很大的关注开始。各种精通语言的机器展开了一场激烈的竞争,非常令人兴奋。所以,在2022年初,每个人都认为打造一个超级智能模型的关键是使其变得非常庞大,拥有许多时髦的技术部件(他们称之为参数)。这就像是一条魔法规则-一旦达到一定的大小,嗖地一下,模型就超级聪明了!

大的模型,大的问题

当这些大型模型以其所有的激情吸引人们时,却存在一个微小的问题——它们的运行成本很高。不过请稍等,2022年3月,DeepMind推出了一个“木兔论文”,它彻底改变了局面。他们基本上找到了一种最佳平衡,即模型理解的单词数量(标记)与其技术部件数量(参数),都在一个预算范围内。这就像在一定数额的零花钱中决定你能买到的拼图的大小。作者们揭示了一个秘密配方:更小的模型,但使用更多的训练数据。他们自己的模型,木兔(虽然不对所有人开放),拥有700亿个技术部件(远小于那些巨无霸),但是从惊人的1.4万亿个单词中进行了学习(比通常要多3到4倍)。猜猜看?木兔成为了焦点,表现得和那些大型模型一样甚至更好,不论它们是公开的还是保密的。

即将到来的是所有年份的老板——2023年

Image taken from here

在2023年,比赛出现了令人兴奋的转折点,标志着全新一代的对话机器的到来!这些时尚的解码器模型引起了轰动,让每一天都感觉不够来追赶最新的型号。就像是一场生动的明星大游行。

Image taken from here

由于文本无法保持HTML结构的格式,因此以下是文本的简体中文翻译版本: Meta在二月份以LLaMA展示了一番,而势头从那时起就没有停下来。Eleuther AI在四月推出了Pythia,接着MosaicML在五月推出了MPT,而阵容还在不断扩大!六月展示了Salesforce的X-GEN和TIIUAE的Falcon,而Meta在七月以Llama 2再次回归。九月推出了阿里巴巴的Qwen和Mistral.AI的Mistral,十一月则以01-ai的Yi增添了一抹魔力。当你以为不可能再有更令人兴奋的事情时,十二月以Deci的DeciLM、Phi-2和Upstage的SOLAR带来了三次惊喜。这是一个充满了令人眼花缭乱的明星的年度。

所有这些推出都有两个重要优势。首先,它们共享模型权重,尽管共享许可证有所不同。其次,对于参数介于30亿和700亿之间的较小模型,它们表现出色。

Image taken from here

这就是为什么整个社区迅速接受了它们。几乎所有这些模型都使用解码器变压器设置,其中包括一些创新,比如ALiBi或RoPE,RMS预归一化,SwiGLU,以及对注意力功能的一些改变,例如Flash-Attention,GQA和滑动窗口。另外,还有不同的代码基础调整,以便进行更好的训练或更快的预测。

结论

所以,2023年就这样结束了!对于语言模型的世界来说,它就像是所有年份的老板一样。我们有了很酷的新模型和技巧,比如聊天和微调。就好像是教计算机更好地进行对话。但是,你知道的,它们还不如与人类对话那样好。随着我们进入2024年,2023年的这些酷炫之物将成为未来更酷炫事物的垫脚石。未来的时光令人激动!

Image taken from here

2023-12-29 04:12:14 AI中文站翻译自原文