如何在您的企业中采用LLMs: 全面指南

它是一个看起来简单但实际复杂的建构 —— LLM(大型语言模型)通过训练大量文本数据以理解语言并生成自然地阅读的新文本。该模型可以执行简单的任务,例如用单词“垫子”来完成句子“猫坐在......上”。甚至可以根据提示生成一首俳句:“这是一首俳句:”。

但它甚至更酷!一旦LLM学会一门语言,你可以用它来完成各种任务。它可以回答问题,翻译语言,概括文本,撰写演讲,进行对话生成代码等等。可能性是无穷无尽的!

LLM们在理解语言和生成连贯的段落、故事和对话方面表现越来越出色。模型现在能够抽象出类似于从左脑任务转向右脑任务的高级信息表示,其中包括理解不同的概念,并有能力以使之有意义的方式组合它们(统计上)。

LLM的一级概念是令牌,根据上下文可能意味着不同的事情,例如,苹果基于上下文可以是一种水果或电脑制造商。这是基于LLM所接受的信息的更高级别的知识/概念。

与传统的机器学习模型相比,它具有产生幻觉和不严格遵循逻辑的能力。

ChatGPT中文站

可能性和限制

保持HTML结构,将以下英文文本翻译为简体中文:LLM并非万能药;它有其限制。有些事情它无法做到,比如

  • 人级理解,即真正理解底层概念。
  • 避免偏见、有害和不可信赖的回答。
  • 与人类创造力匹配
  • 分析、代数和其他计算以及数学推理。
  • 物理世界推理:缺乏物理学、物体及其与环境的交互的实验知识。
  • 任务间的知识转移
  • 学习少量数据

LLM擅长从大量信息中学习,并推断给定上下文中的下一个顺序。LLM也可以推广到非文本信息,例如图像/视频、音频等。基于变压器的音频到音频或音频到文本将学习构成中的构件,而不是文本符号。

鉴于其能力,以下是LLM可能出色的领域/流:

  • 助手和互动对话机器人
  • 内容生成和汇总
  • 机器翻译,多语言支持
  • 上下文感知搜索
  • 知识管理
  • 问题回答,基于语言的搜索
  • 客户满意度和产品改进 - 情感分析,文本分类,个性化和推荐。
  • 数据转换

现在问题出现了,这些对于企业意味着什么?我们如何采用LLM来辅助组织内不同职能的决策制定和其他流程?

让我们快速了解结构和用法,以评估可能适用于特定业务。

结构和用法

ChatGPT中文站

模型推断包括两个阶段:

  1. 将输入投影到张量格式 - 这涉及编码和嵌入。这个阶段的输出本身可以用于许多用例。
  2. 推理 - 这基于给定的上下文进行输出预测。它在很大程度上依赖于训练数据的格式和训练数据。

推理行为可以通过改变层或输入中的权重进行定制。调整模型输出以适应特定业务用例的典型方法有:

  1. 没有文字需要翻译。
  2. 指令式调校
  3. 微调
  4. 预训练

按原样

这适用于POCs和我们后续在这篇博客中会确定的某些用例。需要注意的重要事项是,它不涉及任何额外的自定义,训练数据或工作。

指令基调试

  • 调整更轻松,无需培训,一次学习。
  • 例如:对于给定的产品评论,请将产品美学评分在1到5范围内进行评分:```我喜欢……但是……```。简洁明了,仅以JSON格式输出评分给出 ```{"评分":}```。

{"评级": 2}

  • 受上下文长度限制

预训练和微调

HTML结构不变,将以下英文文本翻译为简体中文: 预训练是指以非监督方式在大量文本数据上对模型进行训练。这使得模型能够学习一般的语言表示和知识,然后将其应用于下游任务。一旦模型经过预训练,则可使用标记数据对其进行特定任务的微调。

微调涉及使用较少量的特定任务数据对预训练模型进行权重优化。在微调过程中,只有模型的一小部分权重被更新,而大部分预训练权重保持不变。

这个先预训练后微调的双步骤流程有几个优点:

1. 它使模型可以从大型未标记数据集中学习一般的语言和领域知识,这对于特定任务的注释是不可能的。

2. 预训练表示捕获有用的特征,然后可用于多个下游任务的调整,即使只有相对较少的标注数据也能实现良好性能。

3. 它在计算上更高效,因为昂贵的预训练步骤只需要完成一次,之后相同的模型可以进行不同任务的微调。

4. 预训练模型可以作为一个很好的起点,允许微调比从头开始训练更快地收敛。

总之,预训练大型语言模型用通用文本数据让它们获取广泛的知识,随后通过对较小标记数据集进行微调使其专门用于特定任务。这个双步骤过程对于 LLMs 的扩展性和多功能性是至关重要的。

以下是一个快速决策指南,可帮助你决定应该采用哪种方法:

ChatGPT中文站
Decision tree to determine mode of LLM application

LLM领养清单

LLM的使用可以由多种因素决定,例如使用背景、任务类型等。以下是影响LLM采用效率的一些特征:

ChatGPT中文站

如果在对上述维度进行评估时,发现极右侧的一个或多个特征,则应将其视为采用LLM生产的黄色警示标志。如果有三个以上,则是明确的红色警示标志,可能需要对用例进行重要审查。

其他需考虑的因素:

  1. 监管或法律限制-例如,驾驶或辅助驾驶可能是被允许还是不被允许的。同样,医疗和法律领域的限制也需要考虑。
  2. 场景的新颖性导致错误——由于未见过的输入、医疗诊断、法律简报等新变种的错误的严重性可能需要人类循环验证或批准。
  3. 在相同的上下文中,重复的结果相同。
  • 不必要求:多种可能的结果都是合理的,如果系统产生不同的响应或结果,仍然是合法的。例如:代码解释,摘要。
  • 相似:方差可以接受,但整体的方法和步骤应该保持一致。例子:博客、文章、聊天回应和建议。
  • 相同:诊断、法律参考、项目计划、成本预测等。一些工具可以支持其他计划或结果,当小的基础细节发生变化时,LLMs可以改变方法。
  1. 使用成本估算 - 每个用户每个活动使用推理的使用情况。例如,博客生成是1:多用户阅读。
  • 低效:博客、文章等只生成一次,读取多次,因此 LLM 的使用效果相对较低。
  • 中等:与用户数量相比,LLM使用的一对一尺度。例如,代码自动完成,LLM生成的内容时不时的干预等。
  • 高:用例可能严重依赖于多个LLM能力的使用。例如,针对学生的互动评估、建议、响应分级、生成学习路径等。

可用选项

由于成本是重要因素,以下是可用选项以帮助估算使用成本:

托管

  • OpenAI
  • Claude - 企业授权可用。
  • 基础板。
  • 熟练(候补名单)

自托管

  • gpt4all、alpaca、vicuna以及许多其他不同语言的培训框架和包装分别可用。
  • GPT2基于自定义数据的极简模型
ChatGPT中文站

推荐利用 LLM 的策略

评估和采用人工智能驱动的解决方案。

  • 评估当前的软件解决方案并确定改进的领域。
  • 考虑人工智能整合的利益和风险。
  • 试验和推动人工智能解决方案。

从一开始就建立保障措施。

  • 定义和控制精度,检测事实错误的方法。
  • 允许人类监督或干预
  • 人类的认可可以用于关键产出。
  • 监测模型/数据的漂移或异常情况,以完全接管关键系统。

优先考虑领域特定的培训。

  • 自定义培训可能需要大量的注释样本。
  • 微调可以是针对特定领域用例的第一步。

从小规模开始,逐步演化,持续模型维护和交付。

  • 从小开始,使用用例、POC和实验作为替代主流流程的AB测试或替代方案。
  • 通过反馈和调整作为解决方案推广周期的一部分,加快迭代速度。

总的来说,企业应采取双管齐下的方法来将大型语言模型引入其运营。首先,他们应确定核心领域,在这些领域中,即使表面上应用LLMs也可以提高准确性和生产率,例如使用自动语音识别来增强客户服务呼叫路由,或应用自然语言处理来分析大规模的客户反馈。

其次,商家应该探索实验性的方式来利用LLMs的力量,以实现质的飞跃。这可以包括部署提供引人入胜和充满活力的用户体验的对话代理,使用自然语言生成生成针对受众兴趣的创意营销内容,或构建智能流程自动化流程,以适应不同的上下文。那些认识到LLMs不仅可以优化现有流程,而且可以彻底重塑它们的公司将成为领导其行业的有力之人。成功利用LLMs需要超越试点项目和零散的解决方案,追求规模化的有意义的真实应用,并为特定的业务环境开发量身定制的实现方案。

2023-10-20 17:07:38 AI中文站翻译自原文