RAG对比微调

有两种常见的方式,开发人员在构建大型语言模型(LLMs)应用程序时将专有和特定领域的数据纳入其中:检索增强生成(RAG)和微调。RAG使用外部数据增强提示,而微调则将额外知识融入模型本身。然而,这两种方法的优缺点还不被很好地理解。在本文中,我们提出了一种微调和RAG的流程,并介绍了包括Llama2–13B、GPT-3.5和GPT-4在内的多个热门LLMs的权衡。我们的流程包括多个阶段,包括从PDF中提取信息,生成问题和答案,将其用于微调,以及利用GPT-4评估结果。

介绍

在过去几年中,人工智能和自然语言处理取得了重大进展,导致了强大的大型语言模型(LLMs)的开发,例如生成式预训练变换器(GPT)。驱动LLMs的技术,包括先进的深度学习技术、大规模转换器和海量数据,推动了它们的快速发展。像GPT-4和Llama 2这样的模型在许多任务和领域中展现出卓越的性能,通常无需特定的提示。这些模型超越了它们的先前版本,在编码、医学、法律、农业和心理学等各个领域具有巨大潜力,与人类专业水平趋近。随着LLM研究的不断进行,识别其限制并解决发展更全面的人工智能系统(AGI)的挑战至关重要。此外,机器学习社区必须超越传统的基准数据集,以与人类认知能力评估相似的方式评估LLMs。

采用LLMs

1. 大型语言模型(LLMs)在各行业中的采用情况:

  • 总体影响:由大型语言模型(LLM)驱动的人工智能副驾驶员正在改变各个行业的业务运营和环境互动方式。
  • 医疗保健:在医疗保健领域,人工智能副驾驶员可以预测患者风险并提高诊断准确性。
  • 制造业:他们提高了运营效率,减少停机时间并提升产品质量。
  • 金融:在金融领域,AI副驾驶可以协助进行欺诈检测、风险管理和进行投资决策。参考来源:AI4 Finance-Foundation(2022年)和Solutions(2022年)。

2. 大型语言模型(LLM)的益处:

  • 创新与性能优化:这些AI技术推动创新、优化性能,并为企业提供竞争优势。

方法论

流程概述:

  • 目的:该方法论的重点是生成和评估问题-答案对,以构建针对特定领域的AI副驾驶。
  • 结构:如图1所示,该管道由几个不同的阶段组成。

2. 数据采集:

  • 初始步骤:涉及收集一个与特定行业领域相关的多样化和策划数据集。
  • 数据来源:包括政府机构、科学数据库和专有数据等高质量存储库。
  • 选择标准:选择潜在的数据来源和文件类型的过程在第三节中详细阐述。

3. 信息提取:

  • 过程:涉及解析复杂和非结构化的PDF文件以提取内容和结构。
  • 工具和方法:利用强大的文本提取工具和机器学习算法,恢复文本、表格和视觉信息,并识别文档中的语义结构和交叉关系。

问题与答案生成:

  • 目标:生成与提取文本内容相关且高质量的问题。
  • 方法论:采用框架来控制输入和输出的结构,提高语言模型生成响应的效果。

5. 答案生成:

  • 方法:利用检索增强生成(RAG)来通过结合检索和生成机制生成高质量答案。
  • 重点:这个阶段致力于为制定的问题提供答案。

6. 模型微调

  • 过程:涉及使用Low Rank Adaptation (LoRA) (Hu等人,2021)等方法,通过问答对来优化模型。
  • 目标:确保对科学文献的内容和背景有全面的理解,使该模型在不同领域或行业中具有价值。

7. 组件的详细分析

  • 进一步探索:论文的以下部分对管道的每个组成部分提供更深入的洞察,讨论它们的目标、输入、输出,以及将其纳入管道的理由。

LLMs(语言模型)的能力: RAG和微调能力

1. 研究目标:

  • 目标:建立评估大型语言模型(LLMs)如LLama 2、GPT-3.5和GPT-4在解决复杂农业问题方面的基准。
  • 方法:使用检索增强生成(RAG)和微调技术对LLMs进行评估。

2. 关键贡献:

  • 性能基线:使用RAG或微调为LLMs建立性能基准,突出每种方法的优势和成本。

农业中的RAG:

  • 优点:提高大型模型中的准确性,尤其适用于与农场数据解释等相关环境数据。
  • 成本:创建嵌入的初始成本较低,但可能增加提示的大小并导致冗长的输出,难于控制。

4. 微调:

  • 优点:产生精确、简洁的输出,非常适合学习特定的技能,比如提高农作物产量或优化灌溉计划。
  • 挑战:由于在新数据上进行广泛的模型训练导致初始成本高,但对于处理大型数据集并具有最小输入标记大小非常高效。

5. 比较RAG和Fine-Tuning:

  • 分析:该研究在表23中对这两种方法进行了比较,包括它们的优点和缺点。

6. 开创性的管道发展:

  • 创新在LLM申请中的应用:建立一个应用RAG和微调在各种LLM中的流程,促进不同行业之间的创新和协作,重点关注农业领域。

7. 高效的模型生成:

  • 过程:运用结构化文档理解、GPT-4和RAG,展示行业特定数据集的高效问题与回答生成。
  • 结果:生成高度具体的问题并得到深入的答案,表明单独生成问答可实现有效的令牌使用。

8. 评估指标:

  • 质量评估:提出度量标准来评估生成的问题和回答的质量,重点关注RAG生成的回答。

9. 发现与未来工作:

  • GPT-4 性能:

    GPT-4 的性能超越其他模型,但其微调和推理成本是明显的权衡。

  • 结论:红-黄-绿(RAG)和微调的适用性取决于特定应用、数据规模和可用资源。
  • 未来研究:进一步研究如何结合方法,改进结构化数据提取,并探索使用图像和标题进行多模态的精细调整。

  • 总结来说,本研究对LLMs进行了全面评估,突出了使用RAG和微调的优点和局限性。它为进一步研究在特定行业中优化LLM应用提供了基础,重点关注高效准确的数据处理。

纸张-https://arxiv.org/pdf/2401.08406.pdf

2024-01-22 04:40:50 AI中文站翻译自原文