ChatGPT的知识只有两年：如果您正在构建应用，应该做什么？

官方公告：从今天开始，ChatGPT的知识截止日期为两年前。

为什么OpenAI不只是更新它呢？

有一些基本原因导致这样，培训新的LLM是一项昂贵的过程，至少需要数千万元，并且没有保证。清理用于培训的新数据集也是昂贵的。

如果我正在构建一个需要更近期数据的应用程序，我应该做什么？

您可能会诱惑着只是将整个2022年和2023年的维基百科页面发送给ChatGPT：https://en.wikipedia.org/wiki/2022。不过您很快会遇到两个限制：1.对于大型语言模型（LLM），您可以发送的字数是有限制的，这被称为“上下文窗口”。2. LLM API会按照发送的字数收费，所以您发送的内容越多，您的API调用就会变得更加昂贵。

标准技术之一被称为“检索增强生成”或RAG。简而言之，它是搜索合适的背景信息，将该背景信息提供给LLM，然后获得更好的结果的过程。

在LlamaIndex，我们是RAG专家，但是有一个整个开源项目社区正在解决这个问题。我们已经与20多个开源向量数据库进行了集成，并且还有其他开源工具，如LangChain、Semantic Kernel、DSPy、Axilla等等（在评论中分享你喜欢的项目！），它们以不同的方式来解决这个问题。

另一种技术称为微调。在这里，您基本上是在现有的 LLM 上创建一个新的定制模型。虽然 LlamaIndex 支持微调，但通常需要更多的工作和数据。

如果我不需要更新的数据怎么办？

这完全没问题！并不是每个应用都需要比2021年更近的数据。在LlamaIndex之前，我曾在一个开源的阅读教育工具上工作过，而语音学在过去两年中绝对没有改变。如果你正在构建一个编写晚间故事的工具（❤️ Kidgeni https://kidgeni.com/）或说唱的工具（请查看TextFX！https://textfx.withgoogle.com/），你的应用

如果我只想使用ChatGPT获取更近期的信息怎么办？

目前有很多使用检索增强生成技术的聊天机器人。我个人尝试过的几个是Metaphor (https://metaphor.systems/)、Perplexity (https://www.perplexity.ai/)和Medisearch (https://medisearch.io/)，当然还有Google Bard和BingGPT。