LLM“搜索互联网”的局限性和陷阱
让我们测试LLM(聊天GPT 01-preview)操作新复杂数据的能力。
据说01-preview能进行互联网搜索。但让我们测试一下它处理新的和复杂事情的能力。(剧透:非常糟糕,几乎无法使用)。
这个秋季,游戏工作室Wube发布了标志性游戏Factorio的新插件。
对于那些还没有玩过《Factorio》的人,我想说几句话。
Factorio 是一款复杂的工厂建设游戏,玩家从手动挖掘资源开始,逐渐实现生产系统的自动化。游戏涉及创建复杂的传送带网络、机器和物流系统,将原材料加工成先进产品。在高级阶段,玩家可能同时管理和平衡超过10,000台机器的工作,以优化生产。玩家必须管理电力、优化生产线、扩大工厂规模,同时应对诸如资源稀缺和外星人袭击等挑战。这款游戏的深度来自于它对工业流程的详细模拟以及处理大规模自动化所需的战略规划。
新的附加组件“Space Age”增加了更多的复杂性,重要的是它最近发布,而智慧——“如何正确做事”还没有在互联网上传播开。这里有一些答案,但需要时间去找到它们。
让我们使用Chat GPT来找答案。再次强调,这并不是什么复杂的技术,信息是可以找到的,但可能不在谷歌搜索的第一页。
以下是聊天参考链接:https://chatgpt.com/share/67378668-7ae4-8003-8244-7f3e119d9b34,供需要详细信息的人参考。
故事
查询:
在《万有引力》的太空时代中,一个星球是否可以自动向另一个星球请求物品通过船只交付,而无需我手动将物品添加到船只请求列表中?
您可以通过上面的链接阅读答案,但简言之,它绝对没有用,但对于没有玩过的人来说看起来很真实。确切地说,答案与另一个扩展 - 太空探索模组有些相关。
好的,让我们再努力一点。
这听起来毫无意义,请在互联网上查阅信息,好好考虑一下答案。
而且回放是
根据我在2023年10月的知识截止日期,Factorio宣布了一个名为“太空时代”的即将推出的扩展包,但目前尚未发布。因此,关于其游戏机制的详细信息,包括星际物流特性,目前未公开。
好的,好的,这很有趣。我希望你可以不用我骂人来做这件事。
检查太空时代的发布日期
回复:
截至我在2023年10月的知识截止日期,Factorio太空时代扩展包已经宣布但尚未发布。
WTF?
当前日期是多少?
回复:
当前日期是2024年11月15日。
啊呢?
和上面的聊天记录核实这个事实,您是否发现自己遗漏了某些内容?
答复:
省略细节:一页上写着“自己去谷歌一下”
WTF #2,我仍然是一个人类,你知道我们人类统治这个星球(至少目前是这样,至少据我所知)。
你可以帮我搜索互联网吗,比如 Reddit?—— 快去帮我做这件事!
回复:
非常通用,有用,对我没用。
总结
一些您可能应该考虑的要点
- LLM的回复总是看起来“像真的”。没有“我一点都不知道,即使用旧机油煮我的GPU也不会告诉你答案”。
- 直到你问起它,它才能做出反应。"我的回答不正确,你指出了证明它不正确的事实,但我不会解释,直到你明确地问我"。
- 目前o1-preview 不能作为您的互联网搜索代理。它可以谷歌基本事实,比如发布日期是什么,但它不能扫描页面(并优化查询)搜索答案。