连接和LLMs

是的,这篇文章是关于《纽约时报》的《Connections》游戏。如果你是这个游戏的常玩者,那么你会对这篇博客感同身受。但即使你不是,这篇文章也是关于如何有效地使用LLMs,即使在其中存在着特别明显的幻觉倾向的情况下。事实是,如果你愿意付出一些努力,仍然可以从LLM中获得价值。而且你自己的工作也会因此变得更好。

来自《纽约时报》的游戏说明很简短:

Directions for how to play Connections, from the New York Times.
How to play Connections

虽然简短,但它们涉及了游戏的许多有趣方面。"FISH"的例子典型地属于"直接"组;这些都是易于定义的成员。"FIRE-"的例子展示了"狡猾"的含义;通常一个组中的所有单词都有共同的前缀或后缀。

对于属于多个类别的词语的平淡警告涵盖了许多问题,其中最重要的问题之一是在谜题中可能存在超过四个与某个类别匹配的项目(因此,其中一个似乎属于多个类别)。这可能导致类似于这个的性能:

A nearly failed performance. There were evidently five clues that could have matched the blue category; this player guessed the wrong four twice before getting the blue ones right.

在这种情况下的诀窍是首先确定一个团体里有超过四个候选人,然后确定哪一个属于其他团体。

LLM能够解救吗?

那麼,LLM可以如何幫助這種情況?您可能會想要將所有16個單詞搭配遊戲的一些指示一起給出,然後開始進行。這樣做可能會有驚人的效果。有一天,這個益智遊戲看起來是這樣的:

An example Connections puzzle; from sometime last year.

我输入了这16个单词,并解释了游戏,结果它立刻回答说蚂蚁、螳螂、白蚁和甲壳虫都是昆虫。这的确是正确的!

但它还会做一些无用的事情,比如建议“组4:与时间或度量相关的词语:本质,时间”。这个建议有很多问题;只有两个实体,并且分组太笼统,没有任何用处。

我发现更加有效的方法是当我看到三个我认为属于同一类别的项目,但是我对这个类别的了解不够以至于无法找出第四个项目。例如,我在数据中看到了三个鸡尾酒名称,并提出了以下问题:

Which of these is part of the name of a cocktail?  
HEDGE, WEDGE, YO-YO, BREEZE, WAVER, CURLY, SHOESTRING, WAFFLE, SEE-SAW

并且回答了

The term "Breeze" is part of the name of a cocktail, specifically known 
in various drinks like "Sea Breeze" and "Bay Breeze."

我对鸡尾酒相当熟悉,但是我对这两款清爽饮品都不太熟悉;所以 LLM 增强了我的能力,因为它更广泛地为我所熟知。

另一个例子;这个游戏喜欢说唱歌手(即音乐类型)。我不太了解现代说唱歌手,但是有一些线索让我觉得可能是指说唱歌手:

TIP, COLE, 40, PAIN

这是一个相当激烈的讨论,但最终我们成功找到了这些说唱歌手,只是少了一个字母。

J. Cole (Cole) - Removing "J" from "J Cole"
T-Pain (Pain) - Removing "T" from "T-Pain"
E-40 (40) - Removing "E" from "E-40"
Q-Tip (Tip) - Removing "Q" from "Q-Tip"

这个例子的有趣之处之一就是在开始拼图之前,我对这些艺术家完全不熟悉。

这是游戏中常见的模式;我发现一些东西,我认为它们属于某个类别,然后我问ChatGPT这个类别中的其他物品。虽然LLL以编造信息闻名,但如果你问一个直接的问题(例如:“列表中有没有任何桌面游戏?”它回答:““RIOT”不是一个桌面游戏的名称。“SPARE”,“BALL”,“KICK”,“BOOM”,“ROOM”,“SHORT”,“BLAST”,“DOLLY”,“LIGHT”,“TRIPOD”,“THIN”和“LENS”也不被称为桌面游戏的名称。”),它通常不会对这样一个直接的问题给出错误的答案。

我有很多这样的例子;播客、电视节目、以-Dane结尾的东西、NHL球队、虚构的警察、个性乖戾者等等,但我只打算提到另一个,因为怀疑的类别是“搭档”,而我询问了谁是GOOSE的搭档。在我的书《为工作本体论者而设的语义网络》中,我有一个名叫Maverick的角色示例,他在示例中唯一的工作是不吃素食。我以为我选了一个粗犷的名字;只有当我询问LLM关于GOOSE的搭档是谁时,我才意识到我选了《壮志凌云》中的一个角色作为示例。

从单词到类别

当你玩游戏时,你挑选出四个词语,如果你得到一个真实的类别,那些词语就不参与游戏。当你只剩下四个词时,你就赢得了游戏;你知道剩下类别的成员是谁。但是从这些成员中找出类别是很有趣的。我见过朋友在社交媒体上发布他们即使知道所有成员,也无法找出最终类别的情况。这周早些时候我还遇到了这样一个例子。我给ChatGPT四个词,让它找出这个类别。这是它的回答:

The four words — BAR, BUCK, TORCH, and TIME — can be associated with the 
concept of "things that can be passed or handed to someone."
Here's how each word fits into this theme:

BAR: This could refer to a physical object like a metal bar or a
bar of soap that can be passed from one person to another.
BUCK: In slang, "buck" can mean a dollar, which is something that
can be handed to someone else. Additionally, "passing the buck"
is a phrase meaning to pass responsibility to another person.
TORCH: A torch can be physically passed from one person to another.
In a symbolic sense, "passing the torch" represents transferring
responsibility or knowledge.
TIME: This is a bit more abstract, but phrases like "your time to shine"
or "giving someone their time" imply the idea of allocating or passing
a period of opportunity or spotlight to someone else.

Therefore, these words can be grouped under the category of
"things that can be passed/handed to someone."

它完全错过了“通过律师资格考试”的机会(这是考试,不是一块肥皂),但它还是得到了正确答案。

我没有时间玩游戏,我正在努力完成工作!

所以这个分析对于你所有的纽约时报联系游戏需求来说非常棒。但是这对现实世界有任何相关性吗?

我不得不说,直到最近,我并不认为是这样。我认为有意思的是,我可以得到一些不能计数、不擅长淘汰,并且编造东西来真正帮助我在游戏《连连看》中获胜的东西,而这些技能恰恰是游戏技巧的关键组成部分。只要我自己做这些事情,并且不依靠它来计数,我可以将其用作扩展自己知识和在游戏中表现更好的方式。

但让我们来看看企业数据环境中的一些技能。在上周的博客中,我写了一篇关于我和同事如何证明本体论能够帮助“与数据进行对话”的功能更好地了解它查询的数据,并且一个LLM实际上可以利用这些信息。但本体论提供了大量信息(或者可能如此)以在上下文提示中呈现。即使是在新的、更大的提示背景下,很多本体论与任何特定问题都没有关联。

这里有个例子;假设我们想回答一个问题,比如“我们在十二月份获得了多少新客户?”我们的企业本体可能有产品、账户、特点、市场、促销等各种模式,当然还有关于客户的信息,包括他们成为客户的时间。我们的本体可能有数百个属性,但只有一小部分适用于客户及其获取。

能否通过一个LLM帮助我们筛选这些内容?这似乎与连接无关,但实际上却是同一个问题。在这种情况下,我们试图回答的问题是“我们在12月份获得了多少新客户?”对应到这个范畴,我们想知道哪个词语——在这种情况下,属性——属于该范畴?从原则上讲,这比Connections要困难得多,Connections只有16个词。即使是一个适度规模的企业本体论,也很容易拥有超过一百个相关属性。但这也更容易;连接并不是由一些试图通过聪明才智来愚弄你的恶意难题设计师创造的;即使是设计不良的企业模型也是由希望你能弄清楚它们意思的人构建的。事实证明,即使是GPT 3.5也可以整理出大约一百个属性,并对相关属性做出相当好的猜测。如果它猜错了呢?只要包括了正确的那些(通常很明显;在这种情况下,类似于“签约日期”或“开始日期”的属性才是真正重要的),它可以对一些额外的属性进行臆测而不会对其产生太大影响。

一般来说,使用本体论来帮助管理企业数据时会有很多映射任务。本体论、企业词汇或其他受控资产如何对应到特定的数据模式?模式的哪些部分是重要的?《Connections 游戏》为我们提供了一些关于如何使用 LLM 来帮助进行这种类型映射的经验。

所以事实证明,玩《纽约时报》的“连接”游戏不仅是消磨时间的有趣方式;它实际上是一种模式识别和分类排序的迷你大师课程 - 这些技能在企业数据管理领域非常有用。通过将我们在游戏中使用的策略应用到我们在商业数据中与大型语言模型的工作中,我们不仅提升了我们的水平,还开启了处理和解释复杂信息的新方法。我尽量在日常生活的许多方面使用LLM;我从来不知道我在那里做的事情何时会在我的日常工作中有用。

2024-01-28 04:31:20 AI中文站翻译自原文