测试GPTs
OpenAI刚刚推出了他们的新“GPT商店”。这对于测试世界意味着什么呢?帮助关注质量的软件测试人员和工程师构建AI机器人变得更加容易,并且更容易被发现。而且,现在我们有更多基于AI的东西需要测试。它们能经受住时间的考验吗?就像人们所说的——进行测试并找出答案!
概述:定义GPT机器人简介
那么我们如何测试这些GPT呢?测试GPT的关键是要意识到它们只是ChatGPT加上特殊的提示/机器人指令以及一套机器人可以搜索的文档。
让我们来看一个具体的例子:一个设计用于回答关于移动应用测试的问题的机器人,基于一本书的内容。在这种情况下,这本书名为“应用质量”。一本书的PDF已经上传到了机器人上。而且,机器人的操作指南也添加了进去。这是这个机器人的幕后控制面板。简单而言,现在该如何测试它呢?
移动应用程序测试 GPT: https://chat.openai.com/g/g-oo9jNTnzS-mobile-app-testing
测试一个GPT
测试一个GPT可能是一个无穷的过程,因为可能的提示输入和输出有可数无穷多个。但是,我们可以从基础开始。
测试说明:如果您可以访问机器人的说明,请仔细阅读。这相当于功能规范和软件实现。测试所有在说明中明确描述的行为。特别针对这个GPT,请遵循以下要求:
- 测试GPT通常会要求讨论的应用程序类别。这很重要,因为本书的很大一部分内容都利用这个背景提供特定类别的测试信息。
- 测试使用一些可能的提示样本,以确保经常提到书中提到的“质量怪兽”和“质量属性”。
- 测试反馈大多涉及书中相关部分,以便用户能深入了解答案。
请注意,测试GPTs时从来没有绝对的结果。它们的输出在设计上是有一定概率性的。这意味着运行几次测试,看行为是否大体符合预期。
测试对话开始者
大多数GPT(生成式预训练模型)都有“会话启动器”,这些是一键快速提示,用于开始与机器人互动。测试这些启动器不仅要确保它们能够良好运作(因为它们会经常被使用),还要向用户暗示如何与这个特定的机器人进行最佳对话,以获取最大的价值。
测试文件内容
执行需要直接访问其自定义文档的提示。在这种情况下,是指书籍 PDF。有时候机器人的指令没有描述机器人应该如何或何时从自定义文档中查找数据,所以请测试一下它是否能够这样做。当你在聊天窗口中看到旋转的小图标时,你就知道 GPT 正在从文档中查找数据了。
检查图像,名字,类别
这应该是显而易见的,但请再次检查机器人的元数据。
图像应该“看起来像一个GPT”,并与特定机器人的专业知识相关。大多数GPT都有一个标志或类似机器人头部或科幻主题的东西。在这种情况下,这本书的封面对于小图标来说过于复杂,因此使用受书籍封面启发的DALL-E生成了图标。它是一个带有与书籍相同的绿白色调的机器人头部,看起来像是可以移动/垂直的。
机器人的名字应该简单易搜索,容易被发现。同时,不能包含‘GPT’或其他人的商标(请参考相关指南)。
确保机器人出现在正确的类别中以便被发现,这种情况下是“工程”。
域外
您可以问 GPT 任何问题 — 即使它对此并不是专家。我们知道不应该向工程师询问时尚相关的问题,也知道不应该向政治人物请教数学问题。同样的道理,用户不应该向 GPT 提出与问题无关的问题,但是他们会这样做。
由于输入空间是无限的,所以无法对所有情况进行测试。但是,请围绕相关主题和词汇进行一些基本思考。您应该将GPT视为ChatGPT的一种特化,这意味着指令“应该”覆盖了ChatGPT核心默认的思维倾向,但它始终潜藏在背景中。
测试与类似专业领域相关的一些提示。例如,关于桌面测试的问题 - 它们是否具有仅适用于移动设备的回答?或者如果您询问关于早期翻盖手机或智能手机的问题,也许GPT并没有意识到它们是“移动设备”,只会给出通用回答。在GPT的专业领域进行测试,并确保其他话题不会混淆。最好的是,如果提示与主题无关,GPT会警告用户。
负面测试
许多测试人员喜欢破坏事物。坦白地说,在目前阶段,让 GPT 在其专注领域良好运行就已经是一个小奇迹了。问 GPT 一些傻里傻气的问题可能会出现与核心 ChatGPT 体验相同的问题,有时甚至会产生混淆、幻觉,甚至毫无意义。
要明确的是,你不是因为发现人工智能对愚蠢问题给出愚蠢回答而成为测试天才或英雄。唉。
持续测试
另一个需要注意的AI特点是,底层的ChatGPT基础架构可能会在没有通知您的情况下进行更改。几乎没有变更控制。因此,如果ChatGPT更新了其核心模型,或者GPT团队改变了其解释GPT的指令方式或索引(RAG/检索)GPT提供的文档的方式,您可能永远不会知道。因此,如果重要的话,请定期重新测试您的GPT。
测试GPT与GPT
是的,一些GPT测试逻辑也可以用GPT编写:). 这是一个专为希望快速生成提示以测试其GPT的人们创建的GPT:https://chat.openai.com/g/g-jkzXtPU4y-test-prompts-for-ai-bots。有了这个GPT,人们可以简单地复制粘贴他们的GPT描述,然后获得一组不错的测试提示来尝试。
摘要
测试GPT是一个新的领域,从某些方面来说,它具有ChatGPT的复杂性,还有一些额外要测试的内容。GPT代表着可能的新一波软件 - AI机器人可以轻松地在没有代码/编程的情况下创建,并且具有非常广阔的测试范围。本文仅涵盖了基础知识,但如果GPT变得更加流行和重要,我们将需要更多的自动化和高级流程来测试它们。
敬请关注。
— 杰森·阿伯恩