对话式用户界面的出现

ChatGPT中文站

想象一个世界,与计算机交流就像与好友聊天一样简单和直观。这个世界既真实又即将来临。欢迎来到大型语言模型的时代。

过去

在计算机的早期阶段,与机器进行交流是非常困难的。第一个用户界面是二进制代码。人们只使用0和1来仔细地编写传给计算机的指令。操作系统通过在单色屏幕上启用命令行界面,使事情变得稍微容易一些。在那些日子里,计算机只是一些只有少数熟练人士能够有效操作的工具。

图形用户界面(GUI)将计算机带给了大众。与软件的交互意味着需要在复杂的菜单中导航,解读技术术语,并不断点击以达到目标。尽管GUI不断变得复杂,但它们经常在技术和用户之间形成障碍,有时需要学习曲线来有效地操作软件。为了弥合这个差距,软件设计师必须不断投入大量资源进行用户体验研究,并采用A/B测试等方法来优化软件的可用性。这种做法至今仍在持续进行。

在2023年初,一种全新的与软件互动的方式侵入了人类的集体意识。ChatGPT通过引入一种让人类能够与计算机进行流畅、合理对话的方式改变了游戏规则。用户不再使用按钮、滑块和下拉菜单,而是被友好的文本界面所欢迎,邀请他们使用自然语言简单地输入他们的思想和查询。

聊天界面并不是什么新鲜事物。我们在我们的消息应用程式中已经使用了多年。我们以前也见过聊天机器人。但是ChatGPT是第一个能够与人类非常相似地进行对话的人工智能。它能够理解自然语言,从用户的消息中学习事实,并生成连贯、类似人类的回应。它为休闲用户和软件开发人员开启了一片新的可能性,可以将大型语言模型(LLMs)整合到他们的程序中。

礼物

传统的用户界面,尤其是在过去几年中开发的界面,提供了丰富、动态和视觉上引人入胜的用户体验。这些界面能够通过视觉效果传达复杂的信息,并与用户实现高度互动。动画和其他视听反馈技术使用户在与软件交互时感受到即时的响应。

现代界面的开发是困难的,即使有一整个团队的设计师和软件开发人员参与。由于界面依赖于底层状态的视觉表示以及对该状态的修改,界面的可用性总是与系统复杂性相对立。我们创建的系统越复杂,以清晰直观的方式展示信息就越具挑战性。

界面的真正问题是它本身就是一个界面。

~ 唐·诺曼

聊天界面在最基本层面上使用文本消息。这种简单性使它们非常高效和易于使用。它们提供了一种更直观的沟通方式,几乎不需要学习成本,这使得它们更高效。它几乎就像是与一个人类聊天,只不过对方实际上是一种人工智能。

与传统的用户界面相比,会话式用户界面在人们与软件交互的方式上带来了根本性的变化。我们几乎需要在各个地方实施这种变化。

未来

AI系统可以在数字资源、与其他软件系统、物理环境或人类进行交互,并具有一定程度的自主性来执行任务,通常被称为AI代理。聊天界面是AI代理接收人类用户命令的理想媒介。通过聊天与AI代理交互就像拥有一个聪明的机器人,它能理解我们的语言并为我们处理复杂的软件任务,而无需我们动一只手指。聊天将成为一切的界面。

聊天界面的自然演进是语音界面。通过整合语音识别和语音合成,AI代理将解释来自用户的语音命令和查询。这将带来一种无需双手操作的用户体验,提高了对话式界面的可访问性,使对话更类似人类之间的互动。

未来的人工智能机器将是完全自主的。它们不再等待我们的指令,而是自己做出选择并采取行动。它们将监控我们的数字资产、沟通渠道和甚至体征。它们将告知我们发生的情况,如果我们不喜欢它们的计划,我们只需告诉它们停止或调整行动方向。人工智能机器的自主性将为人类提供巨大的优势和自由。

为了表达复杂的思想,人工智能代理将能够绘制图像,创建3D视觉效果,并将它们作为聊天体验的一部分展示给人类。这种能力,通过高质量的视觉效果,将优于任何传统的用户界面。人工智能将能够根据特定用户需求定制视觉表达,并创建许多不同的、按需求呈现的相同思想的可视化效果。

一张图片胜过千言万语。

~ 富瑞德里克·R·巴纳德

丰富的视觉交流将双向发挥作用。增强现实(AR)和全息成像将使我们能够通过手势操纵图像和3D模型。这些经手修改的视觉效果将立即被AI“看到”并作出反应。就像拥有一个神奇的3D画布,在这里你和电脑可以一起绘画,并同时讨论你所看到的内容。

传统的用户界面不会完全消失。它们在某些软件领域中将始终需要存在。彻底改变的是它们的创建方式。界面将主要由人工智能设计,而且往往是按需设计。人工智能代理将分析接收到的命令模式,并设计能提高我们通常参与的流程效率的传统用户界面。在许多领域中,传统用户界面将变得可选。

未来,对话界面既强大又普遍的前景令人非常兴奋,但要实现这种变化,我们还有许多挑战需要克服。

挑战

如果文字是唯一的交流媒介,用户必须精通使用文字。他们必须能够准确陈述他们的欲望,而在此之前,他们必须确实知道自己想要什么。如果其中任何一个条件未达到,人工智能代理将无法执行命令,或者与用户实际意愿不同地执行任务。

传统的用户界面可以通过尝试和跟随教程以及上下文说明来学习。对于使用聊天界面的系统来说,要达到类似的探索性质量,底层AI需要了解系统的能力。对话代理需要能够引导用户使用可用的命令,并帮助他们决定或提出精确的指令。

对于一个在视听交流中有效的AI系统,底层技术必须是多模态的。一个单一的AI模型必须能够理解、处理和生成多种形式的内容,如文本、音频、图像和视频。多模态AI将解读用户环境中的语调、面部表情甚至周围的背景信息。这种深度的理解,结合增强现实或全息技术的使用,将实现人类与AI代理之间的丰富交流。借助这一点,对话接口比自然人类互动更高效。

流媒体和AI生成的资源和消息,带来了技术上的挑战。为了保持自然对话流程,消息必须以一种瞬间的方式被处理、理解和回复。当AI系统需要提供丰富的多媒体内容,例如图片、视频、3D模型或交互元素时,问题就会倍增。AI系统必须确保这些资源的无缝传递,而不会影响用户体验。

聊天界面必须以一种方式进行设计,使用户能窥视AI的“思维”,并了解特定决策是如何以及为何被做出的。这种可观察性是建立信任、使用户理解AI的优势和弱点所必需的。同时,提供有意义的对AI操作的见解,又不使用户感到不堪重负,需要创新的用户界面设计。

伦理学

在未来,强大的人工智能代理将通过对话接口进行使用。技术的对与错成为软件设计的一个重要因素和一个重要的辩论议题。我们需要确保人工智能对于人类而言是公平和善良的,仔细考虑我们复杂存在的各个方面,无论是从个体的层面还是整体的人类层面。

伴随着强大的力量,也伴随着巨大的责任。

~ 史丹·李

AI的负责任使用是一个值得单独一篇文章讨论的主题。许多道德关切,如信息准确性、偏见强化、技术滥用或AI垄断,本质上与基础的LLM(语言模型)和AI代理程序有关。只有少数考虑直接影响对话界面。

  • 隐私:保持对话的私密性和安全性非常重要。个人信息的滥用可能导致身份盗窃,财务损失,并可能对用户的心理健康产生影响。
  • 包容性:伦理聊天界面应满足所有人口的需求。有辅助功能需求的人应该能够高效、愉快地与人工智能进行互动。忽视创建普遍可访问的用户界面将持续扩大数字鸿沟并加剧现有的不平等。
  • 透明度:在现实中,用户与人工智能进行对话时,不应该让用户误以为他们正在与真正的人互动。任何形式的操纵或欺骗都会破坏用户的信任并可能导致滥用的发生。

无论AI开发人员需要考虑的伦理方面是否只限于隐私、包容性和透明度,但它们为一个良好的基础。随着人工智能技术的快速发展,我们应该预料会犯下许多错误。通过在AI系统设计中包含伦理考量,我们期望降低个人致命或社会灾难性结果的概率。

尾声

我们从使用正式的计算机语言,通过在屏幕上点击按钮,到与计算机进行友好聊天的过程中旅行。现在,我们正在进入这样一个世界:与技术交谈可能和与朋友交谈一样正常。未来很可能会出现传统和对话式界面的结合,根据手头任务、系统复杂性和用户需求进行定制。

挑战在于使这个新范式下的沟通不仅有帮助,而且也变得轻松和愉快。一个技术不仅聪明,而且友善和包容的未来是一个美好的未来。我们必须专注于确保随着我们的数字助手变得更聪明,它们也成为我们的盟友。

对于传统界面与对话式界面的结合,你有何看法?你对我们与技术互动的未来有何设想?我邀请你在评论区分享你的意见。

2023-10-20 17:14:36 AI中文站翻译自原文