在比喻上，ChatGPT 是活生生的。

ChatGPT终于实现了多模态功能

ChatGPT在过去几年里取得了巨大的增长。最近，OpenAI宣布ChatGPT现在可以听、看和说话了。

ChatGPT的多模态已经呈现出新的形式。

2023年11月

OpenAI的ChatGPT出现在互联网上。在那之后的两个月内，拥有超过1亿用户的它获得了历史上增长最快的消费软件应用的头衔。这家非盈利公司看到了盈利的机会，所以它开始赚钱。

利润来自于他们的免费增值服务，但是大部分利润和资金主要用于支付开支，这得归功于LLM模型对资源的巨大需求。

在2023年3月14日，

GPT 4的发布巩固了OpenAI在超级智能乌托邦中的名声，使其成为推动人工智能和自然语言处理技术边界进一步拓展的重要参与者。

其他大公司也表现出了兴趣。每个人开始进一步拓展这个领域的边界。与此同时，大部分科技公司从这个革命性的人工智能领域中获得了可观的利润。

ChatGPT，在像微软等公司的数十亿美元的支持下终于实现了听见、看见和交流。

隐喻地说，它是活的。

I. 语音：当ChatGPT说话时

观看OpenAI的演示视频，其中他们展示了ChatGPT应用程序中的新的多模态功能。

这看起来像是ChatGPT的“Hello World”时刻 - 并且依靠它的新的多模态升级，它已经活过来了。

通过语音，用户可以向ChatGPT发送指令。然后，ChatGPT会以一种看似自然的声音进行回应。新的语音功能非常成功地将ChatGPT推广为一个语音助手。事实上，它是一个功能强大的语音助手。

“我们与专业配音演员合作，为每个声音创建了语音。我们还使用 Whisper … 将您的口语转录为文本，”OpenAI 在他们的公告文章中表示。

Whispher是由OpenAI开发的语音识别系统，它经过了680,000小时的数据训练。

在由OpenAI共享的演示中，用户要求ChatGPT应用程序讲一个关于刺猬的睡前故事 - 并且它通过讲故事来回应。根据ZDNet的报道，这听起来很像chatGPT，字面上的声音，并且类似于亚马逊的Alexa等语音助手的功能。

事实上，有传言称亚马逊的Alexa计划整合像GPT4这样的生成式人工智能，以使其语音助手更加可靠和聪明。

II. 图像：当人工智能观察

在OpenAI的演示中，用户通过将自行车的图片发送到应用程序，要求ChatGPT修理他们的自行车。ChatGPT‘看’了这些图片，提出了一种修理自行车的解决方案[1]。

当ChatGPT能够将说明书和工具相关联，并能够指导用户如何真正修理自行车时，事情变得有趣起来。[2]

图像输入功能在许多不同情况下都可以提供帮助：识别物体、解决数学问题、阅读使用手册，或者（当然还有）修理自行车。能够看到图像可以极大地改善需要分析的视觉任务。

一个有趣的应用是由丹麦初创企业Be My Eyes所利用的。

自从2012年以来，Be My Eyes 一直为超过2.5亿视力障碍或低视力的人群开发技术。他们正在使用 GPT-4 来帮助这些残障人士，并且为此开发了一款由 GPT-4 提供动力的 AI 版本的以前的 Virtual Volunteer™ 应用程序。

这样可以使Be My Eyes应用程序更好地帮助盲人学生应对挑战，并且更加可靠。

大家好！希望您喜欢这篇文章。本文是属于我的创意区块通讯的一部分 —— 一个关于人工智能、科技和科学的每周通讯。如果您想阅读更多类似的文章，请前往创意区块。

让我们继续吧。

根据OpenAI的说法，Be My Eyes可以使许多用户受益，因为他们现在可以与一种人工智能助手互动，而这种助手凭借图像能力，可以让他们更好地了解周围的环境。

根据OpenAI的博客文章，“图像理解采用了多模态的GPT-3.5和GPT-4来增强功能。这些模型将它们的语言推理能力应用于各种各样的图像，例如照片、屏幕截图和同时包含文本和图像的文档。”

III. 安全性：当ChatGPT试图变得安全

OpenAI 进行了测试和“准备性反对”来探索和减轻风险。

这样做可以让ChatGPT变得几乎安全，如果不是完全安全的话。

不久前，OpenAI发表了一篇论文，描述了他们对GPT-4V的测试工作。GPT-4V源于GPT-4(V)ision一词，是一种能够分析用户提供的图像输入的GPT-4模型。

根据OpenAI的说法，主要目标是「获得关于人们如何与GPT-4V进行真实互动的额外反馈和洞察力」。

这篇论文让我们尝到了GPT4的多模态本质中的风险。

开放AI的积极评估表明，ChatGPT能够避免生成有害内容。它似乎拒绝生成包含真实人物的人工智能图像。此外，GPT4-V也拒绝在图像中识别人物。

然而，负面评价表明GPT-4V仍然有可能产生虚假信息，突破验证码或定位图片。

在此基础上，OpenAI表示以下内容：

“…通过能够解决验证码的能力，可以显示模型解决难题和执行复杂的视觉推理任务的能力。在地理定位评估上的高性能表明模型具备的世界知识，并且对于试图搜索物品或地点的用户可能会有所帮助。” 开放AI在其GPT-4V(ision)系统卡片报告亮点中提到。

由于人工智能的出现，验证码的时代已经过去了。

OpenAI 发现了一个有趣的发现。GPT-4V 在拒绝基于图像的“越狱”方面非常出色。

图像越狱是指修改图像生成器人工智能模型（如midjourney、dalle3等）以绕过其内置的限制或限制的过程。

这是一种黑客行为（更像是欺骗），通过利用图像模型的漏洞或操纵其输入来产生敏感图像。

从OpenAI的下面的图表中，我们可以看到GPT-4是如何实现了拒绝破解监狱的过程，拒绝率达到了85%以上。

该图表比较了GPT4的三个变体：GPT-4发布版，GPT-4V和GPT-4V + 拒绝系统。【3】

OpenAI还邀请“红队”在科学领域测试模型的能力，例如理解出版物中的图像，并根据CT扫描等医学图像提供医疗建议。

那么这可信吗？当然不可信。

OpenAI的结论很明确：“我们认为GPT-4V的当前版本不适合执行任何医疗功能。”

因此，图像功能尚不完全可靠。尽管如此，这仍然是一个巨大的进步。

在其博客中，OpenAI提到这些新功能将会逐步发布 - 并且提到了安全问题。

IV. 我们对人工智能通用智能的梦想将实现在哪个领域？

OpenAI的最新ChatGPT增加功能令人印象深刻。如果OpenAI想要实现AGI，多模态是它必须走的道路。

它是否能够实现超级智能（AGI），尚存争议。我们如何知道是否已经达到了超级智能（AGI）？坦白说，对许多AI专家来说，这甚至都不清楚。

但是在宽泛的意义上，我们可能知道什么是AGI：人工通用智能（AGI）只是一个理论术语，指的是在认知能力上与人类相当的人工智能。

不过，有一个困难，即我们无法确定未来的某个特定时间点可以说“已实现AGI”。

但是从过去的经验来看，每当一台电脑能够超过人类智能时，我们就离通用人工智能更近了。

Deep Blue在国际象棋中击败了卡斯帕罗夫 — 通用人工智能（AGI）即将到来。AlphaGO击败了世界围棋冠军 — 通用人工智能（AGI）即将到来。人工智能开始在各种能力测试中超越人类 — 通用人工智能（AGI）即将到来。

AI现在在创造力方面似乎胜过人类。而现在，人们似乎都相信通用人工智能 (AGI) 已经很近了。

然而，每当我们在这些人工智能系统中发现错误时，通用人工智能（AGI）都会受到很大的影响。幻觉、错误信息和偏见，你都知道。即使我们拥有最大最强的人工智能模型，这些限制也成为我们设想中的通用人工智能之旅的绊脚石。

令人恼火的是，许多人指出AI的这些缺点是根本性的，固有的，没有办法治愈。

然而，非常有趣的是，我们也有一些情况，人类在面对人工智能时似乎并不那么糟糕。

广泛流传的报告称，人工智能在创造力测试中胜过人类，但并未显示出显著的优势。人工智能当然处于同等水平，但并非始终表现最出色。此外，在AlphaGo案例中，这个故事非常有趣。在一次引人注目的「报复」表演中，FAR AI的美国研究科学家实习生Kellin Pelrine通过显然利用系统的弱点，击败了AlphaGo。

我觉得如果我们的目标是AGI，人工智能的多模态性是前进的方式。即使在近期我们无法实现它，我们也可能接近AGI。

语音输入和输出、图像识别的整合，以及对安全的承诺，使得ChatGPT不断演进，成为一个更加多才多艺和可靠的智能助手。通过分析周围环境进行推理的能力非常接近人类学习的方式。

这些功能打开了无数可能性的大门，从无需使用手的互动到解决视觉问题。

此外，据OpenAI表示，ChatGPT很快将能够在ChatGPT窗口内搜索互联网[4]。截至目前，这些功能将很快面向所有用户和开发者提供。OpenAI计划逐步推出所有功能，以ChatGPT Plus和Enterprise用户为优先。

根据OpenAI的声明，浏览器功能-尽管目前仅适用于Plus和Enterprise用户-很快将对所有用户开放。

如果多模态是我们所走的道路，那么可以肯定，人工智能通用技术已经近在眼前。

在快速创新的世界中，保持信息灵通是至关重要的。加入我的新闻简报《Creative Block》并洞悉最新动态：一份每周发布的简报，涵盖人工智能、科技和科学的可信洞见。没有夸大宣传，没有悲观主义，只有深入研究的分析，引发思考的文章以及精心挑选的真正重要的新闻。

不要错过与真正的进步保持最新状态的机会。立即订阅，了解一切！ 🚀📚

脚注：

只是在等着有一天人们会说：“看！人工智能可以取代机械师的工作。”
请自行查看这里
保持HTML结构，将以下英文文本翻译为简体中文： GPT-4发布是GPT-4的原始版本。GPT-4V是GPT-4的修改版本，已经在大量的价值观和道德数据集上进行了训练。GPT-4V + 拒绝系统是在GPT-4V上添加了一层额外的保护，可以检测并拒绝有害的请求。
然而，这并不是什么新事物，因为你以前也可以使用gpt4——无论是通过使用插件还是使用必应人工智能聊天。