释放ChatGPT高级语音模式的力量

让我们来探索ChatGPT的高级语音模式.

Created using DALLE on October 4, 2024, using prompt “ChatGPT’s Advanced Voice Mode”

作者

  • Wendi Fan (ORCID: 0000–0003–0284–9166) 温迪·范 (ORCID: 0000–0003–0284–9166)

简介

在当今快节奏的世界中,方便和效率至关重要,OpenAI最新推出的ChatGPT的Advanced Voice Mode为人机交互设立了新的标准。

简而言之,ChatGPT的高级语音模式是一项强大的新功能,可以实现实时、自然的语音交流。与以前的版本不同,它可以直接理解语音而无需先将其转录成文本。这减少了延迟,使对话更加流畅和真实。用户不再需要担心说话大声或清晰,因为高级模型可以捕捉细微之处并更自然地回应。这种体验更快、更准确,感觉更像是与真人交谈,增强了用户的参与度和满意度。

其背后的技术

两种主要技术使高级语音模式成为可能:

1. 自动语音识别(ASR)

在高级语音模式的核心是自动语音识别(ASR),它直接处理您的声音以理解您的话语。这种快速、准确的系统能够适应各种口音和说话速度,确保流畅的交流。

2. 文字转语音 (TTS)

一旦您的查询被处理,文本转语音(TTS)会生成自然流畅的响应。有多个声音选项可用,这些声音既富有表现力又清晰,提升了整体用户体验。

一起,这些技术使得对话更加流畅、栩栩如生,几乎就好像你正在与一个真正的助手互动一样。

为什么OpenAI改进了语音模式

ChatGPT的旧语音模式存在几个缺点,使得交互不太顺畅和令人愉快。首先,它涉及多个步骤:您的语音被转录成文本,经过语言模型处理,然后再转换回语音。这导致延迟,增加了误解的可能性 - 如遗漏语调或语音清晰度中的细微差别。用户必须大声说话并避免停顿以防止中断。这些额外的步骤创造了一种有些僵硬和不自然的体验,因为用户必须适应模型的局限性,而不是进行轻松流畅的对话。

相比之下,新的高级语音模式能够原生地理解语音,省去了这些额外的步骤。这使得互动更加流畅,让对话感觉更加自然和反应迅速。改进显著减少了延迟,增强了整体对话流程,使用户体验更加轻松和直观。

如何开始高级模式语音对话?

要开始语音对话,我们只能在移动设备上使用该功能,因为高级语音模式尚未在桌面上提供。此外,它仅限于ChatGPT订阅者。

在右下角选择声音图标:

ChatGPT Voice Input Button

当您开始一个高级语音聊天时,您会看到一个带有蓝色球体的屏幕。

User interface of ChatGPT advanced voice mode

请注意,使用标准语音进行的对话在中心有一个黑色圆圈。

User interface of old ChatGPT voice chat

一旦一切设置就绪,您就准备好开始使用新的语音聊天了。如果这是您第一次使用高级语音,则会提示您选择一种语音。您可以随时在设置中更改您的语音,或者在语音模式中使用右上角的自定义菜单进行更改。

什么使高级语音模式与之前版本不同?

  • 声音多样性和逼真感:新的语音模式拥有五个全新的声音,都是与专业配音演员合作创作的。相较于旧版本,这些声音听起来更像人类,更加自然。例如,用户现在可以选择不同音调和口音的声音。

ChatGPT 有九种栩栩如生的输出音频,每种音频都有独特的语气和个性:

  • 树苑 - 随和多才
  • 清风—生动而真诚
  • 海湾 — 简洁直接
  • Ember - 自信和乐观
  • 杜松子酒 — 开放而乐观
  • 枫树 — 快乐和真诚
  • Sol — 睿智和放松
  • 云杉 - 平静和肯定
  • 谷——明亮且好奇
  • User interface of old ChatGPT voice chat

这些声音听起来非常逼真,甚至可以模仿人类语音中自然发生的微妙噪音或停顿。这显著增强了用户体验,使互动更加栩栩如生和身临其境。

  • 改进的口音支持:新版本包含更好的对各种口音的支持,能够实现更本地化和自然的语音。例如,相比较较老版本,它能更好地处理地区口音,适应性更强。
  • 新的语音模式更好地模仿不同口音,如意大利口音或俄罗斯口音的英语。我惊喜地发现ChatGPT还可以模仿其他语言中的地方口音。例如,在中文中,它可以模仿北京、河南或四川方言的口音。这种多功能性进一步提高了用户体验的真实感和个性化。
  • 多语种功能:新的语音模式支持50多种语言,比如在不同语言中说“抱歉我迟到了”。旧版本的多语种支持有限,这是一个显著的改进。
  • 更流畅的对话:新的文本转语音引擎提供更流畅、更流畅的对话。与旧版本相比,句子和短语之间的过渡现在更自然,不那么机械。
  • 旧版语音聊天在回答问题时反应较慢,特别是在复杂问题上,需要等待很长时间才能得到答案。相比之下,新版语音模式几乎实时回应,并允许您随时打断以提出新问题。互动体验更加流畅和无缝,大大增强了整体用户体验。使用新版语音聊天,用户不再需要像之前那样大声说话。即使您轻声细语,新版本也能准确识别您的语音,使体验更加便捷和自然。

通过先进的语音模式提升用户体验

所以,高级语音模式如何提升用户体验?以下是一些关键增强功能:

1. 增加生产力

对于繁忙的用户来说,这种模式让您可以免除使用手进行任务,比如请求更新、口述电子邮件或安排会议,而无需停下来打字。非常适合多任务处理。

2. 更大的可访问性

这一特性为残障用户提供了新的与ChatGPT交互的方法,使其更易于在不依赖屏幕或键盘的情况下导航。

3. 有趣的学习和娱乐

无论是练习语言还是提出复杂问题,高级语音模式都能带来更沉浸和轻松的学习和娱乐体验。

新语音聊天的缺点

以下是新高级语音模式的一些潜在缺点:

  1. 使用限制:对于Plus和Team用户,高级语音模式有每日时间限制,可能会更改。当用户接近限制时,他们会收到通知,并在当天剩余15分钟时收到最后提醒。免费用户可以访问每月预览以尝试该功能。令人失望的是,付费用户每天只能有限制的使用分钟数来使用高级语音模式。
  2. Reach the limit of data

2. 发音问题:虽然它支持多种语言,但在非英语语言中一些口音或发音可能听起来不自然或不准确。虽然英语发音很棒,但当涉及到其他像中文这样的语言时,我注意到一些词听起来相对不自然。在这些情况下很容易辨别出声音并非完全人类。

3. 高级模式的独立窗口:您不能直接在聊天窗口中使用高级语音模式;相反,您需要打开一个新的聊天窗口来开始使用它。

結論

总的来说,ChatGPT的高级语音模式在语音交互方面有了重大突破,提供更流畅、更逼真的对话体验,并支持增强口音和多语言。它极大地提高了生产力、可访问性和整体用户参与度。然而,该功能也存在一些限制,比如订阅用户每日使用次数上限、非英语语言发音问题以及需要使用单独窗口进行语音交互。尽管存在这些缺点,用户体验的改进使其成为高效和沉浸式交流的有价值工具。

参考资料

  • 丹·席普. “评论: ChatGPT 的新高级语音模式”. 每日, 2024年8月9日. 阅读。于2024年10月10日访问。
  • OpenAI团队 — 语音模式常见问题阅读。
  • 乔丹·诺维特。“OpenAI刚刚推出了ChatGPT的高级语音模式,用于音频聊天。这是如何使用它的。”CNBC,2024年9月25日。阅读更多。于2024年10月10日访问。
  • Reece Rogers。“我使用了ChatGPT的高级语音模式。很有趣,但有点令人不安”。WIRED,2024年8月13日。请阅读。于2024年10月10日访问。

2024-10-12 04:12:01 AI中文站翻译自原文