多模态人工智能和制造业的未来
自2023年9月起,OpenAI在其ChatGPT平台上开始推出新的语音和图像功能,引入了更直观的界面,使用户能够进行语音对话并与ChatGPT共享图像,从而提升了整体用户体验。
这种情况进一步增加了多模式的火热流行。
事实上,声音和图像功能的融合为用户在生活的各个方面与ChatGPT互动提供了多种灵活的方式。无论是外出还是在家,用户现在可以利用这些多模态功能与AI模型进行更加身临其境和交互式的互动,为许多以前无法实现的产品场景增添想象力。
多模态将在工业场景中比普通语言模型更广泛地使用。
什么是多模态人工智能?
多模态AI是指能够理解和处理来自多种模态或来源的信息的AI系统和模型。在AI的背景下,模态是输入的不同形式或通道,例如文本、图像、音频、视频或任何其他类型的数据。多模态AI的目标是整合和分析来自各种模态的信息,以实现对数据的更全面的理解。
深度学习人工智能的演变在很大程度上得益于图形处理单元(GPU或TPU)的广泛使用。然而,生成式人工智能将这一进展推向了更高级别,赋予了它似乎无穷无尽的吸收数据的能力,这些数据以令牌形式存在,并具有代表神经元之间连接数量的参数。另外,它利用了被称为浮点运算(FLOPS)的计算能力指标。最新的GPT-4模型现在具备了多模态能力,可以混合文本和图像,经过了实质性的增强,在各种自然语言处理任务中表现出卓越的性能,因此备受赞誉,超越了现有的LLM模型。
多模态AI和工业场景
然而,单模态数据的限制在现实世界的场景,特别是在工业场景中,导致了多模态人工智能的采用是必要的。
在信息丰富的情境中,仅仅依靠“语言”模型是不够的。有效的决策和信息评估需要多种信号的支持。
以制造业为例,这个行业存在大量的数据,包括图片、温度、重量等等。仅仅依靠语言模型在这种情境下是不够的,这突显了需要融入各种形式的信息的必要性。
考虑医疗领域作为另一个实例。为什么医生更倾向于面对面诊断,为什么目前的人工智能无法完全诊断疾病?原因在于医生需要分析言语和患者的表现。当医生仔细审查一张特定的X射线时,他们会参与集体讨论和咨询,因为他们提取的不仅仅是简单的图像或文字段落 - 他们解读多模态信息。
多模态输入不仅包括文本,还包括声音、红外数据和其他元素。这种方法有助于训练模型以多维度思考。
考虑一个仅配备摄像系统的自动驾驶汽车;在低光条件下,它遇到识别行人的困难。为了全面应对这些挑战,激光雷达和全球定位系统(GPS)的整合是必不可少的。这种整合使车辆能够更全面地感知周围环境,从而提高驾驶的安全性和可靠性。
这里的基本原则强调了整合多种感官以更深入理解复杂事件的重要性。通过利用多模态人工智能,文本信息、照片、视频和音频可以融合,形成一个连贯和全面的描述给定情况的呈现。
人工智能从根本上解决的是知识问题,而互联网主要应对的是信息问题。知识本质上是领域特定的,缺乏互联网的普适性。在制造业中,领域专家和多模态人工智能能力的协同集成有潜力显著降低成本并提高效率。
中文:中等:阿尔法图
Twitter: @alphatu4 Twitter: @ alphatu4