多模态人工智能革命
为什么我对基于和针对多模态世界构建的应用程序和基础设施感到兴奋
作为人类,我们通过各种媒介来体验世界,轻松地在不同的信息模式之间导航——文本、音频、图像、视频。多模态人工智能*就是这个现实的协调,它是人工智能的自然进化,反映了人类感知和互动的复杂性。
在过去几年中(从2017年开始,如果你以变形金刚模型的发布时间为基准,2022年如果你以ChatGPT将LLM引入主流意识的时间为基准),都是关于LLM的。随着LLM的迅速改进,图像、视频和语音模型也在不断改进。
我们现在已经有了构建高性能应用程序的基础,这些应用程序可以将现有的文本、图像、语音和视频模型组合在一起。我们开源和闭源的模型可以处理文本转语音(例如Play.ht、ElevenLabs、WellSaid Labs)、语音转文本(语音识别,例如Whisper)、文本转图像(图像生成,例如Stable Diffusion、Midjourney、Imagen、DALL-E)、图像转文本(图像描述,例如GPT-4V、LLaVA)、文本转视频(视频合成)和视频转文本(视频转录)等任务。随着这些模型的不断改进,它们变得越来越“足够好”,可以支持和增强人类。
所以,在这个多模态的世界中,构建产品和业务有哪些不同的方法?与其他行业类似,您可以选择在应用层(为业务或消费者端用户提供服务)、API层(为开发人员提供服务)或基础架构层进行构建。
在应用层,我们有几个选择要做-包括产品的广度(例如,您是1)跨行业和用例构建 - 可能是以API为先的产品,2)围绕特定行业(例如医疗保健,金融科技,供应链等)垂直构建,或者3)根据特定职能(例如客户支持,销售,业务运营等)进行功能性构建?)以及ICP的形状和大小(例如企业或中市场/ SMBs)。创业公司在这里将在与现有工作流程的整合方便性(始终如此)以及最终需要找出如何以节省员工工时和/或创造新收入的投资回报(ROI)来竞争。
在API层面上,价值主张是将多模态功能无缝集成到现有平台中。在这里,初创企业将在质量、价格和开发者体验(以及分发方面)展开竞争。在质量方面的起点会比其他领域更高,因为被拼接在一起的基础模块是广泛可得的。对质量的额外提升将来自模型优化以及这些不同模型的协调和编排。
在基础架构层面,存在着应对各种技术挑战的机会(其中许多与LLMOps世界中的机会相似),包括如何在规模上处理和管理多模态数据,如何高效地部署大型模型以及如何评估模型的性能和稳定性。具有才华的AI工程师和研究科学家将有机会在越来越多的多模态应用被赋予生命时创建、传播和产品化最佳实践。
在本质上,我们现在拥有构建人工智能产品的基石,这些产品能够模拟我们与世界互动的方式。如果你正在构建一个多模态应用、API或基础设施平台,我很乐意交谈-请通过这里或Twitter与我联系!
感谢ChatGPT,以及在这个领域的同事、朋友和创始人,感谢你们精彩的交流,帮助塑造这些想法。
*脚注:这里简单地解释两个相关概念——多模态人工智能和多模态机器学习的区别。ChatGPT在这方面做得相当不错。
"多模态人工智能涉及多种模式或数据类型(如文本、图像和音频)的集成,用于构建能够跨不同感官通道理解、解释和生成信息的系统。"
多模态机器学习是指使用机器学习技术处理和处理来自多个模态的数据。它是机器学习的一个子集,处理来自不同来源的信息的整合。