我的创建MNDXT之路

Prompt: “A hiker makes his way to a summit. At the summit he finds a high-tech AI oracle that gives hikers information and advice.” #mndxt
Prompt: “A hiker makes his way to a summit. At the summit he finds a high-tech AI oracle that gives hikers information and advice.” #mndxt

我很激动地与你分享我开发MNDXT的旅程。在过去的一年里,开发自己的应用程序一直是一个具有挑战性但非常有回报的经历,涵盖了前端、后端、架构和设计。到今天,它仍然如此!这篇博客文章是第一篇,并将在不久的将来有更多的文章跟进。

初次接触

对我来说,一切始于2022年秋季,当时新闻媒体开始报导ChatGPT,OpenAI的GPT-3大型语言模型以聊天机器人的形式呈现。这种简单的方法使得AI文本生成比以往任何时候都更加容易接触到更广泛的受众。突然之间,任何能够使用WhatsApp的人都有能力创造大量内容,并与拥有阅读数十亿份文件、书籍、在线讨论等资源的个人AI伴侣进行各种主题的讨论。这对于内容生成来说是一个革命性的变革,并立即引起了我的注意。

大约在同一时间,类似Dall-E(也是由OpenAI开发)和Stable Diffusion(由Stability AI创建)的文本到图像人工智能开始面向公众提供。这些革命性的工具使每个人都能创建令人惊叹的图像,当然除了手和手指之外。我开始探索与OpenAI API进行实验,并设置了自己的虚拟机,通过Stable Diffusion来渲染图像,在云端租用图形卡来实现。在这个过程中,我发现了Midjourney,这是我迄今为止遇到的最优秀的图像生成人工智能。

A man meeting a robot the first time in a beautiful cafe

创世纪

在试玩所有那些酷炫的新工具时,我感到缺少了一些东西:将两个AI工具整合到一个应用程序中!在2023年春季,你仍然需要设置一个OpenAI账号来讨论话题和创建文本,还需要在Discord服务器上注册(并订阅)另一个服务Midjourney来生成图片。即使在今天,你仍然需要为这两个服务订阅两个订阅,才能充分利用主导文本和图像生成器的强大功能(很抱歉Dall-E 3,但你还未达到那个水平),这对你的月度预算又增加了压力。为什么没有出现任何用户友好的按次付费版本呢?Play Store上已经有其他GPT封装应用,但它们有令人昏昏欲睡的广告、极高的(每周)订阅费用,而且没有良好的用户体验,这一点在它们的Play Store评论中一遍又一遍地能看到。

所以,在2023年3月,我明确地知道我必须亲自建设它!MNDXT应该是无广告的,没有订阅但有基于信用的付费模式(按次付费),易于使用,并且具备最佳的文本和图像生成人工智能。但我应该从哪里开始呢?我从聊天组件开始,因为它似乎是最容易的部分。结果证明,即使是实现一个简单的后台服务(ktor,firebase,Google Cloud Run)和应用程序(安卓),也需要大量的初始规划、时间和精力,尤其是如果你有全职工作、有两个孩子的家庭以及其他日常生活责任。因此,虽然我几乎每个晚上都花费了几个小时在MNDXT上,但我花了大约三个月的时间才构建出一个值得向公众提供的东西。而且它真的很受欢迎!我从周围的每个人那里得到了很多积极的反馈,甚至第一次评级都是五星级的。这种感觉太棒了,但我并没有就此止步。我的下一步是添加基于稳定扩散的图像生成功能。我真的很喜欢Midjourney呈现图像和额外选项的方式——一个包含四个不同输出图像的网格,并带有放大或创建变体的按钮,所以这就是我追求的用户体验(UX)。此外,我希望缩小文本生成和图像生成之间的差距,这就是为什么我实现了一个自定义函数,检查用户的输入是否可能想要生成一张图片。如果是这样的话,文本人工智能会为用户生成一个图像提示,并将该提示馈送给图像人工智能。

Birth of an app like the birth of stars

今天你能做什么

在撰写这篇博客文章时,您可以创建任何类型的文本、代码或结构化和非结构化数据。为了让MNDXT以结构化的方式显示数据,我实现了一种让它输出Markdown的方法。例如,对于下面的Shell脚本,我只需提示MNDXT即可。

编写一个shell脚本从我的Cloudinary实例下载所有图片。

此外,根据我之前提到的Midjourney风格的用户界面,您可以以不同的风格生成各种图像,从漫画到电影相机镜头再到像素艺术。在以下图像创建步骤中,我切换到图像生成模式,只需简单地要求它绘制。

一个男人和一个友好的机器人坐在一家咖啡馆里。

作为风格(如果您喜欢,也可以是额外的属性),我选择了“漫画书”风格。但您也可以在您的提示中提及该风格。

你甚至可以和MNDXT玩hangman (猜单词游戏),或者在某种程度上玩国际象棋。正如所有的LLM(至少在这篇博客发布时),它在逻辑思维和推理方面并不擅长,但当然它的数据集中有大量的“国际象棋棋局”。下面的截图是通过提示(高质量文本模式/激活GPT4)创建的。

让我们来玩绞刑游戏。

这还不是全部!通过更复杂的提示,你甚至可以编写和插图儿童图书、写作职位描述或求职信、学习新的编程语言和框架,或了解历史、化学、物理、数学、艺术等各种主题,几乎可以想到的任何人类能以任何形式书写的内容。对于复杂任务,最好将其拆分为子任务,并让MNDXT逐步处理。如果它生成的结果与您期望的不符,您只需简单地要求它更正输出,或告诉您如何提供更好的提示。

那么,你准备好试试看了吗?立即在www.mndxt.app下载并获得免费积分来玩耍吧!

2024-01-08 04:38:48 AI中文站翻译自原文