从传媒专业到AI构建者:我从摄影到创立CEO-Pro的旅程

我也是一个29岁的传媒专业学生,没有技术背景。我毕业后在商业摄影行业工作,直到我决定在2024年五月底放弃一切。我逃离了家乡萨克拉门托和工作,前往波多黎各的奶奶公寓隔离自己,从零开始学习人工智能。

没有工作,没有朋友,只有我的笔记本电脑和奶奶的肉饼,一个月时间,专注于一个目标:尽我所能学习人工智能,并构建一些很酷的东西。

回想到2023年ChatGPT的病毒发布,我对一个思考机器的概念感到惊讶。它能理解上下文?它能理解微妙之处?它能记住?它能开玩笑?它能创作歌曲?它能帮助写分手短信?

似乎突然出现,但它来了,我很快着迷。

我很快就对迅速工程产生了热爱,认为它非常有趣的地方在于输出结果是如此依赖于你输入的质量。垃圾进,垃圾出,我很快学会了。

我不知道如何编码。但在意识到GPT-4能够以一个相当不错的水平写代码后,并且我一直对技术人员似乎能够在键盘上连续操作几个小时,然后突然间弹出一个功能酷炫的程序,我开始意识到我可以成为“项目经理”,而GPT-4承担繁重劳动。

首个AI项目

经历了令人难以置信的挫折和几乎不道德的残酷提示水平(我在某个地方被列入名单,你们所有人也一样),我成功地编写了我的第一个微型项目:一个在终端上运行的小型自编码程序,在这个程序中,用户提交查询,两个GPT-4迭代相互交流,慢慢构建一个编程项目,批评并来回交流,直到他们一致认为项目完成,然后继续前进。

它可能不理想,但它起了作用。

然后我想:“这怎么能帮助我在现实生活中?”

在我的摄影工作中,我的部分照片编辑职责是拍摄大量的头像照片(手持拍摄)并调整旋转和裁剪,使它们在照片中完美居中。每张照片都必须完全统一,变化尽可能少。

这花了好几个小时,而且我更好的时间应该花在关注更难的图片上。

所以我问ChatGPT我如何自动化这个过程。在家里花了几个星期建造后,我拥有了一个程序,利用面部识别软件扫描原始图像并输出一个版本,不仅符合我们特定的裁剪和旋转要求,而且准确度远远高于以前。

但最可怕的部分是这样的:

1000 张图片会花费我 2 天的时间来完成。

这花了10秒钟。

在这项技术的可怕潜力引发了一场小小的存在危机后,我决定尽我所能投身于这个领域。

我接下来的一年几乎和GPT-4约会,我给它发短信比我所有的朋友加起来还多(我有朋友,记录中有)。每天晚上我都会尝试不同的提示策略,看我能推动它到多远。几周后,我最终成功地越狱了GPT-4,使用了“讲故事”技术写的一个谨慎的方法。我认识的人都不在乎,但对我来说却是一件很重要的事情。

微调模型

在我永无止境的追求更高质量输出的过程中,我也探索了微调模型。

我这次想要一个巨大的挑战,所以我选择了商业咨询的使用案例,因为它的复杂性和需要在许多学科(会计,营销,项目管理等)上的专业知识,同时还需要强大的推理能力,以提供与人类相媲美的高质量输出。

但在我花了大量我没有的钱用于我的编码机器人的昂贵GPT-4积分之后,我想看看能否用一种价格大大便宜的模型获得质量结果,这种模型可以与基础模型相媲美。因此我决定对Llama 3 8b模型进行微调。

但我需要一个质量和多样化的商业推理数据集,所以我再次要求GPT-4o创建一个新程序:一个复杂的商业问答数据集生成器,使用多种商业变量(如行业,规模,市值等),仅仅有着接近36万亿个独特的商业情景的潜力。

由于我的严格预算限制,我生成了500mb的合成商业场景和解决方案数据,其中包括三个响应长度级别,以鼓励模型的灵活性。与GPT-4o对相同测试商业场景提示的响应相比,所得到的商业咨询Llama 3.1 8b微调质量百分比在GPT-4o评估时在2-3%之内(使用我的LLM响应评估器自定义GPT)。

但是无论你如何微调,最终开源模型在质量上都存在限制(至少在我的预算内),与基础模型相比。所以我决定将AI驱动的商业顾问带到下一个水平。

对于人工智能推理的甜蜜改进总是贪心,所以我急忙回到基础模型。我开始研究马尔科夫决策过程(MDP)、蒙特卡洛树搜索(MCTS)、Q值估计、模拟推演、启发函数、A*搜索、奖励函数分析、敏感性分析、强化学习以及通过评估实现迭代自我改进的最新研究论文。

但自从我决定获得一个文科学位后,学会自己采用一种传统的机器学习方式,在一个由人工智能驱动的商业顾问中实现其中一些,这将让我头痛欲裂,除非我雇人,否则几乎不可能。

突然的启发

然后突然有了灵光一现的时刻:

  1. 我们可以通过提示工程来模拟机器学习方法论,创建“深度推理提示”。
  2. 我们可以使用许多这些深层推理提示来创建一个“深层推理提示链”,在用户提交查询后自动直接连续运行。
  3. 我们可以利用超过1百万标记的大上下文窗口来创建一个广阔的“潜在空间”,进行持续重新评估和模拟,采用各种方法进行各种工作,无休止的逻辑和推理(提示)连锁反应,从而产生更高质量的回应。
  4. 我们可以调整提示以适应任何特定领域,提高相关性,例如商业咨询。
  5. 尽可能在令牌窗口中填入尽可能多的补充信息。将用户上传的数据与大型向量数据库和由AI代理进行的实时网络搜索相结合,以向每个提示添加相关的上下文信息。这个过程不仅可以改善即时回应,还可以为链式回应的其余部分建立一个更丰富、更全面的知识库。
  6. 自动领域特定的深度推理提示链,具有像Gemini 1.5 Flash这样的经济模型,提供了一个大的上下文窗口和额外研究空间,提供出色的推理结果,以及更流畅的用户体验,所有这些都比使用传统提示技术的昂贵基础模型的成本低得多。

首席执行官

所以我做到了,它被称为“CEO Pro”,这是一款SaaS软件,将人工智能引入到商业决策中,帮助所有人,从小型企业所有者到高级商业顾问在他们的日常工作中。访问ceopro.ai免费试用。

2024-10-19 04:22:15 AI中文站翻译自原文