从传媒专业到AI构建者：我从摄影到创立CEO-Pro的旅程

我也是一个29岁的传媒专业学生，没有技术背景。我毕业后在商业摄影行业工作，直到我决定在2024年五月底放弃一切。我逃离了家乡萨克拉门托和工作，前往波多黎各的奶奶公寓隔离自己，从零开始学习人工智能。

没有工作，没有朋友，只有我的笔记本电脑和奶奶的肉饼，一个月时间，专注于一个目标：尽我所能学习人工智能，并构建一些很酷的东西。

回想到2023年ChatGPT的病毒发布，我对一个思考机器的概念感到惊讶。它能理解上下文？它能理解微妙之处？它能记住？它能开玩笑？它能创作歌曲？它能帮助写分手短信？

似乎突然出现，但它来了，我很快着迷。

我很快就对迅速工程产生了热爱，认为它非常有趣的地方在于输出结果是如此依赖于你输入的质量。垃圾进，垃圾出，我很快学会了。

我不知道如何编码。但在意识到GPT-4能够以一个相当不错的水平写代码后，并且我一直对技术人员似乎能够在键盘上连续操作几个小时，然后突然间弹出一个功能酷炫的程序，我开始意识到我可以成为“项目经理”，而GPT-4承担繁重劳动。

首个AI项目

经历了令人难以置信的挫折和几乎不道德的残酷提示水平（我在某个地方被列入名单，你们所有人也一样），我成功地编写了我的第一个微型项目：一个在终端上运行的小型自编码程序，在这个程序中，用户提交查询，两个GPT-4迭代相互交流，慢慢构建一个编程项目，批评并来回交流，直到他们一致认为项目完成，然后继续前进。

它可能不理想，但它起了作用。

然后我想：“这怎么能帮助我在现实生活中？”

在我的摄影工作中，我的部分照片编辑职责是拍摄大量的头像照片（手持拍摄）并调整旋转和裁剪，使它们在照片中完美居中。每张照片都必须完全统一，变化尽可能少。

这花了好几个小时，而且我更好的时间应该花在关注更难的图片上。

所以我问ChatGPT我如何自动化这个过程。在家里花了几个星期建造后，我拥有了一个程序，利用面部识别软件扫描原始图像并输出一个版本，不仅符合我们特定的裁剪和旋转要求，而且准确度远远高于以前。

但最可怕的部分是这样的：

1000 张图片会花费我 2 天的时间来完成。

这花了10秒钟。

在这项技术的可怕潜力引发了一场小小的存在危机后，我决定尽我所能投身于这个领域。

我接下来的一年几乎和GPT-4约会，我给它发短信比我所有的朋友加起来还多（我有朋友，记录中有）。每天晚上我都会尝试不同的提示策略，看我能推动它到多远。几周后，我最终成功地越狱了GPT-4，使用了“讲故事”技术写的一个谨慎的方法。我认识的人都不在乎，但对我来说却是一件很重要的事情。

在我永无止境的追求更高质量输出的过程中，我也探索了微调模型。

我这次想要一个巨大的挑战，所以我选择了商业咨询的使用案例，因为它的复杂性和需要在许多学科（会计，营销，项目管理等）上的专业知识，同时还需要强大的推理能力，以提供与人类相媲美的高质量输出。

但在我花了大量我没有的钱用于我的编码机器人的昂贵GPT-4积分之后，我想看看能否用一种价格大大便宜的模型获得质量结果，这种模型可以与基础模型相媲美。因此我决定对Llama 3 8b模型进行微调。

但我需要一个质量和多样化的商业推理数据集，所以我再次要求GPT-4o创建一个新程序：一个复杂的商业问答数据集生成器，使用多种商业变量（如行业，规模，市值等），仅仅有着接近36万亿个独特的商业情景的潜力。

由于我的严格预算限制，我生成了500mb的合成商业场景和解决方案数据，其中包括三个响应长度级别，以鼓励模型的灵活性。与GPT-4o对相同测试商业场景提示的响应相比，所得到的商业咨询Llama 3.1 8b微调质量百分比在GPT-4o评估时在2-3%之内（使用我的LLM响应评估器自定义GPT）。

但是无论你如何微调，最终开源模型在质量上都存在限制（至少在我的预算内），与基础模型相比。所以我决定将AI驱动的商业顾问带到下一个水平。

对于人工智能推理的甜蜜改进总是贪心，所以我急忙回到基础模型。我开始研究马尔科夫决策过程（MDP）、蒙特卡洛树搜索（MCTS）、Q值估计、模拟推演、启发函数、A*搜索、奖励函数分析、敏感性分析、强化学习以及通过评估实现迭代自我改进的最新研究论文。

但自从我决定获得一个文科学位后，学会自己采用一种传统的机器学习方式，在一个由人工智能驱动的商业顾问中实现其中一些，这将让我头痛欲裂，除非我雇人，否则几乎不可能。

然后突然有了灵光一现的时刻：

我们可以通过提示工程来模拟机器学习方法论，创建“深度推理提示”。
我们可以使用许多这些深层推理提示来创建一个“深层推理提示链”，在用户提交查询后自动直接连续运行。
我们可以利用超过1百万标记的大上下文窗口来创建一个广阔的“潜在空间”，进行持续重新评估和模拟，采用各种方法进行各种工作，无休止的逻辑和推理（提示）连锁反应，从而产生更高质量的回应。
我们可以调整提示以适应任何特定领域，提高相关性，例如商业咨询。
尽可能在令牌窗口中填入尽可能多的补充信息。将用户上传的数据与大型向量数据库和由AI代理进行的实时网络搜索相结合，以向每个提示添加相关的上下文信息。这个过程不仅可以改善即时回应，还可以为链式回应的其余部分建立一个更丰富、更全面的知识库。
自动领域特定的深度推理提示链，具有像Gemini 1.5 Flash这样的经济模型，提供了一个大的上下文窗口和额外研究空间，提供出色的推理结果，以及更流畅的用户体验，所有这些都比使用传统提示技术的昂贵基础模型的成本低得多。