Langflow微教程 — 链接收集器

欢迎回到我们的Langflow微教程系列!在本文中,我们将继续探索简单的Langflow示例和自定义组件设计。

您可以下载我们将要讨论的流程,以便修改和了解正在使用的组件。

今天,我们将专注于一个基本的网络爬虫流程,用于提取可能包含有价值信息的链接。希望你喜欢!

ChatGPT中文站

主要特点

HTML加载器:HTML加载器自定义组件使用BeautifulSoup库从给定的URL中检索出soup对象。这样可以轻松从HTML文档中提取相关信息。

HTML链接提取器:HTML链接提取器可以获取HTML内容中的链接。通过利用BeautifulSoup,该组件可以减少在信息被LLM处理之前的文本量,从而节省时间和令牌成本。

ChatGPT中文站

目标

该流程的目标是从HTML文档中提取相关链接,并将它们作为项目符号呈现给语言模型。

该模型旨在识别可能包含公司电子邮件的链接(在此示例中使用了“email”,但您可以想象其他不同查询的类似用例),如“关于我们”和“联系我们”页面。

注意,在将HTML信息传递给提示模板之前,会对其进行一些预处理,这使得自定义组件和LLM管道更具吸引力。

下载流程 (要点)

2023-10-20 17:16:42 AI中文站翻译自原文