如何使用ChatGPT爬取网站

网页抓取通常被视为一项繁琐且耗时的任务,尤其是对于那些刚接触或没有编码经验的人来说。但现在,通过ChatGPT,我们可以简化这个过程。这个人工智能以其处理大量信息并协助创建基本程序的能力而闻名。因此,它是自动化网页抓取任务的理想工具。我将为您介绍整个过程,以便我们从ChatGPT获取一个可执行的用于抓取网站的Python程序。

指南

在我们开始之前,让我们来看一下你可以针对自己的网络爬虫项目定制的提示:

创建一个Python程序来爬取[x]。我想收集以下文本数据:[y]。使用网站的HTML内容来决定程序如何获取文本数据。将文本数据写入一个新的JSON文件。请确保包含必要的下载或安装。HTML内容:[z]。

Step 1: 确定需要抓取的网站和数据

从开始决定你想要抓取的网站。在这个例子中,我们将使用https://sive.rs/blog作为网站[x]。记得保存URL,因为你的Python程序需要访问该网站。

第二步:确定要抓取的文本数据

接下来,决定你想要抓取的特定文本数据[y]。这将指导你确定网站上所需的HTML内容。

步骤 3: 提取所需的 HTML 内容

要捕获相关的HTML [z],请按照以下步骤操作:

  • 按下 `Ctrl + Shift + C` 以在您的浏览器中启用元素选择。
  • 在网站上滑动鼠标,直到找到以蓝色矩形突出显示的所需文本数据。
  • 点击矩形框以选择浏览器元素面板中的元素。
  • 查看浏览器底部的控制台。右键点击所选的HTML行,选择“以HTML编辑”,然后使用 `Ctrl + Shift + A` 复制HTML。最终结果应该如下所示:

第四步:定制并提交提示

那么,你已经有了URL,知道你想要的文本数据,并已经复制了HTML。现在是时候编辑提示了。例如,如果你想要从https://sive.rs/blog上抓取文章的标题和链接,你给ChatGPT的提示应该是这样的:

创建一个python程序来爬取https://sive.rs/blog。我想要收集以下文本数据:每篇文章的文章链接和标题。使用网站的HTML内容来决定程序如何捕获文本数据。将文本数据写入一个新的json文件。确保包含必要的下载或安装。HTML内容:

  • 监督和检查
  • 制定政策和法规
  • 推动改革和发展
  • 提供公共服务
  • 保障人民权益

  • 漫步交谈

  • 过去不是真实的

  • 跳跃的狗,寻求目标

    ...等等

    第五步:使用ChatGPT响应

    ChatGPT随后会提供一个回应,提供一个Python脚本来爬取所需的数据。回应将包括要求(例如Python和必要的库)、Python程序代码和它的工作原理的解释。最重要的是,您将收到关于如何设置和执行该程序的说明!

    ChatGPT示例回复

    为了从提供的HTML内容中提取文章链接和标题,并将它们写入JSON文件,您将需要一些Python库。以下是一个简单的程序来实现这一功能:

    ### 要求

    1. 您的系统上已安装Python。

    2. 库:`requests` 和 `BeautifulSoup` 用于网络爬虫。

    使用pip进行安装:`pip install requests beautifulsoup4`

    ### Python程序

    import requests
    from bs4 import BeautifulSoup
    import json

    def scrape_articles(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    articles = []

    for li in soup.find_all('li'):
    a = li.find('a')
    if a:
    article = {
    'title': a.text.strip(),
    'link': url + a['href']
    }
    articles.append(article)

    return articles

    def main():
    url = 'https://sive.rs/blog'
    articles = scrape_articles(url)

    with open('articles.json', 'w') as file:
    json.dump(articles, file, indent=4)

    print("Articles scraped and saved to articles.json")

    if __name__ == "__main__":
    main()

    ### 工作原理

    1. 该程序向URL发送请求。

    2. 它分析HTML内容以查找列表项(`

  • `)。

    3. 对于每个列表项,它提取文章的标题和链接。

    4. 文章保存在一个JSON文件中。

    ### 运行程序

    1. 将脚本保存在文件中,例如 `scraper.py`。

    2. 运行脚本:`python scraper.py`。

    这将会创建一个名为`articles.json`的文件,并将爬取到的数据存入其中。

    ### 注释

    - 确保您具备合适的权限来爬取该网站。

    - 根据网站的实际URL结构,可能需要调整脚本中的URL。

    结论

    欢迎来到自动化网络爬虫与人工智能的世界!到目前为止,您应该已经具备了一个通过ChatGPT定制的功能齐全的Python脚本,用于从您所需的网站中抓取数据。记住,ChatGPT的潜力超出了这个范围。它是一个可以将您的其他想法转化为代码的工具。我建议您尝试不同的项目,并将ChatGPT用作个人助手,自动化处理所有枯燥无聊的任务!

  • 2024-01-18 04:20:54 AI中文站翻译自原文