如何使用ChatGPT爬取网站

网页抓取通常被视为一项繁琐且耗时的任务，尤其是对于那些刚接触或没有编码经验的人来说。但现在，通过ChatGPT，我们可以简化这个过程。这个人工智能以其处理大量信息并协助创建基本程序的能力而闻名。因此，它是自动化网页抓取任务的理想工具。我将为您介绍整个过程，以便我们从ChatGPT获取一个可执行的用于抓取网站的Python程序。

指南

在我们开始之前，让我们来看一下你可以针对自己的网络爬虫项目定制的提示：

创建一个Python程序来爬取[x]。我想收集以下文本数据：[y]。使用网站的HTML内容来决定程序如何获取文本数据。将文本数据写入一个新的JSON文件。请确保包含必要的下载或安装。HTML内容：[z]。

Step 1: 确定需要抓取的网站和数据

从开始决定你想要抓取的网站。在这个例子中，我们将使用https://sive.rs/blog作为网站[x]。记得保存URL，因为你的Python程序需要访问该网站。

第二步：确定要抓取的文本数据

接下来，决定你想要抓取的特定文本数据[y]。这将指导你确定网站上所需的HTML内容。

步骤 3: 提取所需的 HTML 内容

要捕获相关的HTML [z]，请按照以下步骤操作：

按下 `Ctrl + Shift + C` 以在您的浏览器中启用元素选择。
在网站上滑动鼠标，直到找到以蓝色矩形突出显示的所需文本数据。
点击矩形框以选择浏览器元素面板中的元素。
查看浏览器底部的控制台。右键点击所选的HTML行，选择“以HTML编辑”，然后使用 `Ctrl + Shift + A` 复制HTML。最终结果应该如下所示：

第四步：定制并提交提示

那么，你已经有了URL，知道你想要的文本数据，并已经复制了HTML。现在是时候编辑提示了。例如，如果你想要从https://sive.rs/blog上抓取文章的标题和链接，你给ChatGPT的提示应该是这样的：

创建一个python程序来爬取https://sive.rs/blog。我想要收集以下文本数据：每篇文章的文章链接和标题。使用网站的HTML内容来决定程序如何捕获文本数据。将文本数据写入一个新的json文件。确保包含必要的下载或安装。HTML内容：

监督和检查
制定政策和法规
推动改革和发展
提供公共服务
保障人民权益

漫步交谈

过去不是真实的

跳跃的狗，寻求目标

...等等

第五步：使用ChatGPT响应

ChatGPT随后会提供一个回应，提供一个Python脚本来爬取所需的数据。回应将包括要求（例如Python和必要的库）、Python程序代码和它的工作原理的解释。最重要的是，您将收到关于如何设置和执行该程序的说明！

ChatGPT示例回复

为了从提供的HTML内容中提取文章链接和标题，并将它们写入JSON文件，您将需要一些Python库。以下是一个简单的程序来实现这一功能：

### 要求

1. 您的系统上已安装Python。

2. 库：`requests` 和 `BeautifulSoup` 用于网络爬虫。

使用pip进行安装：`pip install requests beautifulsoup4`

### Python程序

import requests
from bs4 import BeautifulSoup
import json

def scrape_articles(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    articles = []

    for li in soup.find_all('li'):
        a = li.find('a')
        if a:
            article = {
                'title': a.text.strip(),
                'link': url + a['href']
            }
            articles.append(article)

    return articles

def main():
    url = 'https://sive.rs/blog'
    articles = scrape_articles(url)

    with open('articles.json', 'w') as file:
        json.dump(articles, file, indent=4)

    print("Articles scraped and saved to articles.json")

if __name__ == "__main__":
    main()

### 工作原理

1. 该程序向URL发送请求。

2. 它分析HTML内容以查找列表项（`

`）。

3. 对于每个列表项，它提取文章的标题和链接。

4. 文章保存在一个JSON文件中。

### 运行程序

1. 将脚本保存在文件中，例如 `scraper.py`。

2. 运行脚本：`python scraper.py`。

这将会创建一个名为`articles.json`的文件，并将爬取到的数据存入其中。

### 注释

- 确保您具备合适的权限来爬取该网站。

- 根据网站的实际URL结构，可能需要调整脚本中的URL。

结论

欢迎来到自动化网络爬虫与人工智能的世界！到目前为止，您应该已经具备了一个通过ChatGPT定制的功能齐全的Python脚本，用于从您所需的网站中抓取数据。记住，ChatGPT的潜力超出了这个范围。它是一个可以将您的其他想法转化为代码的工具。我建议您尝试不同的项目，并将ChatGPT用作个人助手，自动化处理所有枯燥无聊的任务！