爬虫基础知识点快速入门

news/2024/7/24 10:53:18 标签: 爬虫

以下是一个包含注释的Python示例，演示了基本的网页爬取过程，以及一些常见的爬虫知识点：

# 导入必要的库
import requests  # 用于发送HTTP请求
from bs4 import BeautifulSoup  # 用于解析HTML
import csv  # 用于数据存储

# 1. 指定目标网站的URL
url = 'https://example.com'

# 2. 发送GET请求，获取网页内容
response = requests.get(url)

# 3. 检查请求是否成功
if response.status_code == 200:
    # 4. 使用BeautifulSoup解析网页内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 5. 找到需要的信息，例如标题
    title = soup.title.text

    # 6. 打印标题
    print(f'Title: {title}')

    # 7. 查找所有链接
    links = soup.find_all('a')

    # 8. 打印所有链接
    for link in links:
        href = link.get('href')
        print(f'Link: {href}')

    # 9. 数据存储示例：将标题和链接写入CSV文件
    with open('data.csv', 'w', newline='', encoding='utf-8') as csvfile:
        csvwriter = csv.writer(csvfile)
        csvwriter.writerow(['Title', 'Link'])
        for link in links:
            href = link.get('href')
            csvwriter.writerow([title, href])

else:
    print('Failed to retrieve the web page.')

# 注意：请将'https://example.com'替换为你要爬取的网站的实际URL

这个示例演示了以下爬虫基础知识点：

指定目标网站的URL。
使用requests库发送HTTP GET请求来获取网页内容。
检查请求是否成功（HTTP状态码为200表示成功）。
使用BeautifulSoup解析HTML内容。
查找所需的信息，例如标题。
打印标题和其他信息。
查找所有链接。
打印所有链接。
数据存储示例：将标题和链接写入CSV文件。

请确保你已经安装了以上使用的库，你可以使用以下命令来安装它们：

pip install requests
pip install beautifulsoup4
pip install csv

爬虫基础知识点快速入门

相关文章

practical on mifare

linux_三剑客（grep,sed,awk)

数学术语之源——单射(injection),满射(surjection),双射(bijection)

数据采集平台（二）

深度学习环境搭建【显卡算力、CUDA、pytorch、tensorflow选择】

接口自动化测试方案模版。希望可以帮到你

Python数据容器——字典的常用操作（增、删、改、查）

Python接口自动化搭建过程，含request请求封装！