以下是一个包含注释的Python示例,演示了基本的网页爬取过程,以及一些常见的爬虫知识点:
# 导入必要的库
import requests # 用于发送HTTP请求
from bs4 import BeautifulSoup # 用于解析HTML
import csv # 用于数据存储
# 1. 指定目标网站的URL
url = 'https://example.com'
# 2. 发送GET请求,获取网页内容
response = requests.get(url)
# 3. 检查请求是否成功
if response.status_code == 200:
# 4. 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 5. 找到需要的信息,例如标题
title = soup.title.text
# 6. 打印标题
print(f'Title: {title}')
# 7. 查找所有链接
links = soup.find_all('a')
# 8. 打印所有链接
for link in links:
href = link.get('href')
print(f'Link: {href}')
# 9. 数据存储示例:将标题和链接写入CSV文件
with open('data.csv', 'w', newline='', encoding='utf-8') as csvfile:
csvwriter = csv.writer(csvfile)
csvwriter.writerow(['Title', 'Link'])
for link in links:
href = link.get('href')
csvwriter.writerow([title, href])
else:
print('Failed to retrieve the web page.')
# 注意:请将'https://example.com'替换为你要爬取的网站的实际URL
这个示例演示了以下爬虫基础知识点:
- 指定目标网站的URL。
- 使用
requests
库发送HTTP GET请求来获取网页内容。 - 检查请求是否成功(HTTP状态码为200表示成功)。
- 使用
BeautifulSoup
解析HTML内容。 - 查找所需的信息,例如标题。
- 打印标题和其他信息。
- 查找所有链接。
- 打印所有链接。
- 数据存储示例:将标题和链接写入CSV文件。
请确保你已经安装了以上使用的库,你可以使用以下命令来安装它们:
pip install requests
pip install beautifulsoup4
pip install csv