Python网页爬虫代码

这篇具有很好参考价值的文章主要介绍了Python网页爬虫代码。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

网页爬虫是一种自动化程序，可以自动地访问网页并提取其中的信息。它可以用于各种目的，例如搜索引擎的索引、数据挖掘、价格比较、舆情监测等。网页爬虫通常使用编程语言编写，例如Python、Java等。

以下是一个简单的示例，使用 Python 和 requests 库进行网页爬取：

import requests

url = 'http://www.example.com'
response = requests.get(url)

# 获取响应内容
content = response.text

# 获取响应状态码
status_code = response.status_code

# 获取请求头部信息
headers = response.headers

# 获取 cookies
cookies = response.cookies

# 输出结果
print(content)

在这个示例中，我们首先导入了 requests 库。然后指定目标网址 http://www.example.com，并使用 requests 库发起 GET 请求获取响应。随后，可以通过 response 对象获取响应内容、状态码、请求头部信息和 cookies 等信息，并进行处理或存储。最后，我们输出响应内容。

上另外一个代码

import requests

url = "https://www.example.com" # 指定要爬取的网页URL
response = requests.get(url) # 发送HTTP请求获取网页内容

if response.status_code == 200: # 判断请求是否成功
    html = response.text # 获取网页HTML代码
    print(html) # 输出网页HTML代码
else:
    print("请求失败，状态码为：" + str(response.status_code))