【Python】【进阶篇】五、Python爬虫的抓取网页-Toy模板网

这篇具有很好参考价值的文章主要介绍了【Python】【进阶篇】五、Python爬虫的抓取网页。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

五、Python爬虫的抓取网页

Python 爬虫应用案例：爬取目标的网页，并将其保存到本地。

对要编写的爬虫程序进行分析，可以简单分为为以下三个部分：

目标 url 地址
发送请求
将响应数据保存至本地

明确逻辑后，我们就可以正式编写爬虫程序了。

5.1 导入所需模块

在这里我们使用标准库 urllib 库来编写爬虫，导入所需模块，代码如下：

from urllib import request
from urllib import parse

5.2 获取目标URL地址

定义 URL 变量，拼接 url 地址，从而获取目标地址。代码如下：

url = 'http://www.baidu.com/s?wd={}'
# 想要搜索的内容
word = input('请输入搜索内容:')
params = parse.quote(word)
full_url = url.format(params)

5.3 向目标URL发送请求

发送请求主要分为以下三个步骤：

创建请求对象-Request
获取响应对象-urlopen
解析响应内容-read

代码如下：

# 重构请求头
headers = {'User-Agent': 'Mozilla/6.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}
# 创建请求对应
req = request.Request(url=full_url, headers=headers)
# 获取响应对象
res = request.urlopen(req)
# 解析响应内容
html = res.read().decode("utf-8")

5.4 保存为本地文件

把爬取的照片保存至本地，此处需要使用 Python 编程的文件 IO 操作，代码如下：

filename = word + '.htm'
with open(filename,'w', encoding='utf-8') as f:
    f.write(html)

完整程序如下所示：

from urllib import request, parse

# 1.拼url地址
url = 'http://www.baidu.com/s?wd={}'
word = input('请输入搜索内容:')
params = parse.quote(word)
full_url = url.format(params)
# 2.发请求保存到本地
headers = {'User-Agent': 'Mozilla/6.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}
req = request.Request(url=full_url, headers=headers)
res = request.urlopen(req)
html = res.read().decode('utf-8')
# 3.保存文件至当前目录
filename = word + '.htm'
with open(filename, 'w', encoding='utf-8') as f:
    f.write(html)

5.5 优化程序

Python 函数式编程可以让程序的思路更加清晰、易懂。接下来，使用函数编程的思想更改上面代码。

定义相应的函数，通过调用函数来执行爬虫程序。修改后的代码如下所示：文章来源地址https://www.toymoban.com/news/detail-409942.html

from urllib import request
from urllib import parse


# 拼接URL地址
def get_url(word):
    url = 'http://www.baidu.com/s?{}'
    # 此处使用urlencode()进行编码
    params = parse.urlencode({'wd': word})
    url = url.format(params)
    return url


# 发请求,保存本地文件
def request_url(url, filename):
    headers = {'User-Agent': 'Mozilla/6.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}
    # 请求对象 + 响应对象 + 提取内容
    req = request.Request(url=url, headers=headers)
    res = request.urlopen(req)
    html = res.read().decode('utf-8')
    # 保存文件至本地
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(html)


# 主程序入口
if __name__ == '__main__':
    word = input('请录入搜索内容:')
    url = get_url(word)
    filename = word + '.htm'
    request_url(url, filename)