Python学习从0开始——项目一day01爬虫(二)

这篇具有很好参考价值的文章主要介绍了Python学习从0开始——项目一day01爬虫(二)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

上一篇

一、解析response数据

在已经知道我们获取图片的最终URL存在于请求响应response中,下一步的重点就放在解析response。
首先给出现在的代码,以下代码暂时删除了图片写入的部分,在文章末尾会给出完整的爬虫代码。

#coding=utf-8
#!/usr/bin/python
# 导入requests库
import requests
# 导入文件操作库
import os
import bs4
from bs4 import BeautifulSoup
import sys
import importlib
importlib.reload(sys)
import re 
import json  
import urllib.parse


# 给请求指定一个请求头来模拟chrome浏览器
global headers
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
# 爬图地址
mziTu = 'https://image.baidu.com/'
# 定义存储位置
global save_path
save_path ='./picture'


# 创建文件夹
def createFile(file_path):
    if os.path.exists(file_path) is False:
        os.makedirs(file_path)
    # 切换路径至上面创建的文件夹
    os.chdir(file_path)


# 下载文件
def download(page_no, file_path):
    global headers
    res_sub = requests.get(page_no, headers=headers)
    # 解析html
    soup_sub = BeautifulSoup(res_sub.text, 'html.parser')
    # 获取页面的栏目地址
    all_a = soup_sub.find('div',id='bd-home-content-album').find_all('a',target='_blank')
    count = 0
    for a in all_a:
        count = count + 1
        if (count % 2) == 0:
            print("内页第几页:" + str(count))
            # 提取href
            href = a.attrs['href']
            print("套图地址:" + href)
            res_sub_1 = requests.get(href, headers=headers)
            soup_sub_1 = BeautifulSoup(res_sub_1.text, 'html.parser')
            
# 主方法
def main():
    res = requests.get(mziTu, headers=headers)
    # 使用自带的html.parser解析
    soup = BeautifulSoup(res.text, 'html.parser')
    # 创建文件夹
    createFile(save_path)
    file = save_path
    createFile(file)
    print("开始执行")
    download(mziTu, file)


if __name__ == '__main__':
    main()

Python学习从0开始——项目一day01爬虫(二),Python,python,学习,爬虫
在谷歌浏览器中,折叠代码块,快速定位到我们需要的<script>中,第十三个<script>是linkData所在标签,然后对代码继续修改,在53行添加如下内容:

			# 找到所有的<script>标签
            scripts = soup_sub_1.find_all('script')  
            # 第十三个是linkData所在标签
            script_content = BeautifulSoup(scripts[12].text, 'html.parser').text
            #打印值
            print(script_content)
#终端输出如下
!function(){    window.logid = "7865333382831002903";
    require.async(['albumsdetail:widget/ui/app/app'], function (app) {
        app.setPageInfo({
            word: '%E6%B8%90%E5%8F%98%E9%A3%8E%E6%A0%BC%E6%8F%92%E7%94%BB',
            hasResult: '1',
            albumTab: '%E8%AE%BE%E8%AE%A1%E7%B4%A0%E6%9D%90',
            setId: '409',
            title: '渐变风格插画',
            logo: 'https:\/\/emoji.cdn.bcebos.com\/yunque\/pc_vcg.png',
            coverUrl: 'https:\/\/t7.baidu.com\/it\/u=1819248061,230866778&fm=193&f=GIF',
            totalNum: '314',
            albumLinkRn: '30',
            linkData: '[{\x22pid\x22:144520,\x22width\x22:1200,\x22height\x22:562,\x22oriwidth\x22:1200,\x22oriheight\x22:562,\x22thumbnailUrl\x22:\x22https:\\\/\\\/t7.baidu.com\\\/it\\\/u=1819248061,230866778&fm=193&f=GIF\x22,\x22fromUrl\x22:\x22https:\\\/\\\/www.vcg.com\\\/creative\\\/1274231988\x22,\x22contSign\x22:\x221819248061,230866778\x22},{\x22pid\x22:144521,\x22width\x22:562,\x22height\x22:1000,\x22oriwidth\x22:562,\x22oriheight\x22:1000,\x22thumbnailUrl\x22:\x22https:\\\/\\\/t7.baidu.com\\\/it\\\/u=4036010509,3445021118&fm=193&f=GIF\x22,\x22fromUrl\x22:\x22https:\\\/\\\/www.vcg.com\\\/creative\\\/1147957933\x22,\x22contSign\x22:\x224036010509,3445021118\x22},……]

经过以上操作,成功的获取了linkData所在的<script>,下一步是获取linkData,我们通过正则来获取数据:

			# 使用正则表达式来查找linkData的值  
            link_data_pattern = r"linkData: '([^']*)'"  
            match = re.search(link_data_pattern, script_content)
            #查看输出
            print(match)   
#终端输入
python3 spider.py
#终端输出
<re.Match object; span=(605, 10524), match="linkData: '[{\\x22pid\\x22:144520,\\x22width\\x22>

这看起来并不符合我们的预期,我们期望的输出是linkData里的值。
这时,我们需要关注re.search(),其返回结果是一个捕获组,可以通过group()来获取每一组的数据,group(1) 表示获取第一个捕获组的内容。如果没有捕获组或者索引超出了捕获组的范围,group() 方法会抛出 IndexError 异常。
将输出替换为以下内容:

            print(match.group(1))     
#终端输入
python3 spider.py
#捕获组终端输出
[{\x22pid\x22:144520,\x22width\x22:1200,\x22height\x22:562,\x22oriwidth\x22:1200,\x22oriheight\x22:562,\x22thumbnailUrl\x22:\x22https:\\\/\\\/t7.baidu.com\\\/it\\\/u=1819248061,230866778&fm=193&f=GIF\x22,\x22fromUrl\x22:\x22https:\\\/\\\/www.vcg.com\\\/creative\\\/1274231988\x22,\x22contSign\x22:\x221819248061,230866778\x22},^}

下一步需要将捕获组的内容转为我们可以使用的数据。

二、json转换

为什么要将捕获组转换成json数据,什么情况下需要我们转为json数据?
看上方的捕获组输出,我们能明显的识别出这些数据具有统一的属性,直接截取字符串需要经过多次split或者replace,如果通过属性去获取值,会很便于我们操作。

#继续添加如下内容
			if match:  
                # 获取第一个捕获组的内容
                encoded_link_data = match.group(1)
                print(encoded_link_data) 
                # 解析JSON对象  
                link_data_list = json.loads(encoded_link_data)  
            else:  
                print("未能找到linkData的值")

继续执行代码:

#终端输入
python3 spider.py
#终端输出
Traceback (most recent call last):
  File "/root/Python_02/Python/Day01/learn/spider.py", line 98, in <module>
    main()
  File "/root/Python_02/Python/Day01/learn/spider.py", line 95, in main
    download(mziTu, file)
  File "/root/Python_02/Python/Day01/learn/spider.py", line 70, in download
    link_data_list = json.loads(encoded_link_data)  
  File "/usr/lib/python3.9/json/__init__.py", line 346, in loads
    return _default_decoder.decode(s)
  File "/usr/lib/python3.9/json/decoder.py", line 337, in decode
    obj, end = self.raw_decode(s, idx=_w(s, 0).end())
  File "/usr/lib/python3.9/json/decoder.py", line 353, in raw_decode
    obj, end = self.scan_once(s, idx)
json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 3 (char 2)

根据提示,我们知道现在无法解析为json数据。我们来看一下json的示例数据格式:

[{
	"name":"a",
	"age":1
},{
	"name":"b",
	"age":2
}]

显而易见,问题出在双引号上,那么下一步就需要将’\x22’字串替换为双引号。

#修改赋值
encoded_link_data = match.group(1).replace('\x22', '"')

此时,我们会发现,经过替换后仍旧报相同的错误,而且终端的输出的encoded_link_data 值和替换前没有区别。
为什么呢?
再来观察’\x22’,我们能发现它是一个转义序列,用于表示一个ASCII值为0x22的字符,即双引号,Python会通过转义序列将其解释为双引号,这就造成实际上是双引号替换双引号,故输出不变。而我们并不需要这种转义,我们需要Python将其解释为普通的字符串。

				#修改赋值,同时替换双引号和斜杠的转义 
                encoded_link_data = match.group(1).replace(r'\x22', '"').replace(r'\\\/', '/')
                #encoded_link_data = match.group(1).replace('\x22', '"')
                print(encoded_link_data) 
                # 解析JSON对象  
                link_data_list = json.loads(encoded_link_data)  
#终端输入
cd Python/Day01/learn/
python3 spider.py
#输出,数据正常
[{"pid":144520,"width":1200,"height":562,"oriwidth":1200,"oriheight":562,"thumbnailUrl":"https://t7.baidu.com/it/u=1819248061,230866778&fm=193&f=GIF","fromUrl":"https://www.vcg.com/creative/1274231988","contSign":"1819248061,230866778"},……]

三、文件保存

link_data_list现在已经存储了json数据,我们通过get方法获取对应的URL值,然后发送请求获取响应,继续添加以下内容:

#添加到if match:  里
                for item in link_data_list:  
                    # 提取thumbnailUrl字段的值  
                    thumbnail_url = item.get('thumbnailUrl')
                    res_sub_2 = requests.get(thumbnail_url, headers=headers)
                    soup_sub_2 = BeautifulSoup(res_sub_2.text, "html.parser")
                    print("开始提取图片")
                    file_name = thumbnail_url
                    f = open(file_name, 'ab')
                    f.write(soup_sub_2)
                    f.close()
#终端执行
python3 spider.py
#终端输出
开始提取图片
Traceback (most recent call last):
  File "/root/Python_02/Python/Day01/learn/spider.py", line 103, in <module>
    main()
  File "/root/Python_02/Python/Day01/learn/spider.py", line 100, in main
    download(mziTu, file)
  File "/root/Python_02/Python/Day01/learn/spider.py", line 79, in download
    f = open(file_name, 'ab')
FileNotFoundError: [Errno 2] No such file or directory: 'https://t7.baidu.com/it/u=1819248061,230866778&fm=193&f=GIF'

使用初始代码的方法行不通,可能是因为没加文件类型,我们做一些小更改:

                    f = open(file_name+'.jpg', 'wb')

还报错,按照文件的输入输出来说我们的操作是正常的,符合流程的,问题会不会还是出现在文件名?
换个名字试一下。

                    f = open('a.jpg', 'ab')
#终端执行
python3 spider.py
#终端输出
Traceback (most recent call last):
  File "/root/Python_02/Python/Day01/learn/spider.py", line 105, in <module>
    main()
  File "/root/Python_02/Python/Day01/learn/spider.py", line 102, in main
    download(mziTu, file)
  File "/root/Python_02/Python/Day01/learn/spider.py", line 82, in download
    f.write(soup_sub_2)
TypeError: a bytes-like object is required, not 'BeautifulSoup'

虽然还是报错,但是报错内容变了,那现在可以确定,问题出现在文件名,对于Python来说,它本身并不直接限制文件名以"https"开头。但是,当我们试图创建、读取或操作一个文件时,实际上是在与底层的操作系统和文件系统交互。因此,真正限制使用"https"作为文件名开头的因素来自这些底层系统。知道原因后,我们就能解决问题了。
同时根据以上终端输出的内容,可以知道f.write()需要的是字节对象,而不是我们现在赋值的BeautifulSoup类型。继续修改:

            
                    file_name = thumbnail_url.replace(r'https://t7.baidu.com/it/u=','')
                    f = open(file_name+'.jpg', 'ab')
                    f.write(res_sub_2.content)

这次正常执行了,来看一下输出的文件:
Python学习从0开始——项目一day01爬虫(二),Python,python,学习,爬虫

四、存储json对象

 #修改代码
 #添加行,存储数据,json数据以字符串形式存储,不是二进制    
            data = open('sava.txt', 'a')     
            if match:  
                # 获取第一个捕获组的内容
                # 提取匹配到的linkData字符串,字符替换时一定要使用r  
                encoded_link_data = match.group(1).replace(r'\x22', '"').replace(r'\\\/', '/')
                #encoded_link_data = match.group(1).replace('\x22', '"')
                #print(encoded_link_data) 
                # 解析JSON对象  
                link_data_list = json.loads(encoded_link_data)  

                for item in link_data_list:  
                    # 提取thumbnailUrl字段的值  
                    thumbnail_url = item.get('thumbnailUrl')
                    res_sub_2 = requests.get(thumbnail_url, headers=headers)
                    soup_sub_2 = BeautifulSoup(res_sub_2.text, "html.parser")
                    print("开始提取图片")
                    file_name = thumbnail_url
                #    f = open(file_name, 'ab')                    
                #    f = open(file_name+'.jpg', 'ab')
                #    f = open('a.jpg', 'ab')                
                    file_name = thumbnail_url.replace(r'https://t7.baidu.com/it/u=','')
                    f = open(file_name+'.jpg', 'ab')
                #    f.write(soup_sub_2)
                    f.write(res_sub_2.content)
#添加,写入,json转字符串写入
                    data.write(json.dumps(item)+'\n')
                    f.close()
            else:  
                print("未能找到linkData的值")
#关闭输入
            data.close()

Python学习从0开始——项目一day01爬虫(二),Python,python,学习,爬虫

至此,完整的一次爬虫结束。

五、完整代码

代码仅供参考学习使用。

#coding=utf-8
#!/usr/bin/python
# 导入requests库
import requests
# 导入文件操作库
import os
import bs4
from bs4 import BeautifulSoup
import sys
import importlib
importlib.reload(sys)
import re 
import json  
import urllib.parse


# 给请求指定一个请求头来模拟chrome浏览器
global headers
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
# 爬图地址
mziTu = 'https://image.baidu.com/'
# 定义存储位置
global save_path
save_path ='./picture'


# 创建文件夹
def createFile(file_path):
    if os.path.exists(file_path) is False:
        os.makedirs(file_path)
    # 切换路径至上面创建的文件夹
    os.chdir(file_path)


# 下载文件
def download(page_no, file_path):
    global headers
    res_sub = requests.get(page_no, headers=headers)
    # 解析html
    soup_sub = BeautifulSoup(res_sub.text, 'html.parser')
    # 获取页面的栏目地址
    all_a = soup_sub.find('div',id='bd-home-content-album').find_all('a',target='_blank')
    count = 0
    for a in all_a:
        count = count + 1
        if (count % 2) == 0:
            print("内页第几页:" + str(count))
            # 提取href
            href = a.attrs['href']
            print("套图地址:" + href)
            res_sub_1 = requests.get(href, headers=headers)
            soup_sub_1 = BeautifulSoup(res_sub_1.text, 'html.parser')            
            # 找到所有的<script>标签
            scripts = soup_sub_1.find_all('script')  
            # 第十三个是linkData所在标签
            script_content = BeautifulSoup(scripts[12].text, 'html.parser').text
            #print(script_content)
            # 使用正则表达式来查找linkData的值  
            link_data_pattern = r"linkData: '([^']*)'"  
            match = re.search(link_data_pattern, script_content) 
            #print(match)   
            #print(match.group(1))     
            data = open('sava.txt', 'a')     
            if match:  
                # 获取第一个捕获组的内容
                # 提取匹配到的linkData字符串,字符替换时一定要使用r  
                encoded_link_data = match.group(1).replace(r'\x22', '"').replace(r'\\\/', '/')
                #encoded_link_data = match.group(1).replace('\x22', '"')
                #print(encoded_link_data) 
                # 解析JSON对象  
                link_data_list = json.loads(encoded_link_data)  

                for item in link_data_list:  
                    # 提取thumbnailUrl字段的值  
                    thumbnail_url = item.get('thumbnailUrl')
                    res_sub_2 = requests.get(thumbnail_url, headers=headers)
                    soup_sub_2 = BeautifulSoup(res_sub_2.text, "html.parser")
                    print("开始提取图片")
                    file_name = thumbnail_url
                #    f = open(file_name, 'ab')                    
                #    f = open(file_name+'.jpg', 'ab')
                #    f = open('a.jpg', 'ab')                
                    file_name = thumbnail_url.replace(r'https://t7.baidu.com/it/u=','')
                    f = open(file_name+'.jpg', 'ab')
                #    f.write(soup_sub_2)
                    f.write(res_sub_2.content)
                    data.write(json.dumps(item)+'\n')
                    f.close()
            else:  
                print("未能找到linkData的值")
            data.close()

# 主方法
def main():
    res = requests.get(mziTu, headers=headers)
    # 使用自带的html.parser解析
    soup = BeautifulSoup(res.text, 'html.parser')
    # 创建文件夹
    createFile(save_path)
    file = save_path
    createFile(file)
    print("开始执行")
    download(mziTu, file)

if __name__ == '__main__':
    main()

本来打算继续写存入数据库相关内容,但是MySQL服务器启动要会员,就只加了写数据到文件里,后续可以通过文件导入到数据库,线上就算了。文章来源地址https://www.toymoban.com/news/detail-853111.html

到了这里,关于Python学习从0开始——项目一day01爬虫(二)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 从零开始学习Python控制开源Selenium库自动化浏览器操作,实现爬虫,自动化测试等功能(一)

    介绍Selenium : Selenium是一个用于自动化浏览器操作的开源工具和库。它最初是为Web应用测试而创建的,但随着时间的推移,它被广泛用于Web数据抓取和网页自动化操作。Selenium 支持多种编程语言,包括Python,Java,C#等。 这里我们主要实现采用Python的方式 Selenium 的主要特点和

    2024年01月22日
    浏览(77)
  • 【100天精通Python】Day75:Python机器学习-第一个机器学习小项目_鸾尾花分类项目(上)

    目录 1 机器学习中的Helloworld _鸾尾花分类项目 2 导入项目所需类库和鸾尾花数据集 2.1 导入类库 2.2 scikit-learn 库介绍  (1)主要特点: (2)常见的子模块: 3 导入鸾尾花数据集 3.1 概述数据 3.2 数据维度 3.3 查看数据自身 3.4 统计描述数据 3.5 数据分类分布 4 数据可视化 4.1 单

    2024年02月04日
    浏览(53)
  • 【100天精通Python】Day76:Python机器学习-第一个机器学习小项目_鸾尾花分类项目,预测与可视化完整代码(下)

    目录 5 模型实现 5.1 分离出评估数据集 5.2 创建不同的模型来预测新数据 5.3 采用10折交叉验证来评估算法模型 5.4 生成最优模型 6 实施预测 7 模型评估 8 完整代码 (1)鸾尾花分类的完整代码 (2)可视化不同模型预测的评估结果    通过不同的算法来创建模型,并评估它们的

    2024年02月05日
    浏览(58)
  • 01 Python 网络爬虫:爬虫技术的核心原理

    不夸张地说,现在哪怕是初中生,只要花点儿时间、精力稍微按「网络爬虫」的开发步骤学习了解一下,也能把它玩得贼溜。 听起来感觉是很高大上的东西,但实际上并不复杂,也就是使用了某种编程语言按照一定步骤、规则主动通过互联网来抓取某些特定信息的代码程序。

    2024年02月12日
    浏览(48)
  • Python 爬虫入门实战01

    1、什么是爬虫? 网络爬虫又称网络蜘蛛、网络机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有价值的信息。 爬虫可分为三大类:通用网络爬虫

    2024年02月12日
    浏览(49)
  • 【Python爬虫01】Selenium简单认识

    在现代的Web开发中,自动化测试是不可或缺的一环。而Selenium是一个强大的Python库,用于自动化Web浏览器的操作和测试。本篇博文将为您介绍Selenium的基础知识和使用方法,并通过案例说明如何进行Web自动化测试。 Selenium是一个开源的自动化测试框架,主要用于模拟用户与We

    2024年02月16日
    浏览(41)
  • 【Python-爬虫实战01】top250获取

    网络爬虫是一种获取互联网上数据的方法,但在实际应用中,需要注意网站可能采取的反爬虫策略。本文将介绍如何使用Python爬取xx电影Top250的数据,并探讨一些常见的反爬虫策略及应对方法。 1. 导入库 首先,需要导入 requests 库和 BeautifulSoup 库,以及 csv 库。 requests库用于访

    2024年02月12日
    浏览(62)
  • python爬虫02-requests库使用01

    目录 1、requests库简介 2、requests库-安装 3、requests库-使用 3.1 导入模块 3.2 发送请求 3.3 requests库常用方法 3.4 访问控制参数kwargs  4、请求返回对象 Response 5、requests访问时的可能异常 1、requests库简介 requests是一个http的第三方请求库,发送http请求,并获取响应结果; 2、requests库

    2024年01月20日
    浏览(37)
  • 从零开始学python(十六)爬虫集群部署

    今天讲述Python框架源码专题最后一个部分,爬虫集群部署,前面更新了十五个从零开始学python的系列文章,分别是 : 1.编程语法必修篇 2.网络编程篇 3.多线程/多进程/协程篇 4.MySQL数据库篇 5.Redis数据库篇 6.MongoDB数据库篇 7.机器学习篇 8.全栈开发篇 9.Numpy/pandas/matplotlib篇 10.H

    2024年02月13日
    浏览(53)
  • 【Web项目实战】从零开始学习Web自动化测试:用Python和Selenium实现网站登录功能

    B站首推!2023最详细自动化测试合集,小白皆可掌握,让测试变得简单、快捷、可靠 https://www.bilibili.com/video/BV1ua4y1V7Db 目录 1.环境搭建

    2024年02月06日
    浏览(70)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包