b站视频标题的获取(xpath、jsonpath的一个简单应用)

这篇具有很好参考价值的文章主要介绍了b站视频标题的获取(xpath、jsonpath的一个简单应用)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


注:该篇文章为本人原创,由于本人学习有限,若有错误或者笔误或者有问题,欢迎大家进行批评指正,谢谢。当然在使用爬虫前,请阅读下相关的法律法规,约束好自己的行为。第一次更新时间为2023.8.19,在2023.9.19当本人再次使用需要获取b站标题时,发现从仅更改“代码的演示”里面的url已经获取不到b站标题了,于是再次作了一定的修改,完成了标题的获取。
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json

1.目的

  在b站大学上,为了更好的写笔记,本人根据学到的Python(即Python入门(黑马)的学习笔记)与爬虫的知识(即Python爬虫的urlib的学习Python爬虫的解析),使用xpath进行解析,获取到了b站视频的标题,具体步骤如下。若要直接阅读最终源代码,请直接看最后的一小部分

2.代码的演示

  本次将以获取尚硅谷Python爬虫教程小白零基础速通的视频标题为例进行演示。
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
  在PyCharm中创建文件“b站视频标题的获取(xpath).py”
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
  按F12打开检查,点击网络,清空网络中的接口,点击刷新,寻找含有视频标题的接口,将该接口的请求地址复制到PyCharm中。
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,jsonb站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
  如下编程,先确定能获取到网页源码。

"""
b站视频标题的获取(xpath)
"""
import urllib.request
import gzip
import io

# 1.获取网页源码
# 请求地址
url = 'https://www.bilibili.com/video/BV1Db4y1m7Ho/?p=51&vd_source=ffb19c330efad3ae5d7d43710d936b1f'
# 请求头
headers = {
    'Referer': 'https://dianying.taobao.com/',
}
# 请求对象定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 读取响应的内容
content_bytes = response.read()  # 从响应中读取的字节数据
#  响应内容是压缩的,需要解压         将压缩的字节数据解压并解码成UTF-8编码的字符串
content_io = io.BytesIO(content_bytes)  # 创建了一个io.BytesIO对象,用于将字节数据包装成类似文件对象的形式
# 使用gzip.GzipFile来解压缩数据      mode='rb'指定以二进制模式读取
with gzip.GzipFile(fileobj=content_io, mode='rb') as f:
    content = f.read().decode('utf-8')

print(content)  # 测试代码,用于验证是否获取到网页源码

b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
  接着,使用快捷键Ctr+Alt+X打开xpath插件,然后如下图所示寻找到xpath路径,并复制到PyCharm中。
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
  继续编程,发现按照该路径无法获取到内容。所以将获取到的网页源码保存为html文件,然后在html文件中不断使用搜索快捷键Ctr+F来协助我们找到xpath路径。

"""
b站视频标题的获取(xpath)
"""
import urllib.request
import gzip
import io
from lxml import etree

# 1.获取网页源码
# 请求地址
url = 'https://www.bilibili.com/video/BV1Db4y1m7Ho/?p=51&vd_source=ffb19c330efad3ae5d7d43710d936b1f'
# 请求头
headers = {
    'Referer': 'https://dianying.taobao.com/',
}
# 请求对象定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 读取响应的内容
content_bytes = response.read()  # 从响应中读取的字节数据
#  响应内容是压缩的,需要解压         将压缩的字节数据解压并解码成UTF-8编码的字符串
content_io = io.BytesIO(content_bytes)  # 创建了一个io.BytesIO对象,用于将字节数据包装成类似文件对象的形式
# 使用gzip.GzipFile来解压缩数据      mode='rb'指定以二进制模式读取
with gzip.GzipFile(fileobj=content_io, mode='rb') as f:
    content = f.read().decode('utf-8')

# print(content)  # 测试代码,用于验证是否获取到网页源码

# 将网页源码保存到文件“b站视频标题的获取(xpath).html”中
with open('b站视频标题的获取(xpath).html', 'w', encoding='UTF-8') as fp:
    fp.write(content)

# 2.获取视频标题
# 解析服务器响应的文件  etree.HTML
tree = etree.HTML(content)
# 获取想要的数据
# 失败路径,需要将网页源码导入html文件中,手动找  /html/body/div[2]/div[2]/div[2]/div/div[7]/div[2]/ul/li/a/div/div[1]/span[2]/text()
result = tree.xpath('/html/head[@itemprop="video"]/script[4]/text()')[0]  # 由于tree.xpath返回的是列表,需要使用切片[0]将它取出来
print(result)

b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
  如图,发现将获取的内容就是json数据(本人使用的json解析网站为“https://c.runoob.com/front-end/53/”),只是多了一些东西,具体为“window.INITIAL_STATE=”、“;(function(){var s;(s=document.currentScript||document.scripts[document.scripts.length-1]).parentNode.removeChild(s);}());”。
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,jsonb站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,jsonb站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
  然后继续编程,将数据处理成json数据,然后根据json数据的层次获取到视频标题。
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json

"""
b站视频标题的获取(xpath)
"""
import urllib.request
import gzip
import io
from lxml import etree
import json

# 1.获取网页源码
# 请求地址
url = 'https://www.bilibili.com/video/BV1Db4y1m7Ho/?p=51&vd_source=ffb19c330efad3ae5d7d43710d936b1f'
# 请求头
headers = {
    'Referer': 'https://dianying.taobao.com/',
}
# 请求对象定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 读取响应的内容
content_bytes = response.read()  # 从响应中读取的字节数据
#  响应内容是压缩的,需要解压         将压缩的字节数据解压并解码成UTF-8编码的字符串
content_io = io.BytesIO(content_bytes)  # 创建了一个io.BytesIO对象,用于将字节数据包装成类似文件对象的形式
# 使用gzip.GzipFile来解压缩数据      mode='rb'指定以二进制模式读取
with gzip.GzipFile(fileobj=content_io, mode='rb') as f:
    content = f.read().decode('utf-8')

# print(content)  # 测试代码,用于验证是否获取到网页源码

# # 将网页源码保存到文件“b站视频标题的获取(xpath).html”中
# with open('b站视频标题的获取(xpath).html', 'w', encoding='UTF-8') as fp:
#     fp.write(content)

# 2.获取视频标题
# 解析服务器响应的文件  etree.HTML
tree = etree.HTML(content)
# 获取想要的数据
# 失败路径,需要将网页源码导入html文件中,手动找  /html/body/div[2]/div[2]/div[2]/div/div[7]/div[2]/ul/li/a/div/div[1]/span[2]/text()
the_data = tree.xpath('/html/head[@itemprop="video"]/script[4]/text()')[0]  # 由于tree.xpath返回的是列表,需要使用切片[0]将它取出来
# print(the_data)  # 测试代码,验证xpath路径是否正确
the_json_data = the_data.split('__=')[1].split(';(function')[0]
# print(the_json_data)  # 测试代码,验证得到的json数据是否正确

# 将字符串json转换为python的字典
data_dict = json.loads(the_json_data)

# 根据json数据的层次结构获取视频的标题
the_temp_data = data_dict['videoData']['pages']
the_name_of_videos = []  # 用于存储视频的标题
for name in the_temp_data:
    the_name_of_videos.append(name['part'])

# 打印b站视频的标题
for name in the_name_of_videos:
    print(name)

b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
  当然,json数据部分可使用jsonpath来解析,代码与运行结果如下。

"""
b站视频标题的获取(xpath)
"""
import urllib.request
import gzip
import io
from lxml import etree
import json
import jsonpath

# 1.获取网页源码
# 请求地址
url = 'https://www.bilibili.com/video/BV1Db4y1m7Ho/?p=51&vd_source=ffb19c330efad3ae5d7d43710d936b1f'
# 请求头
headers = {
    'Referer': 'https://dianying.taobao.com/',
}
# 请求对象定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 读取响应的内容
content_bytes = response.read()  # 从响应中读取的字节数据
#  响应内容是压缩的,需要解压         将压缩的字节数据解压并解码成UTF-8编码的字符串
content_io = io.BytesIO(content_bytes)  # 创建了一个io.BytesIO对象,用于将字节数据包装成类似文件对象的形式
# 使用gzip.GzipFile来解压缩数据      mode='rb'指定以二进制模式读取
with gzip.GzipFile(fileobj=content_io, mode='rb') as f:
    content = f.read().decode('utf-8')

# print(content)  # 测试代码,用于验证是否获取到网页源码

# # 将网页源码保存到文件“b站视频标题的获取(xpath).html”中
# with open('b站视频标题的获取(xpath).html', 'w', encoding='UTF-8') as fp:
#     fp.write(content)

# 2.获取视频标题
#(1)处理变成json数据
# 解析服务器响应的文件  etree.HTML
tree = etree.HTML(content)
# 获取想要的数据
# 失败路径,需要将网页源码导入html文件中,手动找  /html/body/div[2]/div[2]/div[2]/div/div[7]/div[2]/ul/li/a/div/div[1]/span[2]/text()
the_data = tree.xpath('/html/head[@itemprop="video"]/script[4]/text()')[0]  # 由于tree.xpath返回的是列表,需要使用切片[0]将它取出来
# print(the_data)  # 测试代码,验证xpath路径是否正确
the_json_data = the_data.split('__=')[1].split(';(function')[0]
# print(the_json_data)  # 测试代码,验证得到的json数据是否正确

# (2)处理json数据,得到视频的标题

# # 法1.使用切片
# # 将字符串json转换为python的字典
# data_dict = json.loads(the_json_data)
#
# # 根据json数据的层次结构获取视频的标题
# the_temp_data = data_dict['videoData']['pages']
# the_name_of_videos = []  # 用于存储视频的标题
# for name in the_temp_data:
#     the_name_of_videos.append(name['part'])

# 法2.使用jsonpath解析
the_name_of_videos=jsonpath.jsonpath(json.loads(the_json_data),'$.videoData.pages[*].part')

# 打印b站视频的标题
for name in the_name_of_videos:
    print(name)

b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json

3.原代码上的更新(2023.9.19)

  如下图所示,在2023.9.19本人希望获取如下b站视频的标题。发现由于网页源码的html结构有所改动,代码也需要跟着变动。
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
(1)首先需要修改请求地址和请求头里的”Referer“。修改代码的具体位置以及如何去浏览器中寻找请求地址和请求头里的”Referer“如下几张图所示。
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
(2)然后如下图所示去修改数据的xpath路径。
b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
之后,如下图所示,发现能够再次获取到b站标题。

"""
b站视频标题的获取(xpath)
"""
import urllib.request
import gzip
import io
from lxml import etree
import json
import jsonpath

# 1.获取网页源码
# 请求地址
url = 'https://www.bilibili.com/video/BV15b411j7Au/?vd_source=ffb19c330efa'
# 请求头
headers = {
    'Referer': 'https://cn.bing.com/',
}
# 请求对象定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)

# 读取响应的内容
content_bytes = response.read()  # 从响应中读取的字节数据
#  响应内容是压缩的,需要解压         将压缩的字节数据解压并解码成UTF-8编码的字符串
content_io = io.BytesIO(content_bytes)  # 创建了一个io.BytesIO对象,用于将字节数据包装成类似文件对象的形式
# 使用gzip.GzipFile来解压缩数据      mode='rb'指定以二进制模式读取
with gzip.GzipFile(fileobj=content_io, mode='rb') as f:
    content = f.read().decode('utf-8')

# print(content)  # 测试代码,用于验证是否获取到网页源码

# # 将网页源码保存到文件“b站视频标题的获取(xpath).html”中
with open('b站视频标题的获取(xpath).html', 'w', encoding='UTF-8') as fp:
    fp.write(content)

# 2.获取视频标题
#(1)处理变成json数据
# 解析服务器响应的文件  etree.HTML
tree = etree.HTML(content)
# 获取想要的数据
# 失败路径,需要将网页源码导入html文件中,手动找  /html/body/div[2]/div[2]/div[2]/div/div[7]/div[2]/ul/li/a/div/div[1]/span[2]/text()
the_data = tree.xpath('/html/head[@itemprop="video"]/script[5]/text()')[0]  # 由于tree.xpath返回的是列表,需要使用切片[0]将它取出来
# print(the_data)  # 测试代码,验证xpath路径是否正确
the_json_data = the_data.split('__=')[1].split(';(function')[0]
# print(the_json_data)  # 测试代码,验证得到的json数据是否正确

# (2)处理json数据,得到视频的标题

# # 法1.使用切片
# # 将字符串json转换为python的字典
# data_dict = json.loads(the_json_data)
#
# # 根据json数据的层次结构获取视频的标题
# the_temp_data = data_dict['videoData']['pages']
# the_name_of_videos = []  # 用于存储视频的标题
# for name in the_temp_data:
#     the_name_of_videos.append(name['part'])

# 法2.使用jsonpath解析
the_name_of_videos=jsonpath.jsonpath(json.loads(the_json_data),'$.videoData.pages[*].part')

# 打印b站视频的标题
for name in the_name_of_videos:
    print(name)

b站视频标题的获取(xpath、jsonpath的一个简单应用),未分类,python,爬虫,json
  好了,本次的笔记到此结束,谢谢大家阅读。文章来源地址https://www.toymoban.com/news/detail-633345.html

到了这里,关于b站视频标题的获取(xpath、jsonpath的一个简单应用)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python爬虫|基础知识点详细汇总(requests、urllib、re、bs4、xpath、PyQuery、jsonpath、多线程、协程、数据保存、selenium)

    1. 请求数据 ① requests (1) 基本使用 参数 对响应内容的操作 (2) Requests进阶:使用Session 为什么要用 Session? Session代表服务器与浏览器的一次会话过程,Session对象存储了特定用户会话所需的信息 例如:一定时间内记录账号密码 (自动登录) 可以加快 requests请求速度 需要客户端登录的

    2023年04月08日
    浏览(56)
  • selenium+xpath爬取二手房标题

    贝壳找房标题爬取需要注意的是,在页面中间有一个小广告 而他就在ul的li下面,当我们进行title所以输出时,会报错。 所以在进行页面解析之前必须把广告叉掉,不然也把广告那一部分的li给爬取下来了 所以,我们,定位到上面箭头那里,进行 x掉,也就是利用click事件进行

    2024年01月20日
    浏览(61)
  • 递归解析Json,实现生成可视化Tree+快速获取JsonPath

    内部平台的一个小功能点的实现过程,分享给大家: 递归解析Json,可以实现生成可视化Tree+快速获取JsonPath 。 步骤: 1.利用JsonPath读取根,获取JsonObject 2.递归层次遍历JsonObjec,保存结点信息 3.利用zTree展示结点为可视化树,点击对应树的结点即可获取对应结点的JsonPath 示例

    2024年02月08日
    浏览(44)
  • 第一个简单爬虫:获取页面

    2024年04月25日
    浏览(33)
  • 使用Python和PyTorch库构建一个简单的文本分类大模型:

            在当今的大数据时代,文本分类任务在许多领域都有着广泛的应用,如情感分析、垃圾邮件过滤、主题分类等。为了有效地处理这些任务,我们通常需要构建一个强大的文本分类模型。在本篇博客中,我们将使用Python和PyTorch库来构建一个简单的文本分类大模型,

    2024年01月25日
    浏览(46)
  • java获取一个视频的时长

    引言 在日常开发中,经常会遇到产品经理提出一个需求“上传视频”,而且还得显示出视频的播放时长,我们直接上最简单的代码,必须是最简单,多一句啰嗦都不准点赞。 How to do 1.提前引入包 2.逻辑实现

    2024年01月24日
    浏览(41)
  • 深度学习应用篇-计算机视觉-视频分类[8]:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制

    【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、序列模型、预训练模型、对抗神经网络等 专栏详细介绍:【深度学习入门到进阶】必看系列,含激活函数、优化策略、损失函数、模型调优、归一化算法、卷积模型、

    2024年02月08日
    浏览(60)
  • 简单的用Python获取一下视频弹幕,新手练手实战项目,非常简单!

    昨天看到个视频,弹幕挺有意思的,于是想着用Python给他全部扒下来。 代码非常简单,接下来我们看看 具体操作。 软件 Python 3.8 Pycharm 模块使用 import requests 数据请求 import jieba 分词 import wordcloud 词云 import parsel 数据解析 import re 正则 win + R 输入cmd 输入安装命令 pip install 模块

    2024年02月14日
    浏览(49)
  • HTML一个简单的视频提速写法构思

    4.1 现在先添加视频就绪自动标签 4.2 写了这个属性muted也能够自动播放,chrome添加就支持自动播放了 4.3 添加显示播放控件 4.4 设置无限循环 在现代化的网站中,视频播放已经成为了不可或缺的一部分。而对于视频播放的需求也越来越多样化,比如倍速播放、调节声音、拖动

    2024年02月20日
    浏览(42)
  • 工具-自动获取/校对xpath helper

    一、xpath helper安装 1、用途意义 1)用途:XPath Helper是一款专用于chrome内核浏览器的实用型爬虫网页解析工具 可以轻松快捷地找到 目标信息对应的Xpath节点,获取xpath规则,并提取目标信息,并进行校对测试 可对查询出的xpath进行编辑,正确编辑的结果将会显示在旁边的结果框

    2024年01月23日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包