Python网络爬虫（五）：b站弹幕

8月前作者：wp_tao 分类：Toy博客阅读(59) 违法举报

这篇具有很好参考价值的文章主要介绍了Python网络爬虫（五）：b站弹幕。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

上一篇对b站的视频评论爬取进行了探讨，这一篇是弹幕。直接上代码：文章来源地址https://www.toymoban.com/news/detail-844902.html

import csv
import json
import re
import chardet
import requests

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.1.3162 SLBChan/105'}


# 对爬取的页面内容进行json格式处理
def get_text(url):
    res = requests.get(url=url, headers=headers)
    res.encoding = chardet.detect(res.content)['encoding']  # 统一字符编码
    res = res.text
    data = json.loads(res)  # json格式化
    return data


def get_cid(bv):
    url_1 = 'https://api.bilibili.com/x/player/pagelist?bvid={}'.format(bv)
    response = get_text(url_1)
    cid = response['data'][0]['cid']  # 获取cid
    return cid


def get_content_list(cid):
    content_list = []
    url = f'https://comment.bilibili.com/{cid}.xml'
    r2 = requests.ge

到了这里，关于Python网络爬虫（五）：b站弹幕的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Python3 网络爬虫开发实战第2版 (崔庆才) PDF 高清

《Python 3 网络爬虫开发实战（第二版）》是由崔庆才所著的一本关于使用 Python 进行网络爬虫开发的书籍。网络爬虫基础：介绍网络爬虫的基本概念、工作原理和常见的应用场景。 HTTP 协议与 Scrapy 框架：解释 HTTP 协议的基本知识，以及如何使用 Scrapy 框架来构建和管理爬虫项

2024年04月09日
浏览(78)
【Python爬虫开发基础⑥】计算机网络基础（Web和HTTP）

专栏：python网络爬虫从基础到实战欢迎订阅！近期还会不断更新~ 另外：如果想要看更多的计算机网络知识，可以关注我的专栏：计算机网络往期推荐：【Python爬虫开发基础①】Python基础（变量及其命名规范）【Python爬虫开发基础②】Python基础（正则表达式）【Python爬虫

2024年02月12日
浏览(54)
【100天精通python】Day44：python网络爬虫开发_爬虫基础（爬虫数据存储：基本文件存储，MySQL，NoSQL:MongDB,Redis 数据库存储+实战代码）

目录 1 数据存储 1.1 爬虫存储：基本文件存储 1.2 爬虫存储：使用MySQL 数据库 1.3 爬虫 NoSQL 数据库使用 1.3.1 MongoDB 简介

2024年02月11日
浏览(73)
【100天精通python】Day42：python网络爬虫开发_HTTP请求库requests 常用语法与实战

目录 1 HTTP协议 2 HTTP与HTTPS 3 HTTP请求过程 3.1 HTTP请求过程 3.2 GET请求与POST请求

2024年02月12日
浏览(62)
python实现网络爬虫代码_python如何实现网络爬虫

python实现网络爬虫的方法：1、使用request库中的get方法，请求url的网页内容；2、【find()】和【find_all()】方法可以遍历这个html文件，提取指定信息。 python实现网络爬虫的方法：第一步：爬取使用request库中的get方法，请求url的网页内容编写代码[root@localhost demo]# touch demo.py [

2024年01月20日
浏览(48)
Python网络通信-python爬虫基础

1.1、安装requests模块打开pycharm 安装成功会提示successfully 1.2、发送GET请求简单请求（以京东举例）运行结果添加请求头（以百度举例）为什么要添加请求头呢，因为有些网页在你请求的时候会检查你是否有请求头，如果没有请求头，就不会返回正常的内容，下面我来验证

2024年01月24日
浏览(47)
Python网络基础爬虫-python基本语法

熟悉C/C++语言的人们可能很希望Python提供switch语句，但Python中并没有这个，也没有这个语句结构。但是可以通过if-elif-elif-…这样的结构代替，或者使用字典实现。比如：这段代码实现的功能是，输入一个运算符，再输入两个数字，返回其计算的结果。比如输入“+12”，

2024年03月21日
浏览(44)
一个月学通Python(二十八)：Python网络数据采集（爬虫）概述（爬虫）

结合自身经验和内部资料总结的Python教程，每天3-5章，最短1个月就能全方位的完成Python的学习并进行实战开发，学完了定能成为大佬！加油吧！卷起来！全部文章请访问专栏：《Python全栈教程（0基础）》爬虫（crawler）也经常被称为网络蜘蛛（spider），是按照一定的规则自

2024年02月14日
浏览(54)
如何在网络爬虫中解决CAPTCHA？使用Python进行网络爬虫

网络爬虫是从网站提取数据的重要方法。然而，在进行网络爬虫时，常常会遇到一个障碍，那就是CAPTCHA（全自动公共图灵测试以区分计算机和人类）。本文将介绍在网络爬虫中解决CAPTCHA的最佳方法，并重点介绍CapSolver无缝集成。网络爬虫中的CAPTCHA是指在从网站提取数据时遇

2024年01月22日
浏览(58)
01 Python 网络爬虫：爬虫技术的核心原理

不夸张地说，现在哪怕是初中生，只要花点儿时间、精力稍微按「网络爬虫」的开发步骤学习了解一下，也能把它玩得贼溜。听起来感觉是很高大上的东西，但实际上并不复杂，也就是使用了某种编程语言按照一定步骤、规则主动通过互联网来抓取某些特定信息的代码程序。

2024年02月12日
浏览(49)