用 Python 抓取 bilibili 弹幕并分析!

这篇具有很好参考价值的文章主要介绍了用 Python 抓取 bilibili 弹幕并分析!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

01 实现思路

首先,利用哔哩哔哩的弹幕接口,把数据保存到本地。接着,对数据进行分词。最后,做了评论的可视化。

02 弹幕数据

python爬取b站弹幕并进行数据分析,python入门教程,python,数据库,开发语言,算法

平常我们在看视频时,弹幕是出现在视频上的。实际上在网页中,弹幕是被隐藏在源代码中,以XML的数据格式进行加载的。

比如:

https://comment.bilibili.com/123072475.xml

一个固定的url地址 + 视频的cid + .xml

只要找到你想要的视频cid,替换这个url就可以爬取所有弹幕了(b站大部分网页给出的字幕限制是1000条)。

一个视频的cid在哪里呢?

右键网页,打开网页源代码,搜索 "cid": 就能找到:

python爬取b站弹幕并进行数据分析,python入门教程,python,数据库,开发语言,算法

03 保存数据到本地

有了数据的接口链接,我们就可以利用request模块,获取数据了。

然后,再利用xpath简单的解析xml,就可以把所有的弹幕信息汇总到一个列表里了。最后,把列表转化成dataframe,保存到本地。

# 许嵩新歌《雨幕》
# bilibili视频弹幕文件
url = 'https://comment.bilibili.com/123072475.xml'

# 发送请求
response = requests.get(url)
xml = etree.fromstring(response.content)

# 解析数据
dm = xml.xpath("/i/d/text()")
print(dm)  # list

# 把列表转换成 dataframe
dm_df = pd.DataFrame(dm, columns=['弹幕内容'])
print(dm_df)

# 存到本地
# 解决了中文乱码问题
dm_df.to_csv('雨幕-弹幕.csv', encoding='utf_8_sig')

保存的csv数据:

python爬取b站弹幕并进行数据分析,python入门教程,python,数据库,开发语言,算法

python爬取b站弹幕并进行数据分析,python入门教程,python,数据库,开发语言,算法

04 对数据进行分词

制作词云前,需要把弹幕数据进行分词。

关于jieba分词,可以参考:

https://blog.csdn.net/dnxbjyj/article/details/72854460

# jieba分词
dm_str = " ".join(dm)
words_list = jieba.lcut(dm_str)  # 切分的是字符串,返回的是列表
words_str = " ".join(words_list)

05 词云可视化

通过创建词云对象、设置词云参数,最终生成图片,保存到本地。

# 读取本地文件
backgroud_Image = plt.imread('1.jpg')

# 创建词云
wc = WordCloud(
    background_color='white',
    mask=backgroud_Image,
    font_path='./SourceHanSerifCN-Medium.otf',  # 设置本地字体

    max_words=2000,
    max_font_size=100,
    min_font_size=10,
    color_func=random_color_func,
    random_state=50,
)

word_cloud = wc.generate(words_str) # 产生词云
word_cloud.to_file("yumu.jpg") #保存图片

python爬取b站弹幕并进行数据分析,python入门教程,python,数据库,开发语言,算法文章来源地址https://www.toymoban.com/news/detail-858896.html

到了这里,关于用 Python 抓取 bilibili 弹幕并分析!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Python的bilibili会员购数据爬取

    一、确定好需要爬取的网站  二、右键检查网页源码,找到所需要爬取的数据所在的位置         通过分析链接可得所需要爬取的数据都在这个页面,并且通过链接可以看到不通的页面page和不通的类型type之间都有差别,可以通过这些差别来爬取不同页面或不同类型的数据

    2024年02月16日
    浏览(30)
  • 仿bilibili视频弹幕播放器介绍&搭建

    一款防bilibili的播放器,支持弹幕和后台管理,主要是这个播放器是仿B站的,很简洁,特别合适用来web开发。 插件功能:弹幕后台、前置广告、暂停广告、会员去广告,记忆回放,自动下一集 插件支持:.m3u8、.mp4、.flv 等常见视频格式,注意:不支持 (MP4) H265 格式的视频

    2023年04月24日
    浏览(47)
  • 基于python requests库的bilibili爬虫简单尝试以及数据分析及可视化

    在初步了解了关于爬虫的课程之后,我也进行了一些自己的尝试。本文将从“爬取BiliBili Vtuber区直播信息为切入点,来探讨requests, re等库的基础应用。在爬取信息之后,本文将通过matplotlib以及pandas库做数据分析以及可视化 首先,我们先确认任务:打开Bilibili,在直播分区中选

    2024年02月05日
    浏览(28)
  • 极简式 Unity 获取 bilibili 直播弹幕、SC、上舰、礼物等 插件

    极简式 Unity 获取 bilibili 直播弹幕、SC、上舰、礼物等 1. 声明 下载链接 软件均仅用于学习交流,请勿用于任何商业用途! 2. 介绍 该项目为Unity实时爬取B站直播弹幕。 项目介绍:通过传入B站直播间账号,实现监控B站直播弹幕、SC、上舰、礼物等。 运行方式:下载后将文件夹

    2024年02月05日
    浏览(25)
  • 【python】python旅游网数据抓取分析(源码+论文)【独一无二】

    👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 每个爬虫针对特定的目标网站(去哪儿网

    2024年02月04日
    浏览(44)
  • 【Python】python天气数据抓取与数据分析(源码+论文)【独一无二】

    👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 本项目包括四个核心部分:数据爬取、数

    2024年02月05日
    浏览(69)
  • Python爬取天气数据并进行分析与预测

    随着全球气候的不断变化,对于天气数据的获取、分析和预测显得越来越重要。本文将介绍如何使用Python编写一个简单而强大的天气数据爬虫,并结合相关库实现对历史和当前天气数据进行分析以及未来趋势预测。 1 、数据源选择 选择可靠丰富的公开API或网站作为我们所需的

    2024年02月09日
    浏览(41)
  • 简单的用Python抓取动态网页数据,实现可视化数据分析

    一眨眼明天就周末了,一周过的真快! 今天咱们用Python来实现一下动态网页数据的抓取 最近不是有消息说世界首富马上要变成中国人了吗,这要真成了,可就是历史上首位中国世界首富了! 那我们就以富豪排行榜为例,爬取一下2023年国内富豪五百强,最后实现一下可视化分

    2024年02月05日
    浏览(39)
  • 【python】当当书籍数据抓取分析与可视化(代码+报告)【独一无二】

    👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 本项目旨在研究和分析当当网上的书籍信

    2024年02月04日
    浏览(43)
  • Python爬取180天的天气信息及数据分析

    这篇文章记录以下两点: 1.获取天气信息的方法和步骤以及遇到的问题和改进方法 2.获取到天气信息后进行数据清洗和可视化展示 总的来说,就是将网站中的天气信息通过爬虫技术保存在文件中,再通过对文件中的文本数据进行处理后用图表方式展现出来。 1.选定网址 (1)

    2024年02月08日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包