基于Python的B站(哔哩哔哩)视频评论采集,可破解反爬手段,想爬几条爬几条

这篇具有很好参考价值的文章主要介绍了基于Python的B站(哔哩哔哩)视频评论采集,可破解反爬手段,想爬几条爬几条。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

它通过输入Bilibili视频的av号、BV号或链接,然后使用指定的cookie和请求头信息发送HTTP请求来获取视频的评论数据。然后,它将评论数据解析为CSV格式,并保存到指定的文件中。

具体实现过程如下:

导入所需的库:requests用于发送HTTP请求,os用于操作文件路径,time用于处理时间,json用于解析JSON数据,pandas用于数据处理。
设置相关参数:设置cookie(登录Bilibili账号后获取)和数据保存路径等参数。
定义函数visit(bv)用于访问Bilibili视频网页,判断视频是否存在。
定义函数Bta(bv)用于将BV号转化为av号。
定义函数send_f(bv, nexts=0, mode=3)用于发送父评论的请求,获取父评论的JSON数据。
定义函数send_r(bv, rpid, pn=1)用于发送子评论的请求,获取子评论的JSON数据。
定义函数parse_comment_r(bv, rpid)用于解析子评论的JSON数据,并返回CSV格式的子评论数据。
定义函数parse_comment_f(bv)用于解析父评论的JSON数据,并调用parse_comment_r()函数解析子评论。
定义主函数main(),从CSV文件中读取Bilibili视频信息,循环遍历视频列表并调用parse_comment_f()函数来获取评论数据,并将解析后的评论数据保存为CSV文件。
执行主函数并输出结束提示。

主要代码如下:

def send_f(bv, nexts=0, mode=3):
    ''' 返回父评论json  \n bv: 全bv号  \n nests: json页码  \n mode: 1楼层,2时间,3热门 '''

    r_url = 'https://api.bilibili.com/x/v2/reply/main'
    url = 'https://www.bilibili.com/video/' + bv
    av = Bta(bv)
    headers = {
        'accept': '*/*',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'cache-control': 'no-cache',
        'cookie': cookie,
        'pragma': 'no-cache',
        'referer': url,
        'sec-ch-ua': '" Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"',
        'sec-ch-ua-mobile': '?0',
        'sec-fetch-dest': 'script',
        'sec-fetch-mode': 'no-cors',
        'sec-fetch-site': 'same-site',
        'user-agent': '你的user-agent',
    }
    data = {
        # 'callback': 'jQuery172030289933285891424_' + str(time.time()*1000)[:13],
        'jsonp': 'jsonp',
        'next': nexts,  # 页码
        'type': '1',
        'oid': av,      # av号
        'mode': mode,   # 1:楼层大前小后, 2:时间晚前早后, 3:热门评论
        'plat': '1',
        '_': str(time.time()*1000)[:13],    # 时间戳
    }
    response = requests.get(r_url, headers = headers, params = data)
    response.encoding = 'utf-8'
    # 将得到的json文本转化为可读json
    if 'code' in response.text:
        c_json = json.loads(response.text)
    else:
        c_json = {'code': -1}
    if c_json['code'] != 0:
        print('json error!')
        print(response.status_code)
        print(response.text)
        return 0    # 读取错误
    return c_json

最后采集,可以采集数十万条评论,想要完整代码可以联系我,白嫖勿扰!文章来源地址https://www.toymoban.com/news/detail-802769.html

到了这里,关于基于Python的B站(哔哩哔哩)视频评论采集,可破解反爬手段,想爬几条爬几条的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 哔哩哔哩视频合并 B站缓存视频合并 安卓版 音视频合并 基于ffmpeg

    此软件是为了帮助网友合并哔哩哔哩缓存视频,Android上将bilibili缓存视频合并导出为mp4,你可以将它理解为一个专用的格式工厂,并不涉及破解相关内容,仅仅用于学习技术交流,严禁用于商业用途,如有侵权请联系我删档,对你带来困惑和不便我深感抱歉。 合并(导出)B站缓

    2024年02月02日
    浏览(73)
  • 微信小程序仿哔哩哔哩视频组件

    微信小程序仿照哔哩哔哩(包含源码获取) 效果如下图 项目为简单的小程序代码片段,不包含后端,只通过原生的小程序语言开发,使用官方原生的 video,没有使用任何的第三方的组件库, 需要的小伙伴可以自己获取项目的源代码,引入项目即可使用 视频组件video是在官方

    2024年02月02日
    浏览(41)
  • 哔哩哔哩 B站 bilibili 视频倍速设置 视频倍速可自定义

    目录 一、复制如下代码 二、在B站视频播放页面进入控制台 (一)以火狐浏览器为例          (二)以谷歌浏览器为例 三、将复制的代码粘贴到下方输入框,并 回车Enter 即可 (一)以火狐浏览器为例          (二)以谷歌浏览器为例  四、然后就可以了 (该代码用于

    2024年02月11日
    浏览(44)
  • 超级实用--解决大问题了--如何设置哔哩哔哩-实现3,4倍速视频播放---工作技巧001

      这个太实用了,为什么....因为我平时看教程的时候,如果速度过慢,就会影响效率,因为很多的技术点 都已经知道是怎么回事,很熟悉了,想跳过吧,又想听听熟悉一下,而如果一直用2倍速播放,又浪费时间 但是播放器上只能设置2倍速播放,那么怎么弄呢?可以这样设置...总于知道怎么

    2024年02月12日
    浏览(58)
  • Python爬虫 | 爬取微博和哔哩哔哩数据

    目录 一、bill_comment.py 二、bili_comment_pic.py 三、bilibili.py 四、bilihot_pic.py 五、bilisearch_pic.py 六、draw_cloud.py 七、weibo.py 八、weibo_comment.py 九、weibo_comment_pic.py 十、weibo_pic.py 十一、weibo_top.py 十二、weibo_top_pic.py 十三、weibo_top_pie.py 十四、pachong.py 十五、代码文件说明 pachong: b站、

    2024年02月12日
    浏览(57)
  • 【板栗糖GIS】——如何下载哔哩哔哩的视频CC字幕为不带时间节点的纯文字

    【板栗糖GIS】——如何下载哔哩哔哩的视频CC字幕为不带时间节点的纯文字 目录 1. 打开edge浏览器或谷歌浏览器 2. 安装油猴插件 3. 安装字幕插件 4. 打开哔哩哔哩视频播放页面,点击字幕         首先在想要下载之前需要先判定视频是否有云字幕,如果有才可以下载,如果

    2024年02月12日
    浏览(39)
  • 【爬虫GUI】YouTube评论采集软件,突破反爬,可无限爬取!

    目录 一、背景介绍 1.1 软件说明 1.2 效果演示 二、科普知识 2.1 关于视频id 2.2 关于评论时间 三、爬虫代码 3.1 界面模块 3.2 爬虫模块 3.3 日志模块 四、获取源码及软件 你好,我是@马哥python说 ,一名10年程序猿。 最近我用python开发了一个GUI桌面软件,作用是爬取YouTube指定视频

    2024年02月11日
    浏览(42)
  • 哔哩哔哩缓存转码|FFmpeg将m4s文件转为mp4|PHP自动批量转码B站视频

    打开ffMpeg官网 选择window=Windows builds from gyan.dev 打开https://www.gyan.dev/ffmpeg/builds/ 这里是上面提取的下载链接如果过期不能用自己去官网下 上面下载的FFmpeg是绿色软件,下载解压到你的常用软件安装目录即可,然后进入bin复制全路径配置下系统环境变量即可 https://github.com/PHP-F

    2024年02月14日
    浏览(60)
  • 操作无法完成,因为文件已在Windows资源管理器中打开,如何解决?以及如何将哔哩哔哩下载好的视频导出到电脑中播放?— 以vivo手机为例

    想删除流氓软件的时候,提示 操作无法完成,因为文件已在Windows资源管理器中打开 ,但打开任务管理器,似乎又没有符合的正在执行的程序,更别说打开让人看到头疼的资源监视器了,本文将用一招解决如上问题 声明: 本文持续收录病毒软件导致的电脑卡死,资源无法清

    2024年01月25日
    浏览(305)
  • 【小吉测评】哔哩哔哩接入AI?!效果如何?

    最近人工智能特别火,chatgpt,Claude2,文心一言等等大模型层出不穷 最近B站推出了AI助手功能,可以为用户提供智能的信息检索和问题解答服务。这个新功能备受瞩目,广大B站用户都跃跃欲试。那么这个AI助手的效果如何呢?它具有哪些功能?今天我们就来看看笔者亲身体验,为大

    2024年02月10日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包