基于Python的bilibili会员购数据爬取

这篇具有很好参考价值的文章主要介绍了基于Python的bilibili会员购数据爬取。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、确定好需要爬取的网站

b站会员购脚本,大数据Python基础学习,python,开发语言,pip

 二、右键检查网页源码,找到所需要爬取的数据所在的位置

b站会员购脚本,大数据Python基础学习,python,开发语言,pip

        通过分析链接可得所需要爬取的数据都在这个页面,并且通过链接可以看到不通的页面page和不通的类型type之间都有差别,可以通过这些差别来爬取不同页面或不同类型的数据。 

三、编写代码来爬取数据(这里我只用了最粗糙的代码,便于理解。)

import requests
from lxml import etree
import time
import re
import os
import threading
lists = ['%E5%85%A8%E9%83%A8%E7%B1%BB%E5%9E%8B','%E6%BC%94%E5%87%BA','%E5%B1%95%E8%A7%88','%E6%9C%AC%E5%9C%B0%E7%94%9F%E6%B4%BB']
def get_txt():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 SLBrowser/8.0.0.9231 SLBChan/105',
        'Cookie': 'HMACCOUNT_BFESS=46935071688D78C1; BDUSS_BFESS=l1SU5nNXJhem5NUUtuUGF3M0tUZFh5V356bE43d3lCc2FQT3dKYThTU1VRMVpqRVFBQUFBJCQAAAAAAAAAAAEAAAACCeP-tv60ztSq1q7N6NfTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJS2LmOUti5jSW; BAIDUID_BFESS=ADBC15F9539AC3DC4E2B4357892C6338:FG=1; ZFY=0tSY2YREU0sWPj7omdNG8nhw:AMIBJMcSjpUUKTA0:BvE:C; H_PS_PSSID='
    }

    n = 0
    type_project= ''
    for type in lists:

        n += 1
        if n == 1:
            type_project = '全部类型'
            print("这里是全部类型")
        elif n == 2:
            type_project = '演出'
            print("这里是演出")
        elif n == 3:
            type_project = '展览'
            print("这里是展览")
        else:
            type_project = '本地生活'
            print("这里是本地生活")

        for page in range(1,5):
            url = ("https://show.bilibili.com/api/ticket/project/listV2?version=134&page={}&pagesize=16&area=-1&filter=&platform=web&p_type={}").format(page,type)
            source = requests.get(url=url, headers=headers).content.decode('utf-8').split('project_id')
            print('\n这是第{}页\n'.format(page))
            if not os.path.isdir('会员购1'):  # 判断是否为目录
                os.mkdir('会员购1')  # 创建一级目录

            m = 0

            for i in source[1:]:
                demo = re.compile('"project_name":"(.*?)"')
                m += 1
                demo1 = re.compile('"city":"(.*?)"')
                demo2 = re.compile('"price_low":([0-9]+)')
                demo3 = re.compile('"price_high":([0-9]+)')
                demo4 = re.compile('"tlabel":"(.*?)"')
                demo5 = re.compile('"venue_name":"(.*?)"')

                project_name = ''.join(demo.findall(i)) #不合并是列表,合并是字符串
                city = ''.join((demo1.findall(i)))
                price_low = ''.join(demo2.findall(i))
                price_high = ''.join((demo3.findall(i)))
                start_time = ''.join((demo4.findall(i)))
                venue_name = ''.join((demo5.findall(i)))

                with open('会员购1/{}.txt'.format(type_project),'a',encoding='utf-8') as f: #写成w的话就会覆盖掉之前保留的数据,最终只显示最后一行数据,需要解码才能识别写入
                    f.write(project_name+"\n"+city+"\n"+price_low+"\n"+price_high+"\n"+start_time+"\n"+venue_name+"\n\n")
                    f.close()
            print('共匹配了{}个项目'.format(m))


thread1 = threading.Thread(name='t1',target= get_txt())
thread1.start()

#这里看起来是用了进程,实际上完全没有显示,不用管这个,就算没有打包成类也可以直接爬取。

 四、爬取成功之后就会创建一个会员购1的文件夹来保存这些txt数据,如下:

b站会员购脚本,大数据Python基础学习,python,开发语言,pip

五、查看爬取到的内容,可以看到信息都已经爬取出来了

b站会员购脚本,大数据Python基础学习,python,开发语言,pip 六、虽然顺序有些不太对,但内容是完整的,另外如果遇到装包的问题可以直接通过pip镜像源来装,不过这种情况大概非常少见,毕竟都是很常见的包

 文章来源地址https://www.toymoban.com/news/detail-571372.html

到了这里,关于基于Python的bilibili会员购数据爬取的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Python 爬虫脚本】Python爬取歌曲

    目标:爬取酷狗音乐 右键--检查 进入网络,查看所有请求,事先先清空历史数据 点击刷新,重新进入页面 找到index请求,在预览中可以看到  play_backup_url:\\\"https://webfs.tx.kugou.com/202308251554/97c6fef48119300dd2a238ee8025c521/v2/409ebc56ea4ba76e58d8c89af8d03b6a/KGTX/CLTX001/409ebc56ea4ba76e58d8c89af8d03b6a.

    2024年01月17日
    浏览(37)
  • Python爬虫基础之如何对爬取到的数据进行解析

    原文地址: https://www.program-park.top/2023/04/13/reptile_2/   在上一篇博客中,讲了如何使用 urllib 库爬取网页的数据,但是根据博客流程去操作的人应该能发现,我们爬取到的数据是整个网页返回的源码,到手的数据对我们来说是又乱又多的,让我们不能快速、准确的定位到所需

    2023年04月16日
    浏览(30)
  • 基于python的旅游信息爬取以及数据分析

    收藏和点赞,您的关注是我创作的动力   随着计算机网络技术的发展,近年来,新的编程语言层出不穷,python语言就是近些年来最为火爆的一门语言,python语言,相对于其他高级语言而言,python有着更加便捷实用的模块以及库,具有语法简单,语句清晰的特点,使得它在代

    2024年02月04日
    浏览(46)
  • 基于Python+django影片数据爬取与数据分析设计与实现

    博主介绍 : ✌ 全网粉丝30W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精彩专栏 推荐订阅 👇🏻 不然下次找不到哟 2022-2024年

    2024年02月05日
    浏览(43)
  • Python网络爬虫爬取招聘数据(利用python简单零基础)可做可视化

    身为一个求职者,或者说是对于未来的职业规划还没明确目标的大学生来说,获取各大招聘网上的数据对我们自身的发展具有的帮助作用,本文章就简答零基础的来介绍一下如何爬取招聘数据。 我们以东莞的Python数据分析师这个职位来做一个简单的分析,页面如下图所示:

    2024年02月03日
    浏览(39)
  • python学习:爬虫爬取微信公众号数据

    参考: https://blog.csdn.net/qq_45722494/article/details/120191233 1、登录微信公众平台 这里我注册了个微信公众号 点击图文消息 点击超链接 搜索要爬取的公众号名称 获取appmsg?action… 上述第一步可以获取到cookie、fakeid、token、user_agent等,编辑成wechat.yaml文件,如下所示 代码如下: 因为阅读

    2024年01月24日
    浏览(40)
  • 【Python爬虫】基于selenium库爬取京东商品数据——以“七夕”为例

    小白学爬虫,费了一番功夫终于成功了哈哈!本文将结合本人踩雷经历,分享给各位学友~ 用写入方式打开名为data的csv文件,并确定将要提取的五项数据。 上面第一行代码值得一提,driver =  webdriver.Edge()括号内为Edge浏览器驱动程序地址,需要在Edge浏览器设置中查找Edge浏览器

    2024年02月06日
    浏览(43)
  • 基于Python的招聘网站信息爬取与数据分析

    文末获取资源,收藏关注不迷路 随着社会经济的快速发展,人们的生活水平得到了显著提高,但随之而来的社会问题也越来越多。其中最为显著的就是就业问题。为此,招聘信息的展示也变得越来越为重要。但是在大量的招聘信息中,人们在提取自己最想要的信息时变得不那

    2024年02月04日
    浏览(35)
  • 基于Python的网络爬虫爬取天气数据可视化分析

    目录 摘 要 1 一、 设计目的 2 二、 设计任务内容 3 三、 常用爬虫框架比较 3 四、网络爬虫程序总体设计 3 四、 网络爬虫程序详细设计 4 4.1设计环境和目标分析 4 4.2爬虫运行流程分析 5 爬虫基本流程 5 发起请求 5 获取响应内容 5 解析数据 5 保存数据 5 Request和Response 5 Request 5

    2024年02月08日
    浏览(38)
  • 毕业设计-基于大数据的电影爬取与可视化分析系统-python

    目录 前言 课题背景和意义 实现技术思路 实现效果图样例     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学

    2024年01月21日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包