搞的谁还不会爬福利美女跳舞视频一样,用我这个方法非常简单。

这篇具有很好参考价值的文章主要介绍了搞的谁还不会爬福利美女跳舞视频一样,用我这个方法非常简单。。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

大家好啊!经常听别人说爬虫玩的好,*****!其实没有这么恐怖,爬虫你一般都是采集公开的信息,所以不会像网络传言那样,大家只要遵守协议,不会出问题的。

搞的谁还不会爬福利美女跳舞视频一样,用我这个方法非常简单。

 话说学编程语言的应该都是男孩子哈,所以今天这个大家应该会挺喜欢的吧,毕竟我都喜欢看票了的女孩子,更别说你们男孩子了!

搞的谁还不会爬福利美女跳舞视频一样,用我这个方法非常简单。

这个喜欢吗?我都喜欢!

知识点:

    采集基本流程

    re正则表达式简单使用

    requests

    json数据解析方法

    数据保存

采集网站:

搞的谁还不会爬福利美女跳舞视频一样,用我这个方法非常简单。

 开发环境

Python3.8

编辑器

pycharm

模块:

  • requests

  • re

安装模块:win + R 输入cmd 输入安装命令 pip install 模块名即可

如果爆红,估计是网络连接超时,因为它这个还是挺大的,自己加个镜像源就可以了!

整个案例的基本流程

 文章来源地址https://www.toymoban.com/news/detail-412792.html

一. 数据来源分析

    确定采集内容是什么? (目标网址, 网址里面数据)

    通过开发者工具进行抓包分析, 分析我们想要数据 通过请求那个url地址可以获得

    I. 通过分析可以知道 播放url地址是什么?

    II. 通过播放地址, 去分析找寻, 数据包是在哪?

    III. 通过两个数据包 请求参数对比, 可以知道 只要获取所有ID 就可以获取内容

    (图片id MP4ID 音乐ID 还是什么ID 都可以去列表页面获取)

    IV. 去分析 mp4ID可以从哪里获取 (一般情况都可以在列表页面获取)

我想要获取播放地址 >>> 要得到数据包 >>> 获取ID
二. 代码实现步骤 发送请求 获取数据 解析数据 保存数据

    发送请求, 对于舞蹈列表页面发送请求

    获取数据, 服务器返回数据内容

    解析数据, 提取我们想要数据内容 ID

    发送请求, 把ID传入到 数据包里面 发送请求

    获取数据, 服务器返回数据内容

    解析数据, 提取我们想要数据内容 标题 以及播放地址

    保存数据, 把内容保存本地

    多页数据采集

完整代码

导入模块

# 导入数据请求模块
import requests   # 第三方模块 pip install requests 需要自行安装
# 导入re正则表达式
import re   # 内置模块 不需要安装
# 导入格式化输出模块
import pprint   # 内置模块 不需要安装

发送请求, 对于舞蹈视频列表页面发送请求

for page in range(1, 11):
    print(f'正在爬取第{page}页的数据内容')
    url = f'https:// **** .com/g/all?set_id=51&order=hot&page={page}'
    # 爬虫是模拟浏览器对于服务器发送请求, 然后获取服务器返回数据内容
    # user-agent: 用户代理 表示浏览器基本身份信息  (一种简单反反爬手段)
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
    }
    # 通过requests模块里面get请求方式对于url地址发送请求, 并且携带上headers请求进行伪装, 最后用自定义变量response接收返回数据
    response = requests.get(url=url, headers=headers)
    # <Response [200]> 表示请求成功, 请求网址成功了  *** 200状态码表示请求成功, 但是不一定能够得到数据

获取数据, 服务器返回数据内容 response.text 获取响应文本数据

    # print(response.text)

解析数据, 提取我们想要数据内容 视频ID

    # 解析方式: css re xpath
    # <li data-vid="676382675">  想要数据 可以(.*?) 从response.text 里面去找寻这样数据内容
    # .*?  是可以匹配任意字符(除了\n换行符以外)  如果你只是单纯提取数字 最好用 \d+ 匹配一个或者多个数字
    video_ids = re.findall('<li data-vid="(\d+)">', response.text)  # 返回列表数据
    for video_id in video_ids:  # 通过for循环遍历 提取列表里面元素 一个一个提取
        # print(video_id)
  1. 发送请求, 把视频ID传入到视频数据包里面

  2. 发送请求获取数据, 服务器返回数据内容

        # f 字符串格式化方法 {} 占位符
        video_info = f'https:// **** .com/moment/getMomentContent?videoId={video_id}&uid=&_=1647433310180'
        json_data = requests.get(url=video_info, headers=headers).json()
        # print(json_data)
        # pprint.pprint(json_data)
        # 根据冒号左边的内容, 提取冒号右边的内容

解析数据

        title = json_data['data']['moment']['title']
        video_url = json_data['data']['moment']['videoInfo']['definitions'][0]['url']

保存数据 >>> 发送请求 并且获取数据

        """
        response.text   >>> 文本数据返回字符串数据
        response.json() >>> json字典数据
        response.content >>> 二进制数据
        """
        video_content = requests.get(url=video_url, headers=headers).content
        with open('video\\' + title + '.mp4', mode='wb') as f:
            f.write(video_content)
        print(title, video_url)

搞的谁还不会爬福利美女跳舞视频一样,用我这个方法非常简单。

结语

今天就分享到这里了,完整代码,在线解答可以点击下方名片自动获取!

对下一篇大家想看什么内容,可在评论区留言哦!

 

到了这里,关于搞的谁还不会爬福利美女跳舞视频一样,用我这个方法非常简单。的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • win11电脑不会自动休眠?睡眠和休眠可是不一样的。

    背景: 昨天刚拿到新电脑,是win11系统。之前用的win10的本子,为了第二天快速开发,我前一天下班前往往会直接合上笔记本盖,它就自动休眠了。 然而win11并不和win10一样!!!win11貌似是只是睡眠,第二天早上一来就听见新电脑的风扇呼呼响。直接强制关机,再重启才恢复

    2024年04月27日
    浏览(37)
  • 起点读书日签脚本-5.1更新(每日视频福利,限时福利,签到,经验翻倍,领起点币,抽奖)

    基于auto.js或autox.js的起点7.9.312.1076版本app日签脚本 理论上是兼容所有版本的起点app的,但代码是基于起点7.9.312.1076版本进行开发的,有问题请更新或注明起点版本(也请不要老是更新,每次起点更新的东西你用的到吗?那就是产品经理为了让自己显的有作用加的乱七八糟东西

    2024年01月19日
    浏览(156)
  • 设计一个像ESPN一样的实时视频流系统

    功能需求 •直播事件与流之间的最大延迟不超过1分钟•系统应能够适应大量用户(异构交付)•系统应能将视频转换为不同的分辨率和编解码器•系统应具备容错性 视频转换和接收 由于我们正在实时直播整个事件,因此我们不能等待整个视频结束后再开始将其转换为不同的

    2024年02月07日
    浏览(34)
  • 不直播拍视频,一样可以变现,原来是做了这个!

    我是电商珠珠 随着直播带货的流行,部分大学也开始紧随其后,相继增设网络营销与直播电商这项课程。 以上这些技能,部分人并不知道怎么搞,一是不想麻烦,没那么多时间精力,二是做不起来,自身没有那些才艺,吸引不到粉丝。 既然直播带货不行,那么就另谋他法。

    2024年02月08日
    浏览(40)
  • 不会做视频作业的大学看这里(初级版)

    #初级版 最简单的视频制作方式:Microsoft Office PowerPoint 不要问我没有前面Microsoft、没有Office字样,不同版本行不行。只要你是近五年在国内买的国行的电脑,通常都会预装,能找到这个橘黄色的图标,就行!不行找微软客服问!客服电话自己百度。 打开之后,制作ppt会吧!按

    2024年02月03日
    浏览(31)
  • html 会跳舞的时间动画特效

    下面是是代码: 有两个js代码: jquery-1.8.3.min.js zzsc.js 下面是代码效果最好还是运行一下: 代码可以直接复制 如果有啥问题可以问我看到一定会回复大家,如果大家喜欢可以作者点赞和关注 大家的支持是我创作下去的最大动力!

    2024年01月22日
    浏览(49)
  • 多数人都不会用,有了这些视频APP,再也不担心失效!

    阿虚储物间里一大热门下载内容就是影视类APP了 但相信有这类需求的粉丝都知道:这类APP要么你忍受烦人的广告,要么就找去广告版, 但去广告版有个最大的问题就是经!常!失!效! 其实阿虚早就介绍过不少更稳定的影视APP了,只是可能很多粉丝都没注意到 今天阿虚就来

    2024年02月11日
    浏览(265)
  • 直接讲清楚反转链表和判断子链表是怎么搞的【python】

    反向子链表题,直接把反向链表和子链表讲清楚。 假设有一个链表:1 - 2 - 3 - 4 - None 初始化三个指针: prev :用于指向当前节点的前一个节点。初始时 prev 为 None。 current :用于指向当前节点。初始时 current 指向链表的头节点。 next :用于保存当前节点的下一个节点,防止在

    2024年02月05日
    浏览(31)
  • 巨型AI模型时代已结束,我们没搞GPT-5,搞的是GPT-4.99999

    自ChatGPT重新吹响人工智能革命的号角后,“百模大战”也已然在太平洋两岸同时拉开了帷幕。 近几个月来,OpenAI ChatGPT 的强大生成式对话能力引发了人们对 AI 的新兴趣和投资。随着国内外掀起类 ChatGPT 研发热潮,对话式 AI 及背后的大模型被更多人看好。 然而 一份以马斯克

    2023年04月25日
    浏览(41)
  • 记录--谁还没个靠bug才能正常运行的程序

    最近遇到一个问题,计算滚动距离,滚动比例达到某界定值时,显示mask,很常见吧^ _ ^ 这里讲的不是这个需求的实现,是其中遇到了一个比较有意思的bug,靠这个bug才达到了正确效果,以及这个bug是如何暴露的( 很重要 )。 开始计算啦,公式: 滚动比例 = 滚动距离 / 可

    2024年02月08日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包