Python爬虫实战案例——第二例

9月前作者：quanmoupy 分类：Toy博客阅读(45) 违法举报

这篇具有很好参考价值的文章主要介绍了Python爬虫实战案例——第二例。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

某某美剧剧集下载(从搜索片名开始)
本篇文章主要是为大家提供某些电影网站的较常规的下载电影的分析思路与代码思路(通过爬虫下载电影)，我们会从搜索某部影片的关键字开始直到成功下载某一部电影。

地址：aHR0cHM6Ly93d3cuOTltZWlqdXR0LmNvbS9pbmRleC5odG1s

先来分析页面

Python爬虫实战案例——第二例,Python爬虫实战案例,python,爬虫,开发语言

打开开发者工具，然后再搜索框输入任意内容开始搜索影片(如搜索战火)并抓包

Python爬虫实战案例——第二例,Python爬虫实战案例,python,爬虫,开发语言

从XHR来看的话返回的都是js文件，所以我们可以先考虑document中的html文档是否包含了我们需要的有效数据。

Python爬虫实战案例——第二例,Python爬虫实战案例,python,爬虫,开发语言

document中只返回了一个包，并且通过预览来看的话我们可以看到通过关键字搜索出来的电影是存在于这个html中的，所以我们就可以直接通过xpath解析将这些电影的片名解析出来，便于后面我们对影片进行选择。然后就可以进入到电影的详情页面(xpath解析出详情页的url)了。例如此处我们选择《兄弟连》这部电影。

Python爬虫实战案例——第二例,Python爬虫实战案例,python,爬虫,开发语言

进入到详情页之后，我们需要判断这部影片是否已经更新完成，因为下面我们需要选择播放线路，不同的播放线路已更新的剧集可能不同，但是经过对多部影片的详情页分析(此处不再贴图，大家自己去观察)发现，已完结的影片是不会存在上述问题的。但是正在连载中的影片可能就存在这样的问题，所以我们需要判断一下已经连载的剧集与这些播放线路中的剧集集数是否相等，如果相等的话才是可用的线路，否则是不可用的线路。当然也有可能存在一条线路都无法播放的情况，这个就是服务器的问题了，咱们客户端这边是没办法处理的。之后我们就要根据选择的线路去到播放页面就可以准备下载电视剧了。

此处我们选择的是九九云线路，来到播放页面之后通过抓包我们会发现并没有媒体文件，但是存在着m3u8与ts的包，因此我们能够判断出这个站点的视频是被分割成很多分的片段了。

Python爬虫实战案例——第二例,Python爬虫实战案例,python,爬虫,开发语言

接下来就是要想办法把这些ts视频下载下来了，通常情况下，这些文件的url会存在于一个m3u8的文件之中，所以我们需要先将m3u8下载下来。从播放页面的源码中我们可以解析出m3u8文件的下载地址(为了方便此处我就不再去请求源码了，直接从elements中看，大家平时的时候一定是养成习惯把源码下载到本地进行分析)

Python爬虫实战案例——第二例,Python爬虫实战案例,python,爬虫,开发语言

然后将next后面的url解析出来再进行请求，就会看到里面存在着一个新的m3u8文件的地址。

Python爬虫实战案例——第二例,Python爬虫实战案例,python,爬虫,开发语言

接下来就是通过正则将这个文件中存在的这个地址提取出来进行拼接再进行请求就能够获取到所有的ts文件所在的地址了。

Python爬虫实战案例——第二例,Python爬虫实战案例,python,爬虫,开发语言

下一步就是将这些ts文件的地址提取出来，同样我们选择正则进行提取(或者使用专门处理m3u8的第三方包进行提取)，提取出来后拼接成正常的链接，存放到一个列表中，然后再遍历列表依次请求这些url并按照顺序将视频进行保存。

Python爬虫实战案例——第二例,Python爬虫实战案例,python,爬虫,开发语言

保存之后通过ffmpeg对视频进行合成，关于ffmpeg的配置请大家自行查阅一下相关资料。

Python爬虫实战案例——第二例,Python爬虫实战案例,python,爬虫,开发语言

合成后的视频

Python爬虫实战案例——第二例,Python爬虫实战案例,python,爬虫,开发语言

由于时间关系，只下载了200个片段进行合成，有兴趣的朋友可以改写成并发请求的方式下载所有的片段进行合成。完整代码如下：文章来源地址https://www.toymoban.com/news/detail-667433.html

import os.path
import re
import requests
import urllib3
from lxml import etree



class SendRequest:
    """基本请求模板，待完善"""
    urllib3.disable_warnings()
    def __init__(self):
        self.ABS_PATH = os.path.abspath(os.path.dirname(__file__))
        self.url = ''
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
        }
        self.cookies = {}  # cookie设置
        self.data = {}  # 表单数据
        self.page = 1  # 翻页控制参数
        self.session = requests.session()
        # self.movie = '测试'
        # print(f'{self.ABS_PATH}/{self.movie}(临时文件)/{self.movie}.m3u8')
        # print(f'{self.ABS_PATH}/{self.movie}/{self.movie}.mp4')

    @property
    def UGetRequest(self):
        response = self.session.get(url=self.url, headers=self.headers, cookies=self.cookies, verify=False)
        return response

    @UGetRequest.setter
    def UGetRequest(self, kwargs: dict):
        if kwargs.get('url'):
            self.url = kwargs.get('url')
        if kwargs.get('referer'):
            self.headers['referer'] = kwargs.get('referer')

    @property
    def UPostRequest(self):
        response = self.session.post(url=self.url, headers=self.headers, cookies=self.cookies, data=self.data,
                                     verify=False)
        return response

    @UPostRequest.setter
    def UPostRequest(self, kwargs: dict):
        if kwargs.get('url'):
            self.url = kwargs.get('url')
        if kwargs.get('referer'):
            self.headers['referer'] = kwargs.get('referer')


class MeiJu99(SendRequest):
    def __init__(self):
        super().__init__()

    def synthesis(self):
        """合成视频"""
        if not os.path.exists(self.movie):
            os.mkdir(self.movie)
        cmd = f'ffmpeg.exe -f concat -safe 0 -i {self.ABS_PATH}\\{self.movie}(临时文件)\\{self.movie}.m3u8 -c copy {self.ABS_PATH}\\{self.movie}\\{self.movie}.mp4'
        os.system(cmd)

    def download_mvs(self, total_mv_urls):
        """下载所有片段"""
        if not os.path.exists(self.movie+'(临时文件)'):
            os.mkdir(self.movie+'(临时文件)')
        num = 1
        # 按照ffmpeg的格式将ts文件的路径写入到一个m3u8文件之中用于合成视频
        new_m3u8_file = open(self.movie+'(临时文件)'+'/'+self.movie+'.m3u8', 'a', encoding='utf-8')
        for url in total_mv_urls:
            self.UGetRequest = {'url': url}
            res = self.UGetRequest
            with open(self.movie+'(临时文件)'+'/'+str(num)+'.ts', 'wb')as f:
                f.write(res.content)
                new_m3u8_file.write("file '%s\%s\%d.ts'" % (self.ABS_PATH, self.movie+'(临时文件)', num))
                new_m3u8_file.write('\n')
                print(str(num) + '下载成功')
                num+=1
            if num == 201:
                break
        new_m3u8_file.close()
        self.synthesis()

    def play_page(self, play_pages_url):
        """播放页面提取下载链接"""
        self.UGetRequest = {'url': play_pages_url}
        response = self.UGetRequest
        text_html = response.content.decode()
        with open('playpage.html', 'w', encoding='utf-8')as f:
            f.write(text_html)
        m3u8_url = re.findall('var next="(.*?)";var prePage=', text_html)[0]    # 提取播放页面中的m3u8文件的地址
        self.UGetRequest = {'url': m3u8_url}
        m3u8_file = self.UGetRequest.content
        with open('1.m3u8', 'wb')as f:
            f.write(m3u8_file)
        # 请求上方获取到的m3u8_url以获取存放了ts地址的m3u8
        last_m3u8_url = m3u8_url.split('/2')[0] + re.search('/\d+/\w+/[\d+kb/]*\w+/index\.m3u8', m3u8_file.decode()).group()
        self.UGetRequest = {'url': last_m3u8_url}
        response = self.UGetRequest.content.decode()
        # 解析并保存所有的ts地址
        total_mv_urls = [m3u8_url.split('/2')[0]+i for i in re.findall('/\d+/\w+/\d+\w+/hls/\w+\.ts', response)]
        self.download_mvs(total_mv_urls)

    def index(self, index_url):
        """电影详情页面"""
        self.UGetRequest = {'url': index_url}
        response = self.UGetRequest
        text_html = response.content.decode()
        with open('index.html', 'w', encoding='utf-8')as f:
            f.write(text_html)
        tree = etree.HTML(text_html)
        using_lines = tree.xpath('//*[@id="playTab"]/div[1]/ul//li//text()')    # 可使用线路(名称)
        play_tab = tree.xpath('//*[@id="playTab"]/div')     # 下载线路
        mv_information = ''.join(tree.xpath('//*[@id="zanpian-score"]/ul//text()'))     # 电影信息
        status = ''.join(tree.xpath('//*[@id="zanpian-score"]/ul/li[2]//text()'))
        if '完结' not in status:
            numbers_sets = ''.join(re.findall('集数：共(.*?)集 每集\d+分钟|状态：更新至(.*?)集', mv_information)[0])
            for i, tab in zip(range(len(using_lines)), play_tab[1:]):
                tab_num = len(tab.xpath('./ul/li'))
                if tab_num == int(numbers_sets):
                    print('%d.' % (i+1), using_lines[i]+'(可用)', end='\t')
                else:
                    print('%d.' % (i+1), using_lines[i]+'(不可用)', end='\t')
        else:
            for i, tab in zip(range(len(using_lines)), play_tab[1:]):
                print('%d.' % (i + 1), using_lines[i], end='\t')
        print()
        download_num = int(input('请选择下载线路(输入编号):'))
        play_pages_urls = ['https://www.99meijutt.com'+i for i in play_tab[download_num].xpath('./ul//li/a/@href')]
        for play_pages_url in play_pages_urls:
            self.play_page(play_pages_url)
            break

    def search(self):
        """搜索页面采集"""
        titles = []
        self.UPostRequest = {'url': 'https://www.99meijutt.com/search.php'}
        self.data['searchword'] = input('请输入影片关键字或主演名:')
        response = self.UPostRequest
        text_html = response.content.decode()
        with open('search.html', 'w', encoding='utf-8') as f:
            f.write(text_html)
        tree = etree.HTML(text_html)
        div_lst = tree.xpath('//*[@id="content"]/div')
        print('搜索到的电影如下:')
        for i, div in zip(range(1, len(div_lst)), div_lst):  # 遍历数组与div列表为标题设置编号
            title = div.xpath('./div[1]/a/@title')[0]
            if i % 2 != 0 and i != len(div_lst)-1:
                print(str(i) + '.' + title, end='\t\t')
            else:
                print(str(i) + '.' + title)
            titles.append(title)
        num = int(input('请输入您要下载的电影序号:'))
        self.movie = titles[num-1]
        index_url = 'https://www.99meijutt.com' + div_lst[num-1].xpath('./div[1]/a/@href')[0]
        self.index(index_url)


if __name__ == '__main__':
    mj = MeiJu99()
    mj.search()

到了这里，关于Python爬虫实战案例——第二例的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

〖Python网络爬虫实战㉙〗- Selenium案例实战（三）

订阅：新手可以订阅我的其他专栏。免费阶段订阅量1000+ python项目实战 Python编程基础教程系列（零基础小白搬砖逆袭) 说明：本专栏持续更新中，目前专栏免费订阅，在转为付费专栏前订阅本专栏的，可以免费订阅付费专栏，

2024年02月07日
浏览(59)
〖Python网络爬虫实战㉕〗- Ajax数据爬取之Ajax 案例实战

订阅：新手可以订阅我的其他专栏。免费阶段订阅量1000+ python项目实战 Python编程基础教程系列（零基础小白搬砖逆袭) 说明：本专栏持续更新中，目前专栏免费订阅，在转为付费专栏前订阅本专栏的，可以免费订阅付费专栏，

2024年02月06日
浏览(70)
Python爬虫逆向实战案例(五)——YRX竞赛题第五题

题目：抓取全部5页直播间热度，计算前 5 名直播间热度的加和地址：https://match.yuanrenxue.cn/match/5 cookie中m值分析首先打开开发者工具进行抓包分析，从抓到的包来看，参数传递了查询参数 m 与 f ，同时页面中给了提示说cookie仅有50秒的有效期，所以逆向参数可以直接通过co

2024年02月11日
浏览(51)
〖Python网络爬虫实战㉔〗- Ajax数据爬取之Ajax 分析案例

订阅：新手可以订阅我的其他专栏。免费阶段订阅量1000+ python项目实战 Python编程基础教程系列（零基础小白搬砖逆袭) 说明：本专栏持续更新中，目前专栏免费订阅，在转为付费专栏前订阅本专栏的，可以免费订阅付费专栏，

2024年02月07日
浏览(72)
Python3网络爬虫开发实战

1.1 URI和URL URI：统一资源标识符(Uniform Resource Identifier) URL：统一资源定位符(Uniform Resource Locator) URN：统一资源名称(Uniform Resource Name) 1.2 HTTP和HTTPS HTTP：超文本传输协议(Hypertext Transfer Protocol) HTTPS：以安全为目标的HTTP通道(Hypertext Transfer Protocol) 1.3 请求(Requset) 1.3.1 请求方式函数

2024年02月04日
浏览(48)
【100天精通python】Day43：python网络爬虫开发_爬虫基础（urlib库、Beautiful Soup库、使用代理+实战代码）

目录 1 urlib 库 2 Beautiful Soup库 3 使用代理 3.1 代理种类 HTTP、HTTPS 和 SOCKS5

2024年02月12日
浏览(54)
Python3 网络爬虫开发实战第2版 (崔庆才) PDF 高清

《Python 3 网络爬虫开发实战（第二版）》是由崔庆才所著的一本关于使用 Python 进行网络爬虫开发的书籍。网络爬虫基础：介绍网络爬虫的基本概念、工作原理和常见的应用场景。 HTTP 协议与 Scrapy 框架：解释 HTTP 协议的基本知识，以及如何使用 Scrapy 框架来构建和管理爬虫项

2024年04月09日
浏览(78)
【Python爬虫开发实战①】使用urllib以及XPath爬取可爱小猫图片

个人主页：为梦而生~ 关注我一起学习吧！专栏：python网络爬虫从基础到实战欢迎订阅！后面的内容会越来越有意思~ 往期推荐：【Python爬虫开发基础⑦】urllib库的基本使用【Python爬虫开发基础⑧】XPath库及其基本用法我们在之前已经有8篇文章讲述基础知识了，下面我们

2024年02月11日
浏览(74)
【100天精通python】Day42：python网络爬虫开发_HTTP请求库requests 常用语法与实战

目录 1 HTTP协议 2 HTTP与HTTPS 3 HTTP请求过程 3.1 HTTP请求过程 3.2 GET请求与POST请求

2024年02月12日
浏览(62)
【100天精通python】Day44：python网络爬虫开发_爬虫基础（爬虫数据存储：基本文件存储，MySQL，NoSQL:MongDB,Redis 数据库存储+实战代码）

目录 1 数据存储 1.1 爬虫存储：基本文件存储 1.2 爬虫存储：使用MySQL 数据库 1.3 爬虫 NoSQL 数据库使用 1.3.1 MongoDB 简介

2024年02月11日
浏览(73)