没事干,就像爬爬樱花动漫
一,观察网页
樱花动漫有国漫,日漫,欧美,港台等分区,他们的网址有略微不同,类似于这样。
国漫:https://www.yhdmwz.com/gcdm.html
日漫:https://www.yhdmwz.com/rhdm.html
每个分区下面不止一页动漫,每页动漫地址也不一样,拿国漫举例,第一页:
https://www.yhdmwz.com/gcdm_1.html
第二页:
https://www.yhdmwz.com/gcdm_2.html
当然每个动漫的集数的地址也不一样,这就不举例了。
二,想要实现的功能
爬去樱花动漫的动漫视频和动漫的基本信息(所属分类,地区,更新日期,简介之类的)
三,分步实现
1.做到能在国漫,日漫,欧美,港台的选择,由于分区简单,这里就做一个 if elif 的选择就行,小功能做成函数,方便调用。
其返回的网址就是你要用的url。然后就可以使用这个url去取得response响应通过response =requests.get(url)。我这里用了BeautifulSoup4解析
然后通过find_all()去取得分区下每页的地址。
二,通过每页的url获取当页下的动漫。

这里打印出来就能得到,某动漫的地址是什么 的形式,这样就能在后续通过输入动漫的地址去访问(这里是为了方便),也可以通过使用字典,达到输入动漫名字去访问。
三,通过动漫地址拿到动漫的信息

这里拿到了动漫名,更新,分类等。其简介也用类似的方法拿到。最后把他们合到一起。动漫名要单独拿出来,为了后续存储起名方便。
四,存储动漫简介


path即是存储路径,content是以前返回的简介信息 ,这里就实现了存储。 视频的存储也是这样。
五,上面拿到了某个动漫的地址,这里就实现拿到每集的地址。
同样的步骤,通过动漫地址,去发送请求获得response。然后通过find()去获得每集的地址。
六,拿到存放播放器链接的链接
上面拿到了每一集的地址,例如,
https://www.yhdmwz.com/play/62-0-76.html
而我们最终是要爬取到视频,而视频是放在播放器m3u8下面,而存放播放器链接是放在
https://www.yhdmwz.com/yzmplay/62-0-76
观察上面两个,只是略有不同,这里运用split 去分割和字符串+字符串 得到存放播放器链接的
七,拿到播放器链接m3u8 然后拿到视频以及存储
通过正则表达式拿到该链接,然后requests.get()拿到视频。存储方式和上面一样,视频用mp4存放
文章来源:https://www.toymoban.com/news/detail-406721.html
最终看看效果
文章来源地址https://www.toymoban.com/news/detail-406721.html
到了这里,关于Python爬去樱花动漫 超简单的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!