Python爬去樱花动漫超简单-Toy模板网

这篇具有很好参考价值的文章主要介绍了Python爬去樱花动漫超简单。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

没事干，就像爬爬樱花动漫
一，观察网页
樱花动漫有国漫，日漫，欧美，港台等分区，他们的网址有略微不同，类似于这样。
国漫:https://www.yhdmwz.com/gcdm.html
日漫:https://www.yhdmwz.com/rhdm.html

每个分区下面不止一页动漫，每页动漫地址也不一样，拿国漫举例，第一页:
https://www.yhdmwz.com/gcdm_1.html
第二页:
https://www.yhdmwz.com/gcdm_2.html
当然每个动漫的集数的地址也不一样，这就不举例了。

二，想要实现的功能
爬去樱花动漫的动漫视频和动漫的基本信息(所属分类，地区，更新日期，简介之类的)

三，分步实现
1.做到能在国漫，日漫，欧美，港台的选择，由于分区简单，这里就做一个 if elif 的选择就行，小功能做成函数，方便调用。 Python爬去樱花动漫超简单
其返回的网址就是你要用的url。然后就可以使用这个url去取得response响应通过response =requests.get(url)。我这里用了BeautifulSoup4解析
然后通过find_all()去取得分区下每页的地址。
二，通过每页的url获取当页下的动漫。
Python爬去樱花动漫超简单
这里打印出来就能得到，某动漫的地址是什么的形式，这样就能在后续通过输入动漫的地址去访问（这里是为了方便），也可以通过使用字典，达到输入动漫名字去访问。

三，通过动漫地址拿到动漫的信息
Python爬去樱花动漫超简单
这里拿到了动漫名，更新，分类等。其简介也用类似的方法拿到。最后把他们合到一起。动漫名要单独拿出来，为了后续存储起名方便。

四，存储动漫简介
Python爬去樱花动漫超简单

path即是存储路径，content是以前返回的简介信息，这里就实现了存储。视频的存储也是这样。

五，上面拿到了某个动漫的地址，这里就实现拿到每集的地址。
同样的步骤，通过动漫地址，去发送请求获得response。然后通过find()去获得每集的地址。

六，拿到存放播放器链接的链接
上面拿到了每一集的地址，例如，
https://www.yhdmwz.com/play/62-0-76.html
而我们最终是要爬取到视频，而视频是放在播放器m3u8下面，而存放播放器链接是放在
https://www.yhdmwz.com/yzmplay/62-0-76
观察上面两个，只是略有不同，这里运用split 去分割和字符串+字符串得到存放播放器链接的
Python爬去樱花动漫超简单