python拷贝漫画下载爬虫(附代码github链接)

这篇具有很好参考价值的文章主要介绍了python拷贝漫画下载爬虫(附代码github链接)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

先附上github链接:GitHub - muzi-xiaoren/kaobei_Crawler: 拷贝漫画爬虫

主要使用selenium库模拟浏览器来获取kaobei动态加载的html页面。

用BeautifulSoup进行解析。然后传入函数先获取url。

将url传入get.py中使用多线程编程加快下载速率

下面是具体函数及使用方法。

download.py 和 get.py 是方法函数,不需要修改。pic是md图片存放处。


kaobei_spider_1.py

使用临时账号和密码登陆,需要登陆的原因是有一些漫画不登陆不可见 (在50和51行处,可以不用修改 也可以修改成你的账号和密码)

56行处修改漫画页面的url,修改成页面显示如下图时的url。从浏览器复制就行。

下载的图片新存放于本文件夹中的一个kaobei_images中。


kaobei_spider_2.py

使用的是本机浏览器,例如代码中的Chrome浏览器 如果你的浏览器中已经登陆了拷贝网站,那么就可以省去登陆的步骤。

但是配置起来比较麻烦,教程见教程Chrome浏览器的复用_--remote-debugging-port=9222_Mengmeng.Nie的博客-CSDN博客

建议直接使用kaobei_spider_1的账号密码登陆


最后是一些注意事项

  1. 由于使用多线程下载,对每张图片使用一个新的线程进行下载。所以可能会比较吃网速,导致一些报错。如果出现这种情况,可以如下解决。

    1. 一次运行完后,再次运行py程序,因为图片会先检测是否存在,不会重复下载。基本多运行几次就可以完全下载。
    2. 取消get.py第20行的注释,让所有下载图像的线程创建完成后停一秒后再返回,时间也可以多加一些。
  2. 程序运行时请让浏览器的页面保持在屏幕中,不要最小化到任务栏中,不然页面不会进行更新。

  3. kaobei_spider_2.py目前运行完成后不能自动关闭,需要手动结束一下进程。当然最好等一会,因为打印出最后下载章数的时候,可能还有一些下载图片的进程在运行。

  4. 下载的漫画全部存放于一个文件夹中,文件名格式由章节数_图片顺序_url中部分字符串构成。如下所示。 爬虫 python github 下载,爬虫,github文章来源地址https://www.toymoban.com/news/detail-777979.html

到了这里,关于python拷贝漫画下载爬虫(附代码github链接)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 如何使用curl下载github代码

    首先通过chrome打开想要下载的源文件 如图,有那个下载图标时表示不需要鉴权即可下载,一般仓库都会开放只读权限,所以很大概率都有 比如我想下载这个crc32.c文件 那么我就需要知道它在哪个IP中,按下F12打开网络,点击下载图标 上图为文件所在位置 使用如下命令进行下

    2024年02月16日
    浏览(37)
  • GitHub 下载某个程序的特定版本(代码)

    git clone 下载源码 git tag 列出所有版本号 git checkout +某版本号 你当前文件夹下的源码会变成这个版本号的源码。 但可能遇到错误: error: Your local changes to the following files would be overwritten by checkout : xxxx Please commit your changes or stash them before you switch branches 可以强制切换分支以舍弃

    2024年02月08日
    浏览(58)
  • GitHub 上有哪些优秀的 Python 爬虫项目?

    淘宝模拟登录 天猫商品数据爬虫 爬取淘宝我已购买的宝贝数据 每天不同时间段通过微信发消息提醒女友 爬取5K分辨率超清唯美壁纸 爬取豆瓣排行榜电影数据(含GUI界面版) 多线程+代理池爬取天天基金网、股票数据(无需使用爬虫框架) 一键生成微信个人专属数据报告(了解你的

    2024年02月07日
    浏览(42)
  • CMakeLists中下载github仓库代码和设置代理

    在编译大型项目时,往往会遇到在CMakeLists.txt文件中下载github依赖仓库的现象。 但是因为墙的原因,直接下载不了代码导致编译报错。 可以通过设置代理解决。 但是如果你是在docker中编译时,情况又会变得复杂,设置代理会报”Failed to connect to 127.0.0.1 port 8082 after 0 ms: Conne

    2024年03月22日
    浏览(49)
  • Python爬虫系列(二)——Python爬虫批量下载百度图片

    1. 前言 先贴代码 如果要使用上述程序的话,需要修改两个地方 : self.directory 这是本地存储地址,修改为自己电脑的地址,另外,**{}**不要删 spider.json_count = 10 这是下载的图像组数,一组有30张图像,10组就是三百张,根据需求下载 也可以去gitee仓库直接下载程序。 关于 py

    2023年04月08日
    浏览(58)
  • GitHub下载克隆clone指定的分支tags代码

    github上有很多tag分支版本的代码,我想克隆下载指定版本到我服务器上面 例如:我想下载tag:v2.0.2的代码 命令: git clone -b [tags标签] [git地址] 例如:git clone -b v2.0.2 https://github.com/spring-projects/spring-retry.git 若想对克隆后的项目重命名则可执行以下命令 git clone -b [tags标签] [git地

    2024年02月06日
    浏览(55)
  • Github上代码下载慢怎么办?开启代理

    国内访问Github的网络真是一言难尽,有时候要下载个比较大的源码,例如Spring的源码,下个半天也没有下载下来。 这时候需要使用一些手段来帮助我们加快源码的下载。 方案一 使用代理的方式加快下载 首先你需要有科学上网的能力,在电脑上开启了科学上网之后,配置Gi

    2024年02月07日
    浏览(48)
  • [Anonymous GitHub]代码下载方法,一次性全下载

    工具分享: https://github.com/kynehc/clone_anonymous_github​github.com/kynehc/clone_anonymous_github 注意: 下载链接格式一定要确保结尾有个/ 注意: 下载链接格式要弄成readme之前的链接:例如下面的链接: https://anonymous.4open.science/r/GraphCL-7105/README.md/ 你应该写为:  https://anonymous.4open.scienc

    2024年02月13日
    浏览(49)
  • 不用下载APP!三行代码解决Github的2FA验证!

    一定要保存好你的secret和恢复码!!登录的时候会用到!!!! 一定要保存好你的secret和恢复码!!登录的时候会用到!!!! 一定要保存好你的secret和恢复码!!登录的时候会用到!!!! 1.取到密钥  2.       将代码中secret部分替成刚刚取到的密钥,生成code!  一定要

    2024年02月11日
    浏览(52)
  • 『python爬虫』github仓库存放脚本结合青龙面板使用(保姆级图文)

    欢迎关注 『python爬虫』 专栏,持续更新中 欢迎关注 『python爬虫』 专栏,持续更新中 订阅或是直接添加任务 名称随意输入,链接是我们的仓库地址+ .git ,定时规则 0 0 7 * * ? 表示每天7点更新一次,也可以自己设置. 添加订阅后运行发现如果没有添加脚本,请检查你的配置,是否接

    2024年04月26日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包