crawlab通过docker单节点部署简单爬虫

这篇具有很好参考价值的文章主要介绍了crawlab通过docker单节点部署简单爬虫。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

crawlab

单节点docker安装

此处介绍的是单节点的方式,多节点的情况可以把爬虫上传到一个节点中,之后会同步到其它节点上

version: '3.3'
services:
  master:
    image: crawlabteam/crawlab
    container_name: crawlab_master
    restart: always
    environment:
      CRAWLAB_NODE_MASTER: Y  # Y: 主节点
      CRAWLAB_MONGO_HOST: mongo  # mongo host address. 在 Docker-Compose 网络中,直接引用 service 名称
      CRAWLAB_MONGO_PORT: 27017  # mongo port 
      CRAWLAB_MONGO_DB: crawlab  # mongo database 
      CRAWLAB_MONGO_USERNAME: username  # mongo username
      CRAWLAB_MONGO_PASSWORD: password  # mongo password 
      CRAWLAB_MONGO_AUTHSOURCE: admin  # mongo auth source 
    volumes:
      - "./master:/data"  # 持久化 crawlab 数据,master是win中的相对目录
    ports:
      - "8080:8080"  # 开放 api 端口
    depends_on:
      - mongo

  mongo:
    image: mongo:4.2
    restart: always
    environment:
      MONGO_INITDB_ROOT_USERNAME: username  # mongo username
      MONGO_INITDB_ROOT_PASSWORD: password  # mongo password
    volumes:
      - "/opt/crawlab/mongo/data/db:/data/db"  # 持久化 mongo 数据
    ports:
      - "27017:27017"  # 开放 mongo 端口到宿主机

docker-compose up -d运行,访问localhost:8080,用户密码均为admin

上传爬虫

此处上传一个爬取图片的简单爬虫,上传requirements.txt或者package.json文件,crawlab会自动扫描并安装依赖,但是如果存在多版本依赖的话,还没尝试,希望大神知道的留言告知。
爬虫是一个下载美女图片的爬虫,进入到crawlab的终端中,执行pip3 list 可以看到安装的包,其中常见的如requests、parsel都已经安装了

// ceshi.py
import requests
import parsel
import os
os.mkdir('/data/aa')
for page in range(1, 2):
    print(f'-------正在爬取第{page}页----------')
    sub_url = ''if page == 1 else '_' + str(page)
    url = f'https://pic.netbian.com/4kmeinv/index{sub_url}.html'
    if not os.path.exists('/data/aa/' + f'第{page}页'):
        os.mkdir('/data/aa/' + f'第{page}页')
    response = requests.get(url=url)
    response.encoding = 'gbk'

    data_html = response.text
    selector = parsel.Selector(data_html)
    a_href_list = selector.css(
        '#main > div.slist > ul > li > a::attr(href)').getall()  # 获取每个图片的url
    for a_href in a_href_list:
        a_href = 'https://pic.netbian.com' + a_href
        response_1 = requests.get(a_href)
        selector_1 = parsel.Selector(response_1.text)  # 每个图片的网页链接
        img = selector_1.css('#main > div > div > div > a > img::attr(src)').getall()[
            0]  # 照片的url
        download_url = 'https://pic.netbian.com/' + img
        title = img.split('/')[-1]
        download = requests.get(download_url).content

        with open(f'/data/aa/第{page}页/{title}', mode='wb')as f:
            f.write(download)
        print(title, '下载完成')
    print(f'第{page}页全部下载完成')

图片下载到data目录下,而data又通过docker映射到了本机的master目录中
填写如下
crawlab通过docker单节点部署简单爬虫,环境搭建,docker,爬虫

总结

简单的用了下,感觉crawlab很好用,能把多个爬虫方便的管理起来,还有cron的功能,当作脚本管理也很不错文章来源地址https://www.toymoban.com/news/detail-682821.html

到了这里,关于crawlab通过docker单节点部署简单爬虫的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Nginx环境搭建以及Docker环境部署

    目录 Nginx环境搭建 1.首先创建Nginx的目录并进入 2.下载Nginx的安装包         可以通过FTP工具上传离线环境包,也可通过wget命令在线获取安装包         没有wget命令的可通过yum命令安装  3.解压Nginx的压缩包 4.下载并安装Nginx所需的依赖库和包         安装方式一    

    2024年02月13日
    浏览(33)
  • [ 环境搭建篇 ] docker 搭建部署 YAPI 框架

    👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 == 养成习惯(一键三连)😋 🎉欢迎关注💗一起学习👍一起讨论⭐️一起进步📝文末有彩蛋 🙏作者水平有

    2024年02月02日
    浏览(24)
  • Docker部署nginx+php环境,简单可用!

    第一步: 安装Docker 访问下面地址,根据你的需要下载安装docker运行环境。 下载docker desktop https://www.docker.com/ 如果你是Windows、macOS(Intel/M1)、Linux桌面OS,都可以下载到对应版本进行安装,相对命令行方式,更加简单方便。 安装完成后,运行docker desktop,显示如下界面: 在任

    2024年02月07日
    浏览(33)
  • onlyoffice基础环境搭建+部署+demo可直接运行 最简单的入门

    office这个体系分为四个大教程         1、【document server文档服务器基础搭建】         2、【连接器(connector)或者jsApi调用操作office】-进阶         3、【document builder文档构造器使用】-进阶         4、【Conversion API(文档转化服务)】-进阶           如果需要

    2024年02月22日
    浏览(35)
  • MAC M1上docker rocketmq简单环境搭建和代码

    工作了这么多年,rocketmq还没有用过,由于现在的工作中涉及到了,周六吃完午饭就开始搞,结果到现在3点钟才把环境弄好,测试代码搞起。 整个流程分成两步 安装简单的rocket环境 起springboot项目测试 参考文章: https://blog.csdn.net/baidu_33256174/article/details/129599300 1. 制作rocket

    2024年02月15日
    浏览(29)
  • 了解 Dockerfile 和搭建 Docker 私有仓库:让容器化部署变得更简单

    目录 1、Dockerfile 1.1什么是Dockerfile 1.2常用命令 1.3使用脚本创建镜像 2、Docker私有仓库 2.1私有仓库介绍: 2.2私有仓库搭建与配置 2.3上传镜像到私有仓库: 1.1什么是Dockerfile Dockerfile是由一些列命令和参数构成的脚本,这些命令应用于基础镜像并且最终创建一个新的镜像。 Dock

    2024年02月10日
    浏览(28)
  • Docker的配置和部署,并搭建php和nginx环境

    服务器环境:CentOS 7.6 说下体验: 通过安装进度还是有些报错出现的,但是一向“兼容不错的宝塔”还是对他抱有一线希望。 最后还是安装成功了。  装好了,如何使用? Docker 是基于命令行使用的,那现在通过一些实际问题去使用一些命令! 1.首先查看是否安装成功。通过

    2024年02月09日
    浏览(39)
  • 通过docker+cri-dockerd部署k8s集群环境(含harbor镜像仓库)

    目录 一.虚拟机准备 二.基础环境配置(各个节点都做) 1.IP和hosts解析 2.防火墙和selinux 3.安装基本软件 4.配置时间同步 5.禁用swap分区 6.修改内核参数并重载 7.配置ipvs 三.docker环境(各个节点都做) 1.配置软件源并安装docker-ce 2.配置docker加速 四.cri环境配置(各个节点都做)

    2024年02月05日
    浏览(44)
  • CentOS系统环境搭建(九)——centos系统下使用docker部署项目

    centos系统环境搭建专栏🔗点击跳转 关于Docker-compose安装请看CentOS系统环境搭建(三)——Centos7安装DockerDocker Compose,该文章同样收录于centos系统环境搭建专栏。 采用前后端分离的形式部署。 使用Docker运行项目。 使用Docker Compose创建项目容器。 使用git管理项目的更新。 安装

    2024年02月12日
    浏览(40)
  • CTF靶场搭建及Web赛题制作与终端docker环境部署

    ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥ ♡ ♥   写在前面 ╔═══════════════════════════════════════════════════

    2024年02月04日
    浏览(65)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包