python - 爬虫简介

这篇具有很好参考价值的文章主要介绍了python - 爬虫简介。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

什么是爬虫?
  1. 模拟浏览器对网站服务器发送请求
  2. 解析服务器返回的响应数据,并保存数据
爬虫能获取哪些数据?
  1. 原则上所有可以通过浏览器获取的数据都可以爬取
  2. 爬虫也只能获取爬取浏览器可以正常获取的数据
爬虫的应用场景?
  1. 数据分析 (如电影票房、股票信息、商品销量等)
  2. 舆情监控(如微博、论坛等)
  3. 搜索引擎刷浏览播放量等(如各类自媒体账号)
  4. 抢票投票(对购票、投票接口发送请求)
  5. 网络安全(短信轰炸- 多个网站发送验证码)
为什么会有反爬?
  1. 防止有价值的数据被恶意获取
  2. 封锁垃圾流量,降低服务器的压力和运行成本
爬虫与反爬的对抗?
  1. 部分数据需要登录才能获取
  2. 通过验证码甄别真人与爬虫
  3. 监测同一IP 地址单位时间内的请求量
  4. 请求需要携带特定的数据
  5. 响应数据被加密,需要特定的算法解密
学习内容
  • 如何爬取网页数据? (如何对服务器发送请求,获取源文件)
    • Requests 模块(对服务器发送请求,获取数据 )
    • 模拟真实浏览器状态
    • 设置 Proxy 代理IP(避免单个ip发送过快,被服务器认为是爬虫)
  • 如何提取关键数据?(如何在源文件中获取有用的数据)
    • 正则表达式
    • XPath 表达式
  • 如何储存提取到的数据?
    • MongoDB 数据库
  • Scrapy 框架爬取海量数据
    • 集成发送请求,数据解析,数据保存
    • Scrapy 结合 MongoDB 储存数据
  • Scrapy-Redis 分布式爬虫(多个机器共同爬取一个任务)
    • Redis 数据库
    • Scrapy-Redis 框架
  • 模拟登陆
    • 登陆原理: Cookie 和 Session
    • Selenium 浏览器自动化
    • 爬取需要登陆才能获取的数据
  • 验证码识别
    • OpenCV 计算机视觉
    • OCR 文字识别引擎
    • EasyDL 机器学习云服务
  • 反爬与反反爬
    • 破解文字加密反爬
    • 各类加密算法:MD5,SHA256,AES,RSAc
    • JS逆向分析:还原网站的加密流程
  • 拓展内容
    • 数据分析: Pandas 模块
    • 高频面试题目
爬虫合法么?
  • 作为技术本身在法律中是不被禁止的
  • 爬虫能获取的数据都是能通过浏览器正常获取的公开数据
  • 爬虫只是更快速的获取大量数据
有法律风险的情况? 
  • 结合爬虫对网站服务器进行黑客攻击
  • 通过获取的数据谋取经济利益
  • 通过爬虫进行不当的商业竞争
  • 爬取的数据侵犯了对方的版权或隐私权
如何规避法律风险?
  • 切勿对网站服务器进行大规模的请求轰炸
  • 切勿对爬取到的数据进行公开传播或售卖
  • 切勿对涉及知识产权和用户隐私的数据进行爬取

文章来源地址https://www.toymoban.com/news/detail-638496.html

到了这里,关于python - 爬虫简介的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 简单实现python爬虫功能(Python爬虫功能)

    这篇文章主要介绍了python实现简单爬虫功能的相关资料,感兴趣的小伙伴们可以参考一下 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。 我们最常规的做法就是通过鼠标右

    2024年02月07日
    浏览(43)
  • Python爬虫系列(二)——Python爬虫批量下载百度图片

    1. 前言 先贴代码 如果要使用上述程序的话,需要修改两个地方 : self.directory 这是本地存储地址,修改为自己电脑的地址,另外,**{}**不要删 spider.json_count = 10 这是下载的图像组数,一组有30张图像,10组就是三百张,根据需求下载 也可以去gitee仓库直接下载程序。 关于 py

    2023年04月08日
    浏览(32)
  • Python 爬虫(一):爬虫伪装

    对于一些有一定规模或盈利性质比较强的网站,几乎都会做一些防爬措施,防爬措施一般来说有两种:一种是做身份验证,直接把虫子挡在了门口,另一种是在网站设置各种反爬机制,让虫子知难而返。 我们知道即使是一些规模很小的网站通常也会对来访者的身份做一下检查

    2024年02月05日
    浏览(41)
  • python实现网络爬虫代码_python如何实现网络爬虫

    python实现网络爬虫的方法:1、使用request库中的get方法,请求url的网页内容;2、【find()】和【find_all()】方法可以遍历这个html文件,提取指定信息。 python实现网络爬虫的方法: 第一步:爬取 使用request库中的get方法,请求url的网页内容 编写代码[root@localhost demo]# touch demo.py [

    2024年01月20日
    浏览(33)
  • Python小知识 - Python爬虫进阶:如何克服反爬虫技术

    Python爬虫进阶:如何克服反爬虫技术 爬虫是一种按照一定的规则,自动抓取网页信息的程序。爬虫也叫网页蜘蛛、蚂蚁、小水滴,是一种基于特定算法的自动化程序,能够按照一定的规则自动的抓取网页中的信息。爬虫程序的主要作用就是从一个网站或者一个网页中抓取所需

    2024年02月09日
    浏览(34)
  • 【爬虫系列】Python 爬虫入门(2)

    接上篇,继续梳理 Python 爬虫入门的知识点。这里将重点说明,如何识别网站反爬虫机制及应对策略,使用 Selenium 模拟浏览器操作等内容,干货满满,一起学习和成长吧。 1.1 测试网站是否开启了反爬虫 随着互联网技术的日益革新,大多数的网站都会使用反爬虫机制。我们在

    2024年01月17日
    浏览(29)
  • 【python爬虫一】爬虫基础操作

    概念:是一种按照一定的规则,自动地抓取互联网上网页中相应信息(文本、图片等)的程序或脚本,然后把抓取的信息存储下来。 通用爬虫:把一整张页面源码数据进行爬取 聚焦爬虫:把页面中指定的数据进行爬取 增量式爬虫:监测网站数据更新的情况。 分布式爬虫:基

    2024年02月09日
    浏览(30)
  • 【Python】什么是爬虫,爬虫实例

     有s表示加密的访问方式 什么是爬虫 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或者脚本。由于互联网数据的多样性和资源的有限性,根据用户需求定向抓取相关网页并分析已成为如今主流的爬取策略 爬虫可以做什么 你可以爬取图片,爬取自己想看的视频

    2024年02月02日
    浏览(74)
  • 手机Python爬虫教程:利用手机学习Python爬虫的终极指南

    在数字化时代,手机已经成为人们生活中不可或缺的一部分。而Python爬虫作为一种强大的数据获取工具,也受到越来越多人的关注。但是,是否可以利用手机进行Python爬虫学习呢?本文将介绍如何通过手机学习Python爬虫,为你打开一扇全新的学习之门。 1. 《Python爬虫入门教程

    2024年02月07日
    浏览(41)
  • python爬虫入门教程(非常详细):如何快速入门Python爬虫?

    示例示例Python爬虫入门教程什么是爬虫爬虫(又称网络爬虫)是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它可以自动地抓取网页内容,并从中提取有用的数据,存储到本地文件或数据库中。 Python爬虫入门教程 1. 什么是爬虫爬虫(又称网络爬虫)是一种

    2024年02月10日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包