Python爬虫学习笔记(二)————爬虫简介

这篇具有很好参考价值的文章主要介绍了Python爬虫学习笔记(二)————爬虫简介。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

1.爬虫概念

2.爬虫核心

3.爬虫分类

 通用爬虫

聚焦爬虫

4.反爬手段

(1)User‐Agent

(2)代理IP

(3)验证码访问

(4)动态加载网页

(5)数据加密


1.爬虫概念

通过一个程序,根据Url(http://www.taobao.com)进行爬取网页,获取有用信息。

使用程序模拟浏览器,去向服务器发送请求,获取响应信息。

爬⾍⼀定要⽤Python么? 不是的。 ⽤Java也⾏, C也可以, 编程语⾔只是⼯具.。抓到数据是你的⽬的. ⽤什么⼯具去达到你的⽬的都是可以的。那为什么⼤多数⼈喜欢⽤Python呢?  因为 Python写爬⾍简单,有⾮常多的关于爬⾍能⽤到的第三⽅⽀持库。

2.爬虫核心

爬取网页:爬取整个网页 包含了网页中所有得内容 2.

解析数据:将网页中你得到的数据 进行解析 3.

难点:爬虫和反爬虫之间的博弈

3.爬虫分类

 通用爬虫

实例

百度、360、google、sougou等搜索引擎‐‐‐伯乐在线

功能

访问网页‐>抓取数据‐>数据存储‐>数据处理‐>提供检索服务

robots协议

君子协议。一个约定俗成的协议,添加robots.txt文件,来说明本网站哪些内容不可以被抓取,起不到限制作用 自己写的爬虫无需遵守

网站排名(SEO)

1. 根据pagerank算法值进行排名(参考个网站流量、点击率等指标)

2. 百度竞价排名

缺点

1. 抓取的数据大多是无用的

2.不能根据用户的需求来精准获取数据

聚焦爬虫

功能

根据需求,实现爬虫程序,抓取需要的数据

设计思路

1.确定要爬取的url

如何获取Url

2.模拟浏览器通过http协议访问url,获取服务器返回的html代码

如何访问

3.解析html字符串(根据一定规则提取需要的数据)

如何解析

4.反爬手段

(1)User‐Agent

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版 本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件

(2)代理IP

西次代理 快代理 什么是高匿名、匿名和透明代理?它们有什么区别? 1.使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP。 2.使用匿名代理,对方服务器可以知道你使用了代理,但不知道你的真实IP。 3.使用高匿名代理,对方服务器不知道你使用了代理,更不知道你的真实IP。

(3)验证码访问

打码平台 云打码平台 超级🦅

(4)动态加载网页

网站返回的是js数据 并不是网页的真实数据 selenium驱动真实的浏览器发送请求

(5)数据加密

分析js代码文章来源地址https://www.toymoban.com/news/detail-552925.html

到了这里,关于Python爬虫学习笔记(二)————爬虫简介的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python爬虫学习笔记(三)————urllib

    目录 1.使用urllib来获取百度首页的源码 2.下载网页图片视频  3.总结-1 4.请求对象的定制(解决第一种反爬)   5.编解码 (1)get请求方式:urllib.parse.quote() (2)get请求方式:urllib.parse.urlencode() (3)post请求方式 6.ajax的get请求 (1)获取豆瓣电影的第一页的数据 (2)下

    2024年02月16日
    浏览(37)
  • Python爬虫学习笔记(四)————XPath解析

    目录 0.xpath最新下载地址和安装教程 1.xpath安装 2.xpath基本使用 3.xpath基本语法 4.实例 (1)xpath解析本地文件  (2)xpath解析服务器响应的数据 ①获取百度网站的“百度一下”四个字 ②获取站长素材网站情侣图片前十页的图片 0.xpath最新下载地址和安装教程 https://blog.csdn.net/

    2024年02月16日
    浏览(50)
  • python萌新爬虫学习笔记【建议收藏】

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【宝藏入口】。 为了巩固所学的知识,作者尝试着开始发布一些学习笔记类的博客,方便日后回顾。当然,如果能帮到一些萌新进行新技术的学习那也是极好的。作者菜菜一枚,文章

    2024年02月08日
    浏览(48)
  • Python爬虫学习笔记(五)————JsonPath解析

    目录 1.JSONPath —— xpath在json的应用 2.JSONPath 表达式 3.jsonpath的安装及使用方式 4.jsonpath的使用 5.JSONPath语法元素和对应XPath元素的对比 6.实例  (1)商店案例 (2) 解析淘票票的“城市选择”数据 1. JSONPath —— xpath在json的应用 xml最大的优点就有大量的工具可以分析,转换,

    2024年02月17日
    浏览(43)
  • 第一个Python程序_获取网页 HTML 信息[Python爬虫学习笔记]

    使用 Python 内置的 urllib 库获取网页的 html 信息。注意,urllib 库属于 Python 的标准库模块,无须单独安装,它是 Python 爬虫的常用模块。 1) 获取响应对象 向百度(http://www.baidu.com/)发起请求,获取百度首页的 HTML 信息,代码如下: 上述代码会返回百度首页的响应对象, 其中

    2024年01月17日
    浏览(41)
  • 初学python爬虫学习笔记——爬取网页中小说标题

    一、要爬取的网站小说如下图 二、打开网页的“检查”,查看html页面 发现每个标题是列表下的一个个超链接,从183.html到869.html 可以使用for循环依次得到: 三、具体代码如下: 第一次学习爬虫,能得出查询结果,心中还是无限的高兴。 不过,还是发现的很多,比如for循环

    2024年02月09日
    浏览(48)
  • Python爬虫学习笔记(六)————BeautifulSoup(bs4)解析

    目录 1.bs4基本简介 (1)BeautifulSoup简称 (2)什么是BeatifulSoup? (3)优缺点 2.bs4安装以及创建 (1)安装          (2)导入          (3)创建对象 3.节点定位 (1)根据标签名查找节点 (2)函数         ①find(返回一个对象)         ②find_all(返回一个列表

    2024年02月17日
    浏览(57)
  • Python爬虫学习笔记(八)————Phantomjs与Chrome handless

    目录 1.Phantomjs (1)什么是Phantomjs? (2)如何使用Phantomjs? 2 .Chrome handless (1)系统要求: (2)配置: (3)配置封装: (4)封装调用: 1.Phantomjs (1)什么是Phantomjs?         ①是一个无界面的浏览器         ②支持页面元素查找,js的执行等         ③由于

    2024年02月16日
    浏览(41)
  • 【Python_Scrapy学习笔记(一)】Scrapy框架简介

    Scrapy 框架是一个用 python 实现的为了爬取网站数据、提取数据的应用框架,使用 Twisted 异步网络库来处理网络通讯,可以高效的完成数据爬取。本文主要介绍 Scrapy 框架的构成与工作原理。 Windows安装: -m -pip install Scrapy 或使用 PyCharm 可视化界面安装。 爬虫文件Spider:负责数

    2023年04月23日
    浏览(56)
  • Python爬虫学习笔记:1688商品详情API 开发API接口文档

      1688API接口是阿里巴巴集团推出的一种开放平台,提供了丰富的数据接口、转换工具以及开发资源,为开发者提供了通用的应用接口及大量数据资源,支持开发者在1688上进行商品搜索、订单管理、交易报表及物流等方面的操作。 1688API接口主要包含以下几类: 商品API:提供

    2024年02月16日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包