Python爬虫学习笔记（二）———

这篇具有很好参考价值的文章主要介绍了Python爬虫学习笔记（二）————爬虫简介。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.爬虫概念

2.爬虫核心

3.爬虫分类

通用爬虫

聚焦爬虫

4.反爬手段

（1）User‐Agent

（2）代理IP

（3）验证码访问

（4）动态加载网页

（5）数据加密

1.爬虫概念

通过一个程序，根据Url(http://www.taobao.com)进行爬取网页，获取有用信息。

使用程序模拟浏览器，去向服务器发送请求，获取响应信息。

爬⾍⼀定要⽤Python么? 不是的。⽤Java也⾏, C也可以, 编程语⾔只是⼯具.。抓到数据是你的⽬的. ⽤什么⼯具去达到你的⽬的都是可以的。那为什么⼤多数⼈喜欢⽤Python呢? 因为 Python写爬⾍简单，有⾮常多的关于爬⾍能⽤到的第三⽅⽀持库。

2.爬虫核心

爬取网页：爬取整个网页包含了网页中所有得内容 2.

解析数据：将网页中你得到的数据进行解析 3.

难点：爬虫和反爬虫之间的博弈

3.爬虫分类

通用爬虫

实例

百度、360、google、sougou等搜索引擎‐‐‐伯乐在线

功能

访问网页‐>抓取数据‐>数据存储‐>数据处理‐>提供检索服务

robots协议

君子协议。一个约定俗成的协议，添加robots.txt文件，来说明本网站哪些内容不可以被抓取，起不到限制作用自己写的爬虫无需遵守

网站排名(SEO)

1. 根据pagerank算法值进行排名（参考个网站流量、点击率等指标）

2. 百度竞价排名

缺点

1. 抓取的数据大多是无用的

2.不能根据用户的需求来精准获取数据