爬虫高阶攻略：从入门到精通！

这篇具有很好参考价值的文章主要介绍了爬虫高阶攻略：从入门到精通！。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

引言：作为一名程序员，想必大家都有了解过爬虫的基本原理，也写过一些简单的爬虫程序。但要想成为爬虫高手，需要更深入的学习和实践。本文将带领大家探究爬虫高阶技巧，从入门到精通的学习资料，让你成为实战型的爬虫攻略专家！

一、进阶知识点

1. 爬虫反反爬

爬虫反爬是指网站主动限制爬取行为。然而，经过对反爬技术的深入研究，我们可以解决常见的验证码、IP封锁、UA识别、请求频率等问题。其中，绕过验证码最常见的方法是OCR识别验证码，绕过IP封锁可以使用高匿代理IP，绕过UA识别可以伪造UA，绕过请求频率可以使用代理池等技巧。

2. 存储技巧

爬虫获取的数据需要进行存储，而存储方式也直接影响爬虫效率。常见的存储方式有文本文件、数据库、云服务器等。其中，数据库更适合大规模数据爬取，如MySQL、MongoDB等。云服务器则可以保证数据存储和备份的稳定性和安全性。

3. 并发优化

当对一个网站进行大量数据的爬取时，需要处理的请求数量是非常大的。这时，单线程请求必然会成为瓶颈，进而导致爬取效率低下。为此，我们要学习使用多线程或协程等技术，以加速对目标网站的请求，提高爬虫效率。其中，协程可以实现更高效的并发请求，如异步IO模型等。

二、示范演练

1. 爬取淘宝商品数据

要想获取淘宝商品的数据，首先要搜索感兴趣的商品，然后解析HTML页面，获取商品的信息，如商品名称、价格、销量、评价等。贴上Python爬虫代码示例：

import requests
from bs4 import BeautifulSoup

def getHTMLText(url, kv):
  try:
    r = requests.get(url, params=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text
  except:
    return ""

def parsePage(ilt, html):
  try:
    soup = BeautifulSoup(html, "html.parser")
    plist = soup.find_all('div', {'class':'item'})
    for item in plist:
      info = []
      try:
        info.append(item.find('div', {'class':'title'}).string.strip())
        info.append(item.find('div', {'class':'price'}).strong.string)
        ilt.append(info)
      except:
        continue
  except:
    return ""

def printGoodsList(ilt):
  tplt = "{:4}\t{:8}\t{:16}"
  print(tplt.format("序号", "名称", "价格"))
  count = 0
  for g in ilt:
    count += 1
    print(tplt.format(count, g[0], g[1]))

def main():
  goods = "书包"
  depth = 2
  start_url = "https://s.taobao.com/search"
  infoList = []
  for i in range(depth):
    try:
      kv = {'q':goods, 's':i*44}
      html = getHTMLText(start_url, kv)
      parsePage(infoList, html)
    except:
      continue
  printGoodsList(infoList)

if __name__ == '__main__':
  main()

2. 爬取微博数据

微博是国内最大的社交平台之一，爬取其数据可以获取公众舆论和信息源。要想爬取微博数据，需要模拟登陆微博，获取到cookie和token，然后通过请求API接口获取目标数据。

import requests
import json

class WeiboSpider:
    def __init__(self):
        self.session = requests.session()
        self.headers = {
            "Host": "passport.weibo.cn",
            "Origin": "https://passport.weibo.cn",
            "Referer": "https://passport.weibo.cn/signin/login?entry=mweibo&r=https://weibo.cn/",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36",
        }

    def get_ticket(self):
        url = "https://passport.weibo.cn/signin/login"
        response = self.session.get(url, headers=self.headers, verify=False)
        ticket = response.history[1].cookies['TICKET_WEIBO']
        return ticket

    def get_token(self, ticket):
        url = "https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.19)"
        payload = {
            "ticket": ticket,
            "ssosavestate": "1571145635",
            "callback": "sinaSSOController.doCrossDomainCallBack",
            "scriptId": "ssoscript0",
            "client": "ssologin.js(v1.4.19)",
            "_": "1 571129647385",
        }
        response = self.session.get(url, params=payload, headers=self.headers, verify=False)
        token = json.loads(response.text)["token"]
        return token

    def login(self, username, password):
        ticket = self.get_ticket()
        token = self.get_token(ticket)

        post_data = {
            "username": username,
            "password": password,
            "savestate": "1",
            "ec": "0",
            "pagerefer": "",
            "entry": "mweibo",
            "wentry": "",
            "loginfrom": "",
            "client_id": "",
           "code": "",
            "qq": "",
            "hff": "",
            "hfp": "",
            "_rand": "0",
            "ts": "",
            "authToken": "",
            "token": token,
            "pincode": "",
            "p": "",
            "sr": "",
            "s": "a99c0424",
            "mainpageflag": "1",
            "qqstate": "",
            "wp": "0",
            "returntype": "META",
        }
        login_url = "https://passport.weibo.cn/sso/login"
        response = self.session.post(login_url, data=post_data, headers=self.headers, verify=False)
        login_url = json.loads(response.content.decode("utf-8"))['crossDomainUrlList'][0]
        response = self.session.get(login_url, headers=self.headers, verify=False)
        return self.session

    def get_weibo_data(self, uid, page=1):
        url = f"https://m.weibo.cn/api/container/getIndex?type=uid&value={uid}&containerid=107603{uid}&page={page}"
        response = self.session.get(url, headers=self.headers, verify=False)
        data = json.loads(response.content.decode("utf-8"))
        return data

    def get_user_info(self, uid):
        url = f"https://m.weibo.cn/api/container/getIndex?type=uid&value={uid}"
        response = self.session.get(url, headers=self.headers, verify=False)
        data = json.loads(response.content.decode("utf-8"))
        return data["userInfo"]

# 使用示例
spider = WeiboSpider()
session = spider.login("your_username", "your_password")
uid = "1234567890"
user_info = spider.get_user_info(uid)
print(user_info)