day5 反爬虫和Xpath语法

这篇具有很好参考价值的文章主要介绍了day5 反爬虫和Xpath语法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

day5 反爬虫和Xpath语法
一、request跳过登录
import requests
requests自动登录步骤
第一步:人工对需要自动登录网页进行登录
第二步:获取这个网站登录后的cookie信息
第三步:发送请求的时候在请求头中添加cookie值
headers = {
    'cookie': '_zap=3f760795-84a5-47dd-88be-fc07ffc3d5fa; d_c0=AHAW3X_R1hWPTu8B2ouLuXuVUZGut-n0dxI=|1667973468; __snaker__id=PdXXUCs9iDEWzKY4; q_c1=2a65ada6b6a343e3b061b8c149851d2f|1672993190000|1672993190000; gdxidpyhxdE=rmjUK%2BL523%2Fi3xghAHA%5C0UfhTJgPre5Tz5rX1ej1W38t8sY6UpcRtla%5CQ8k1Qxnya1EgZnJYIY%2BebG06XMaV9CJCit0xK%2FUfaSEqDvrcVQeJDBw0e7wWduyymOYAGT0vEVEAWxaS0mIdomY6aa0xAahabkeQBXunpsAJY4yDCVI0%5C37C%3A1680319332810; YD00517437729195%3AWM_NI=4u0qF9eWeUxUKUG0Gv7pelQsu9W2WRIq%2BoQiQLED6j7kzpinXu5vGRQ1WBFIyhF%2BuBbc%2BPaeUfz3ySh%2Bm6McLiSpqgvi173pKDuxI6qIX1gDXHGm4NXM8NZlaG9VSWh%2BQU0%3D; YD00517437729195%3AWM_NIKE=9ca17ae2e6ffcda170e2e6ee89cf7fa8e9a088cf74b7bc8ab2c54e828f9a83d46bf3f1add6e75d82b9b9b4f12af0fea7c3b92af8ab0092c533a789abb6fb5f898b89d1c67ef5b0ab8dd479b7e799d3d65a8bafe590d46393948ba5b562f5b5b691ec669cabfb97c65a93ef99a3c543bbb88accf84aa2bde5b1e46f97bab6d4fc59acf5a3d7d06990b79d91f46db6b7ffd8b27c899cbb99cc3eb39798d2e6509c98898eb7469c93f8afd968a399f7b7d25dacf59fb6b337e2a3; YD00517437729195%3AWM_TID=HEeCNJ%2F6OzZEFVVREEaQLxvcscXUhgWu; captcha_session_v2=2|1:0|10:1680318453|18:captcha_session_v2|88:WVQ3UjlZS0M2MnIwditTS3ZuMjl6LzJ4TnprcmhFVFlhci85RGd1b1lDQmJ0M3k2Q1VjOEw0ODJvU0Rxa3NRdw==|60c4496e2aae6ce694e100f9ff55f4c14732f7e31558c12c20c56a2a0792a90c; captcha_ticket_v2=2|1:0|10:1680318680|17:captcha_ticket_v2|704:eyJ2YWxpZGF0ZSI6IkNOMzFfLVhrdFVHWHo3NDRMVjhabEIuamhjSGNtVEdEelhIcDhwakppNnJoTGhNRkR0aVR1Mm8xaU9JREh1OVBMdXdoclcwSkZDS1dBbDV2VXIyY2paMmVxdUFPWkpWSGlzdFR1SzJzdzUwTF91Wnh5MTJYUk05N2FmR1Bsb29HSnVsVHk2NW8wTnJlWUFQU3dmUjRFTlQxazlqX0hKVkNZMFJUeUhJX2U2Yk5heFRoQlBvTTJ4Mk43a0VwRVplMW1ZNElUV1VtSHRSdnAxbHN5SEo4VlZYdUZ3U24wSHZTVV9hQlZaRWk4RU04WXRhNF8wY0l5LllkWTdmSTlHNUR1MmEwdlVFSzVHbmJuY1ZRV3A3cnVQS0pyQlROUmtHQ2hWems0Q0lYcEZtalVTUkZrNklELVFHZWtfOFBvMnpLMWQwMFZNVkVlS3F0UFBtQU1OZkl4Uy1xVTdfODJCa2RsNVNHUk41QWJMekhEdVdLZnBnbWhncjBhNFBrQVFSaHpaLl9OeGFETHJwaFR3OEpUbVA0WkJuZ2ZTaGF1TlVJdk5ROTk4V3M4Q21WTFZLX29TNERYd2Q3SDdxOXhiaFI2VkFaQlpzNjg5RkhON3NNZ0lrRzJXTm1HLXNqVkNrdGRpckpLNnZyNi1oSUVhQzgydmpqS3FtQkE0b3BTd3lwMyJ9|dc6a834be4b8b5eabe6c070795501f3b39173fc9802e6ae3015dec35a4b3e86b; z_c0=2|1:0|10:1680318697|4:z_c0|92:Mi4xaW5CWUdRQUFBQUFBY0JiZGY5SFdGU1lBQUFCZ0FsVk42ZTRVWlFBNkJ0UnhlQ1NZd3RqTFljbFgxTFV1UFppNjd3|a5d1f5adfd6375bfe2a2093d6c21bea037e64046ec825eb815ee85f57fbdfb84; _xsrf=d3c88a7d-36b0-4435-b159-ef9e8d3a148d; tst=r; SESSIONID=8eURQfnbdrlZcQaWxNnYeWzS5SekdXLbfvRSijF836S; KLBRSID=d6f775bb0765885473b0cba3a5fa9c12|1680318745|1680318731',
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
}
response = requests.get('https://www.zhihu.com/', headers=headers)


print(response.text)
二、selenium跳过登录
from selenium.webdriver import Chrome
(一)、创建浏览器打开需要自动登录的网页
b = Chrome()
b.get('https://www.taobao.com')
(二)、留足够长的时间让人工完成登录(必须得保证b指向的窗口网页中能看到登录以后的信息)
input('是否已经完成登录:')
(三)、获取登录成功后的cookie登录信息,保存到本地文件
result = b.get_cookies()
# print(result)
with open('files/taobao.txt', 'w', encoding='utf-8')as f:
    f.write(str(result))
三、selenium使用cookie
from selenium.webdriver import Chrome
(一)、创建浏览器打开需要自动登录的网页
b = Chrome()
b.get('https://www.taobao.com')
(二)、获取本地保存的cookie值
with open('files/taobao.txt',encoding='utf-8') as f:
    result = eval(f.read())
(三)添加cookie
for x in result:
    b.add_cookie(x)
(四)重新打开网址
b.get('https://www.taobao.com')

input('end:')
四、requestts使用代理ip
import requests

headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}

# 创建代理
proxies = {
    'https': '27.37.246.106:4559'
}

# 使用代理IP发送请求
res = requests.get('https://movie.douban.com/top250?start=0&filter=', headers=headers,proxies=proxies)
print(res.text)
五、selenium使用代理ip
from selenium.webdriver import Chrome,ChromeOptions

options = ChromeOptions()
# 设置代理
options.add_argument('--proxy-server=http://27.37.246.106:4559')

b = Chrome(options=options)

b.get('https://movie.douban.com/top250?start=0&filter=')

input('js:')
六、爬虫的流程选择

day5 反爬虫和Xpath语法

七、xpath
import json
xpath用来解析网页数据或者xml数据的一种解析方法,它是通过路径来获取标签(元素)。

Python数据:{'name': 'xiaoming', 'age': 18, 'is_ad': True, 'car_no': None}

Json数据:{"name": "xiaoming", "age": 18, "is_ad": true, "car_no": null}

xml数据: 
<allStudent>
    <student class="优秀学员">
        <name>xiaoming</name>
        <age>18</age>
        <is_ad>是</is_ad>
        <car_no></car_no>
    </student>
    <student class="优秀学员">
        <name>xiaoming</name>
        <age>18</age>
        <is_ad>是</is_ad>
        <car_no></car_no>
    </student>
</allStudent>
(一)、常见的几个概念
1)树:整个网页结构和xml结构就是一个树结构
2)元素(节点):html树结构的每个标签
3)根节点:树结构中的第一个节点
4)内容:标签内容
5)属性:标签属性

day5 反爬虫和Xpath语法

(二)、Xpath语法
1. 获取标签
1)绝对路径: 以'/'开头,然后从根节点开始层层往下写路径
2)相对路径: 写路径的时候用'.'或者'..'开头,其中'.'表示当前节点;'..'表示当前节点的父节点。
          注意:如果路径以'./'开头,'./'可以省略
3)全路径: 以'//'开头的路径

2.获取标签内容:在获取标签的路径的最后加'/text()'
3.获取标签属性:在获取标签的路径的最后加'/@属性名'
from lxml import etree
  1. .创建树结构,获取根节点
html = open('data.html', encoding='utf-8').read()
root = etree.HTML(html)
  1. 通过路径获取标签
节点对象.xpath(路径)  -  根据获取所有的标签,返回值是列表,列表中的元素是节点对象
  • 绝对路径
result = root.xpath('/html/body/div/a')
print(result)
获取标签内容
result = root.xpath('/html/body/div/a/text()')
print(result)
获取标签属性
result = root.xpath('/html/body/div/a/@href')
print(result)
1)绝对路径的写法跟xpath前面用谁去点的无关
div = root.xpath('/html/body/div')[0]

result = div.xpath('/html/body/div/a/text()')
print(result)
2)相对路径
result = root.xpath('./body/div/a/text()')
print(result)

result = div.xpath('./a/text()')
print(result)

result = div.xpath('a/text()')
print(result)
3)全路径
result = root.xpath('//a/text()')
print(result)

result = div.xpath('//a/text()')
print(result)

result = root.xpath('//div/a/text()')
print(result)
案例:用虚拟ip获取豆瓣top250排行

import requests
from lxml import etree

# 1.获取网页数据
headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
proxies = {
    'https': '117.70.49.86:4531'
}
response = requests.get('https://movie.douban.com/top250?start=125&filter=', headers=headers, proxies=proxies)

# 2.解析数据
root = etree.HTML(response.text)

names = root.xpath('//div[@class="hd"]/a/span[1]/text()')
scores = root.xpath('//span[@class="rating_num"]/text()')
comments = root.xpath('//div[@class="star"]/span[last()]/text()')
msgs = root.xpath('//p[@class="quote"]/span/text()')
print(names)
print(scores)
print(comments)
print(msgs)

v[@class=“hd”]/a/span[1]/text()‘)
scores = root.xpath(’//span[@class=“rating_num”]/text()‘)
comments = root.xpath(’//div[@class=“star”]/span[last()]/text()‘)
msgs = root.xpath(’//p[@class=“quote”]/span/text()')
print(names)
print(scores)
print(comments)
print(msgs)文章来源地址https://www.toymoban.com/news/detail-408318.html

到了这里,关于day5 反爬虫和Xpath语法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python 爬虫的学习 day01 ,爬虫的基本知识, requests 和 charde模块, get函数的使用

    1.1什么是网络爬虫 网络爬虫,又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 1.2  网络爬虫的特点 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万

    2024年02月15日
    浏览(27)
  • Python爬虫的学习day02 requests 模块post 函数, lmxl 模块的 etree 模块

    1.1 post 函数的参数 (简单版) 参数1:  url     网络地址 参数2:   data   请求数据 (一般数据是  账号,密码) 参数3:    headers  头请求  (User-Agent:  第一章讲过) 1.2  post 请求中 url 参数的获取 1.2.1 首先 打开一个 登录界面 。(这里以淘宝的登录界面为样例)

    2024年02月14日
    浏览(27)
  • 浅识XPath(熟练掌握XPath的语法)

    XPath是一种用于在XML和HTML文档中定位和遍历元素的语言。在Web开发中,XPath是非常重要的技能之一。掌握XPath的语法可以帮助开发人员更快速地解析和提取数据。 XPath使用路径表达式来定位和遍历元素。下面是一些XPath的基本语法: 以双斜杠(//)开头表示搜索整个文档中的所

    2024年02月03日
    浏览(25)
  • XPath:学习使用XPath语法提取HTML/XML文档中的数据使用语法

    以下是一些XPath语法示例,用于提取HTML/XML文档中的数据: 选择元素: 选择所有p元素: //p 选择根元素: / 属性匹配: 选择class属性为\\\"example\\\"的div元素: //div[@class=\\\'example\\\'] 文本内容提取: 提取所有a元素的文本内容: //a/text() 提取第一个p元素的文本内容: //p[1]/text() 使用逻辑

    2024年02月11日
    浏览(32)
  • C++day5

     2、   运行效果如下  

    2024年02月12日
    浏览(34)
  • C++(day5)

    实现一个图形类(Shape),包含受保护成员属性:周长、面积,公共成员函数:特殊成员函数书写 定义一个圆形类(Circle),继承自图形类,包含私有属性:半径,公共成员函数:特殊成员函数、以及获取周长、获取面积函数 定义一个矩形类(Rect),继承自图形类,包含私

    2024年02月09日
    浏览(31)
  • Qt(Day5)

    写TCP服务器与客户端:    

    2024年02月13日
    浏览(32)
  • 学成在线----day5

    当前要开发的是媒资管理服务,目前为止共三个微服务:内容管理、系统管理、媒资管理,如下图: 后期还会添加更多的微服务,当前这种由前端直接请求微服务的方式存在弊端: 如果在前端对每个请求地址都配置绝对路径,非常不利于系统维护,比如下边代码中请求系统

    2024年02月08日
    浏览(45)
  • 国庆假期day5

    1.OSI七层模型: 应用层--------提供函 表示层--------表密缩 会话层--------会话 传输层--------进程的接收和发送 网络层--------寻主机 数据链路层----相邻节点的可靠传输 物理层--------二进制比特流 OSI四层(五层)模型: 应用层 传输层 网络层 数据链路层+物理层-----网络接口和物理

    2024年02月07日
    浏览(28)
  • QT day5

    服务器: 客户端: 思维导图:

    2024年02月09日
    浏览(25)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包