【网络安全带你练爬虫-100练】第11练：xpath快速定位提取数据

7月前作者：黑色地带(崛起) 分类：Toy博客阅读(67) 违法举报

这篇具有很好参考价值的文章主要介绍了【网络安全带你练爬虫-100练】第11练：xpath快速定位提取数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目录

一、目标1：使用etree解析数据

二、目标2：使用xpath爬取指定数据

三、目标3：提取指定数据

四、网络安全小圈子

一、目标1：使用etree解析数据

其余的不用过多介绍，前面的练习都给大家已经过了一遍

def get_page():
    url = 'https://www.chinaz.com/'
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0",
    }

    res1 = requests.get(url, headers=headers, timeout=10)
    res = res1.content.decode('utf-8')  
    tree = etree.HTML(res)

其中数据解析代码如下

    tree = etree.HTML(res)

对返回的内容进行UTF-8解码，不然会出现乱码

    res = res1.content.decode('utf-8')

二、目标2：使用xpath爬取指定数据

我们来爬一下这几个标题

【网络安全带你练爬虫-100练】第11练：xpath快速定位提取数据,【网络安全-带你练爬虫】,爬虫,web安全,安全

找上一级

可以看到他们都在不同li标签下

所以他们的上一级标签ul相当于是我们的列表合集

【网络安全带你练爬虫-100练】第11练：xpath快速定位提取数据,【网络安全-带你练爬虫】,爬虫,web安全,安全

定位xpath路径

定位li的xpath路径

因为我们要获取到ul下所有li列表

【网络安全带你练爬虫-100练】第11练：xpath快速定位提取数据,【网络安全-带你练爬虫】,爬虫,web安全,安全

xpath路径如下

    list = tree.xpath('//*[@id="cz"]/div[2]/div[3]/div/div[1]/div[1]/div/div[2]/div[2]/div/ul/li')

打印出来可以看见

【网络安全带你练爬虫-100练】第11练：xpath快速定位提取数据,【网络安全-带你练爬虫】,爬虫,web安全,安全

三、目标3：提取指定数据

定位xpath

然后还有3个标签才到h2标签

【网络安全带你练爬虫-100练】第11练：xpath快速定位提取数据,【网络安全-带你练爬虫】,爬虫,web安全,安全

遍历每一个目标标签，并转为text()格式

    f = open('test', 'w', encoding ='utf-8')
    for l in ul_list:
        desc = l.xpath('./div/div[1]/a/h2/text()')[0]
        print(desc + '\n')
        f.write(str(desc) + '\n')
    f.close()

运行结果

【网络安全带你练爬虫-100练】第11练：xpath快速定位提取数据,【网络安全-带你练爬虫】,爬虫,web安全,安全

完整代码

import requests
from lxml import etree
def get_page():
    url = 'https://www.chinaz.com/'
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0",
    }
    res1 = requests.get(url, headers=headers, timeout=10)
    res = res1.content.decode('utf-8')  
    tree = etree.HTML(res)
    ul_list = tree.xpath('//*[@id="cz"]/div[2]/div[3]/div/div[1]/div[1]/div/div[2]/div[2]/div/ul/li')
    f = open('test', 'w', encoding ='utf-8')
    for l in ul_list:
        desc = l.xpath('./div/div[1]/a/h2/text()')[0]
        print(desc + '\n')
        f.write(str(desc) + '\n')
    f.close()
if __name__ == '__main__':
    get_page()

四、网络安全小圈子

README.md · 书半生/网络安全知识体系-实战中心 - 码云 - 开源中国 (gitee.com)https://gitee.com/shubansheng/Treasure_knowledge/blob/master/README.md

GitHub - BLACKxZONE/Treasure_knowledgehttps://github.com/BLACKxZONE/Treasure_knowledge文章来源地址https://www.toymoban.com/news/detail-542599.html

到了这里，关于【网络安全带你练爬虫-100练】第11练：xpath快速定位提取数据的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【网络安全带你练爬虫-100练】第2练：爬取指定位置数据

目录一、思路二、工具三、代码处理第一部分：发起请求+接收响应（不过多讲）第二部分：解析HTML页面+提取数据第三部分：处理数据分解步骤，化繁为简爬虫分为五步走：发起HTTP请求：爬虫使用HTTP协议向目标网址发送请求，请求获取特定的HTML页面。这可以通过使用

2024年02月12日
浏览(28)
【网络安全带你练爬虫-100练】第6练：内嵌发包提取数据

目录一、分析目标：二、代码实现目标1：对于捕获的URL内嵌发包目标2：找到电话和邮箱的位置目标3：提取电话和邮箱三、完整代码四、网络安全小圈子（注：需要带上登录成功后的cookie发包）点击进去爬取每个企业里面的电话、邮箱（我们是来投简历的，切勿干非法

2024年02月12日
浏览(33)
【网络安全带你练爬虫-100练】第23练：文件内容的删除+写入

目录 0x00 前言： 0x02 解决：本篇博文可能会有一点点的超级呆你是不是也会想：使用pyrhon将指定文件夹位置里面的1.txt中数据全部删除以后----然后再将参数req_text的值写入到1.txt （小呆呆实锤）区分一下： “w”模式：使用 \\\"w\\\" 模式打开一个文件时，如果该文件已经存在，

2024年02月09日
浏览(29)
【网络安全带你练爬虫-100练】第14练：文件内容的读取、取出

目录一、目标1：把文件内容遍历取出二、目标2：把文件内容全部取出三、网络安全O （1）如果文件脚本在不同目录（2）如果文件直接和脚本在同一目录（1）存放取出的元素（2）将目标文件内容的元素依次取出（for循环）（3）所有元素依次添加进列表中（4）完整

2024年02月16日
浏览(26)
【网络安全带你练爬虫-100练】第5练：爬虫的翻页操作+错误情况过滤

目录一、翻页分析：二、代码逻辑 1、入口程序修改 2、page参数传入三、完整代码 1、运行结果 2、错误分析： 3、缺陷代码： 4、完善逻辑： 5、完善代码：（说在前面，任何逻辑都有很多方法实现，我们先从最笨的讲起） (注：其中的cookie需要填自己的) 通过对比第一页与

2024年02月12日
浏览(35)
【网络安全带你练爬虫-100练】第8练：json数据的最小项提取

目录一、目标1：爬取指定json中数据二、目标2：循环取json中数据三、目标3：提取每个数据中的某一项四、网络安全小圈子爬取data里数据核心代码：（1）json.loads()方法可用于解析有效的JSON字符串并将其转换为Python字典（2）dirt1[\\\'data\\\']是打印json中的data部分运行结果：

2024年02月13日
浏览(37)
【网络安全带你练爬虫-100练】第19练：使用python打开exe文件

目录一、目标1：调用exe文件二、目标2：调用exe打开文件 1、subprocess 模块允许在 Python 中启动一个新的进程，并与其进行交互 2、subprocess.run() 函数来启动exe文件 3、subprocess.run([\\\"文件路径\\\"],check=True/) 4、check：如果程序返回一个非零的退出码，subprocess.run() 函数就会抛出一个

2024年02月11日
浏览(29)
【网络安全带你练爬虫-100练】第22练：数据包中参数提取与处理

目录一、目标1：GET数据包的处理 1、GET数据包中参数的提取 2、GET请求中统计参数个数二、目标2：POST数据包的处理 1、post中参数个数的提取 2、POST请求中统计参数个数（与GET类似，就不再做叙述了）

2024年02月10日
浏览(29)
【网络安全带你练爬虫-100练】第21练：批量获取文件夹中文件名

目录一、目标1：使用python爬取指定文件夹中的文件名二、目标2：在文件夹指定目录打开命令行方法一：使用 os 模块将 /path/to/folder 替换为实际的文件夹路径。 os.listdir() 函数用于获取指定文件夹中的文件名列表，然后可以遍历列表并处理每个文件名方法二：使用 glob 模块

2024年02月09日
浏览(25)
【网络安全带你练爬虫-100练】第10练：re的正则匹配、文件夹创建、图片下载

目录一、目标1：正则匹配图片的URL 二、目标2：创建文件夹三、目标3：保存图片到test文件夹中四、网络安全小圈子 URL位置我们可以找到img都在这个标签里面请求方法GET 提取URL位置需要掌握的目标标签如下：需要提取的内容如下： (多加了一个为转义字

2024年02月13日
浏览(36)