工具-自动获取/校对xpath helper

这篇具有很好参考价值的文章主要介绍了工具-自动获取/校对xpath helper。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、xpath helper安装

1、用途意义
  • 1)用途:XPath Helper是一款专用于chrome内核浏览器的实用型爬虫网页解析工具

    • 可以轻松快捷地找到目标信息对应的Xpath节点,获取xpath规则,并提取目标信息,并进行校对测试
    • 可对查询出的xpath进行编辑,正确编辑的结果将会显示在旁边的结果框,并在网页中高亮显示,有利于校对xpath并在网页实时获得内容,返回校对结果
    • 应用场景:只需要数据源链接+1个xpath的配置即可完成各个网页的爬取,假设有数千个新闻网站需要提取文章的链接;想让不会xpath的人员,轻松掌握配置xpath,并能得到自己配置xpath有效性的及时反馈并优化;此时xpath helper插件就可以很好的解决
2、安装xpath helper
  • 1)下载地址:xpath helper下载 ,下载下来是一个.crx后缀的文件;按图1打开谷歌浏览器右上角三个点>更多工具>扩展程序打开
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript

  • 2)按图2右上角首先打开开发者模式>将已下载好的.crx插件拖拽到图中区域即可完成安装
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript

  • 3)按图3将xpath helper 钉( pin ) 在主页上, 便于后期插件快捷使用
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript

3、安装Pasty
  • 1)浏览器一次性批量打开链接插件分享,Pasty 下载地址 , 安装步骤同xpath helper一样
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript

  • 2)使用方法:首先复制数十个网址,然后到浏览器页面直接点击右上角Pasty按钮,之后浏览器就会自动批量打开网址了
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript

二、xpath-helper获取xpath的两种方式

  • 1)使用:谷歌浏览器安装好插件后,重启浏览器后,一般有两种方式获取xpath

    • 一种是xpath helper自带的
    • 一种是依赖谷歌开发者工具平台
  • 2)缺陷:无论使用自带的ctrl+Shift键,或者依赖谷歌开发者工具栏(elements选项)自带的copy xpath功能,有时候其提取的xpath路径都过长,不便于理解和维护,我们可以手动操作将Xpath路径改成简洁的格式,所以这就要求需要会一点xpath规则编写的知识,在目录三/四/五会详细介绍一些高级用法

1、xpath helper自带
  • 1)按键CTRL + SHIFT + X 或者 右上角xpath helper图标按钮 就可以开启Xpath Helper插件
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript
  • 2)按键CTRL + SHIFT 就鼠标悬停移动指向需提取的区域,按 X 开启或关闭提取,提取到的区域会变为高亮色,同时上侧xpath helper控制台左侧区域也会显示对应的xpath规则,右侧也会实时显示对应的内容
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript
2、依赖谷歌开发者工具
  • 1)按F12或者鼠标右击选择检查,打开谷歌开发者工具栏(elements选项) ;在右侧谷歌开发者工具栏的左上角点击箭头按钮;回到左侧网页内容悬停移动或者点击,此时右侧会同步显示你点击内容的html元素
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript

  • 2)鼠标右击右侧html元素,选择copy xpath即可得到xpath规则;回到左侧上方xpath helper插件控制台并粘贴,可以看到对应的内容也获取到了;甚至会发现此种方式获取的xpath明显比第一种要简洁很多,也是我推荐的一种方式
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript

三、xpath基本语法

1、了解html标签
  • 1)html(Hyper Text Markup Language) 超文本标记语言,以下就是一个html标签的样例,通过编辑html内容可以改变前端网页的展现形式,如字体的大小写等,图片大小等

    <!DOCTYPE html>
    <html>
    	<head>
    		<meta charset="utf-8">
    		<title>title</title>
    	</head>
    	<body>
    		<h4>1、标题标签:是通过"h1-h6"标签进行定义的。定义最大的标题义最小的标题</h4>
    		<p>2、段落标签</p>
    		<a href="https://www.baidu.com/">3、点击跳转到百度,href属性指向百度链接</a>
    		<br>
    		<span>4、以下img是图片标签</span>
    		<br>
    		<img src="https://www.baidu.com/img/PCtm_d9c8750bed0b3c7d089fa7d55720d6cf.png" alt="logo图片" width="304" height="228"></img>
    		<br>
    	  <div>5、以下table是表格标签</div>
    		<table border="1">
    			<tr><th>Header 1</th><th>Header 2</th></tr>
    			<tr><td>row 1, cell 1</td><td>row 1, cell 2</td></tr>
    			<tr><td>row 2, cell 1</td><td>row 2, cell 2</td></tr>
    		</table>
    		
    	</body>
    </html>
    
  • 2)如图举例,html在线编辑器,左侧写了一段html内容,右侧就展示了对应的内容

    • 特征1:HTML 标签是由尖括号包围的关键词,比如<html> ,最外围的根标签是<html>, 其次是<body>
    • 特征2:HTML 标签通常是成对出现的,比如<body>和</body>, <a>和</a>, <img></img>
    • 特征3:标签对中的第一个标签是开始标签如<a>,第二个标签是结束标签如</a>
    • 特征4:标签具有层级包含关系,如父子,父孙,兄弟,如<body></body>的子标签有<p></p>标签,<a></a>标签等
      xpath helper安装,# SpiderCrawl,chrome,前端,javascript
  • 3)更多html标签的含义介绍

2、了解xpath规则
  • 1)xpath规则:通常是为了解析html标签,定位到具体的标签元素,获取指定的属性或者内容,通常的展现形式是:

    从根节点开始查找body标签下的div标签:/html/body/div
    查找html文本里面的所有a标签://a
    获取span标签的文本内容://span[@class="title-content-title"]/text()
    获取a标签的href属性值://*[@id="hotsearch-content-wrapper"]/li[1]/a/@href
    获取img标签的src属性值://*[@id="s-top-more"]/div[1]/a[1]/img/@src
    

    xpath helper安装,# SpiderCrawl,chrome,前端,javascript

  • 2)xpath规则基本语法含义:案例网址:https://www.baidu.com/
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript文章来源地址https://www.toymoban.com/news/detail-817292.html

四、xpath-helper使用案例

  • 1)案例网址:https://www.baidu.com/
1、获取文本内容-text()
  • 1)xpath规则://span[@class=“title-content-title”]/text()
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript
2、获取a标签链接-@href
  • 1)xpath规则://*[@id=“hotsearch-content-wrapper”]//a/@href
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript
3、获取img标签链接-@src
  • 1)xpath规则://div[@id=“lg”]/img/@src
    xpath helper安装,# SpiderCrawl,chrome,前端,javascript

五、xpath高级用法

  • 1)案例网址:https://www.baidu.com/
  • 2)更多Xpath高级用法
1、顺序位置选择
//ul[@class="s-hotsearch-content"]/li[1]
//ul[@class="s-hotsearch-content"]/li[last()]
//ul[@class="s-hotsearch-content"]/li[position()>2]
2、属性/文本模糊匹配
//title[text()='百度一下,你就知道']
//*[contains(text(),'百度')]
//span[text()>2]

//*[contains(@class,'title')]
//ul[starts-with(@class,'s-')]
//div[not(@class="hot-title")]
//li/attribute::class
//div[@id!='right']

//ul[@*] 
//ul/node() 和 //ul/*
3、多种与或的情况
//ul[starts-with(@class,'s-')]|//title[text()='百度一下,你就知道']
//ul[not(@class="tbhead") and @class="s-hotsearch-content"]
//div[@class="title-content-noindex" or @class="content-wrap"]
//span[starts-with(@class,'hot')][text()='换一换']
4、父级/兄弟节点
//ul[@class="s-hotsearch-content"]/ancestor::*
//ul[@class="s-hotsearch-content"]/ancestor::div
//div[not(@class="hot-title")]/following::*
//div[not(@class="hot-title")]/following-sibling::*
//div/preceding::*
//div/preceding-sibling::*

到了这里,关于工具-自动获取/校对xpath helper的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 爱校对发布全新PDF校对工具,为用户带来更为便捷的校正体验

    随着数字化文档使用的普及,PDF格式已经成为最为广泛使用的文件格式之一。为满足广大用户对于高效、准确PDF文档校对的需求,爱校对团队经过深入研发,正式推出全新的PDF校对工具! 这一全新工具针对PDF文件格式进行了深度优化,无论是文字、图片还是图表,都能够实现

    2024年02月11日
    浏览(39)
  • PDF校对工具正式上线,为用户提供卓越的文档校对解决方案

    为满足当下对数字化文档校对的精准需求,我们今日正式发布全新的PDF校对工具。经过深入的技术研发与细致的测试,该工具旨在为企业和个人用户带来一个高效且准确的PDF文档校对平台。 PDF校对工具的主要特性: 1.全面性校对:工具支持对PDF文档的文字、图像、图表等多种

    2024年02月11日
    浏览(46)
  • 文笔润色-文本校对改写工具

    写作是一项对于很多人来说都需要频繁进行的活动,无论是工作中的商业写作还是学术写作,在完成优质内容的同时也需要付出大量的时间和精力进行语言润色和修改。然而,现在有了147ChatGPT改写润色软件,该软件可以全自动批量图文润色,自动纠错,自动完善语法,并进行

    2024年02月04日
    浏览(27)
  • 企业计算机服务器中了helper勒索病毒怎么办?Helper勒索病毒解密工具流程

    在网络技术飞速发展的时代,越来越多的企业利用网络开展各项工作业务,网络为企业的生产运营提供了极大便利,大大提高了生产与办公效率。但随之而来的网络安全威胁也在不断增加,网络勒索病毒攻击的事件频发,近日,云天数据恢复中心接到多家企业求助,企业计算

    2024年04月15日
    浏览(47)
  • 【Apifox Helper】自动生成接口文档,IDEA+Apifox懒人必备

    🍊缘由 接口文档对接爽,整理起来真费脑 对于 整理API文档 ,本狗秉承偷懒为上的原则,想找一种 在IDEA中直接生成文档 的方法。 Apifox Helper 绝绝子,只需要在 IDEA中下载插件 ,无脑配置后, 文档自动生成到Apifox ,美完美解决。并且 颜值及方便程度 绝比Swagger和postman好太

    2024年02月02日
    浏览(53)
  • JS javascript 点击鼠标 鼠标事件 获取元素 获取元素Xpath

    js代码,鼠标在页面点击时,记录元素的Xpath 代码:  

    2024年02月15日
    浏览(49)
  • webdriver-helper安装说明

    webdriver-helper 是一个 python 第三方库,用来更加便捷的使用 selenium,完成浏览器自动化控制的辅助工具,目前有两个版本: 第一个是免费版,版本代号 1.*, 这个版本可以帮助你免去寻找、匹配、下载合适的浏览器驱动 因为 chrome 频繁自动更新,浏览器驱动随时可能失效,导致

    2024年02月01日
    浏览(28)
  • Xpath获取指定元素相邻的不被标签括起来的文本

    div/preceding-sibling::a[1] 与div上面相邻的第一个a标签元素 div/following-sibling::a[1] 与div下面相邻的第一个a标签元素 div/preceding-sibling::text()[1] 与div上面相邻的第一个非标签文本元素 div/following-sibling::text()[1] 与div下面相邻的第一个非标签文本元素 如图: 已知图片中标注1、2、3对应的内

    2024年02月05日
    浏览(40)
  • b站视频标题的获取(xpath、jsonpath的一个简单应用)

    注:该篇文章为本人原创,由于本人学习有限,若有错误或者笔误或者有问题,欢迎大家进行批评指正,谢谢。当然在使用爬虫前,请阅读下相关的法律法规,约束好自己的行为。第一次更新时间为2023.8.19,在2023.9.19当本人再次使用需要获取b站标题时,发现从仅更改“代码的

    2024年02月14日
    浏览(38)
  • webdriver_helper安装失败 & ImportError

    ERROR: No matching distribution found for webdriver-helper  问题:python版本太低 cannot import name \\\'get_webdriver\\\' from \\\'webdriver_helper\\\' (unknown location)         问题:使用pip install webdriver-helper安装的是最新版本,但是要收费(收费版本包含远程driver和对appium的支持),免费版本的安装方法如下:

    2024年02月12日
    浏览(26)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包