浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)

这篇具有很好参考价值的文章主要介绍了浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

 爬虫专栏: 

Web Scraper 是一个浏览器扩展,用于从页面中提取数据(网页爬虫)。对于简单或偶然的需求非常有用,例如正在写代码缺少一些示例数据,使用此插件可以很快从类似的网站提取内容作为模拟数据。从 Chrome 的插件市场安装后,页面 F12 打开开发者工具会多出一个名 Web Scraper 的面板,接下来以此作为开始。

快速上手

写个例子:提取百度首页底部几个导航按钮的文字,了解下 Web Scraper 是如何工作。

创建任务

创建任务,即创建 SiteMap(这词不常用,还是用我们熟悉的词吧,意思大致一样就行)。打开 百度首页,再打开开发者面板如下操作,其中URL可以使用特殊语法,这个后面再谈。

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

选择内容

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

开始抓取

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

浏览数据

抓取完肯定要确认数据是否正确,格式不正确需要重新调整选择器,浏览数据的步骤如下:

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

保存数据

确认无误后,就可以进行保存(如下)。目前只能导出 excel 或 csv 格式,json 需要充值(会员),不过也不是啥大问题,随便找个在线网站转一下就行。

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

浏览数据

抓取完肯定要确认数据是否正确,格式不正确需要重新调整选择器,浏览数据的步骤如下:

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

保存数据

确认无误后,就可以进行保存(如下)。目前只能导出 excel 或 csv 格式,json 需要充值(会员),不过也不是啥大问题,随便找个在线网站转一下就行。

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

小结

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

图片选择器

抓取的URL支持特殊语法,如果页面分页体现在URL上的话还是非常有用的。如下:

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

表格选择器

提取表格数据,以 IANA的域名列表 为例,如下:

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

链接选择器

提取链接名字和地址,以 百度首页 为例, 如下:

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

百度首页 为例, 如下:

属性选择器

提取属性值,以 百度首页 为例, 如下:

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

图片选择器

提取图片地址,以 百度首页 为例, 如下:

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

元素选择器

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

提取表格数据,以 IANA的域名列表 为例,如下:

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

元素和子选择器创建好就可以了,以下是预览到的数据:

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

链接选择器

提取链接名字和地址,以 百度首页 为例, 如下:

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

元素点击选择器

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

分组选择器

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

分页选择器

分页查询数据,支持多种类型,比元素滚动选择器、元素点击选择器更强大。值得注意的是,子选择器需放在分页选择器内部。以 博客园WEB分页 为例,模拟上面元素点击选择器的效果,如下:

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

百度首页 为例, 如下:

站点地图选择器

这几个比较简单,输入 sitemap.xml 的地址即可,如下:

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

tips

提取元素,实际是个分组功能。例如,有个列表,每个子项都有名字、链接地址等属性,元素就是包裹这些属性的盒子,可以理解 JS 中的对象。

结语

OK,以上本片的所有内容,你可以利用它去爬取知乎、百度、豆瓣等等网页上的数据。

如果本文对你有帮助,不要忘记一键三连,你的支持是我最大的动力!文章来源地址https://www.toymoban.com/news/detail-828370.html

到了这里,关于浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 查看edge浏览器插件的安装位置并将插件安装到别的浏览器

     C:Users zhang AppDataLocalMicrosoftEdgeUser DataDefaultExtensions    这是我的目录,把中间的的替换成你的电脑用户名就可以了 你也可以先输入目录的部分名称,下拉找对应的目录  将插件导出,导入到别的浏览器 以第一个插件  扩展管理器  为例,进入下一级子文件,找到插件

    2024年02月10日
    浏览(57)
  • 浏览器插件下载以及安装----以chrome浏览器中安装Xpath插件进行演示

    初学Spider, 需要Xpath插件, 可是电脑没有自带的插件, 需要自己下载安装, 当然不会, 就来CSDN取经, 看了好多博客, 终于整理出来一套简单实用且全面的插件下载安装说明书! 说明书! 本文章以 chrome浏览器 为例, 因为常用的: 360浏览器, Edge浏览器, IE浏览器等, 它们的插件安装包和以

    2024年02月15日
    浏览(88)
  • Mac系统下使用Charles对android手机的app或者浏览器进行数据包抓取

             手机完成解锁、打开开发者模式,打开root权限          参考地址: xiaomi5c手机解锁、刷机、打开开发者模式,打开root权限_小悟哦的博客-CSDN博客 1)手机的Wi-Fi设置上,添加一个代理,代理的地址上面的“192.168.1.5”,端口:8888 2)手机浏览器上,输入 http://chl

    2024年02月09日
    浏览(53)
  • edge浏览器插件打包安装到谷歌浏览器上

    没有安装插件的浏览器不能算的上是一个浏览器,众所周知的原因谷歌无法打开,所有也就无法安装谷歌应用商店的插件,但是Edge浏览器是可以安装访问插件,又因为egde浏览器用的是谷歌的内核,所有大部分的Edge浏览器插件在谷歌上一样是可以使用的。下面就来看一下怎么

    2024年02月13日
    浏览(78)
  • 爬虫常用浏览器插件

    EditThisCookie 是一个 Cookie 管理器,可以很方便的添加,删除,编辑,搜索,锁定和屏蔽。 可以将登录后的 Cookies 先保存到本地,借助 cookielib 库,直接爬取登录后的数据。 Web Scraper Web Scraper 是一款免费的、适用于任何人,包含没有任何编程基础的爬虫工具。 操作简单,只需要

    2024年02月10日
    浏览(47)
  • google浏览器插件开发

    在开发Chrome插件时,以下几个文件的作用如下: manifest.json :这是Chrome插件的清单文件,用于配置插件的基本信息、权限、页面跳转等。其中包括插件的名称、版本号、图标、后台脚本、浏览器动作等信息。 background.js :这是Chrome插件的后台脚本文件,用于处理插件的后台逻

    2024年04月28日
    浏览(39)
  • selenium---浏览器F12的正确用法

    测试过程中经常会进行抓包来查看一些错误内容,判断是前端的问题还是后端的问题,常见的抓包工具有Fiddler,Charles,还有web端的F12。今天安静来介绍下如何通过F12进行抓包查看请求内容 打开百度按下键盘F12或者邮件选择检查,这里可以看到有一些选项:Elements,Console,

    2024年02月09日
    浏览(35)
  • 渗透测试常用浏览器插件汇总

    这个插件可以自动探测当前网站所属的国家、城市,解析IP地址以及开放的服务和端口,包括但不限于FTP、DNS、SSH或者其他服务等,属被动信息搜集中的一种。 这个插件可用于常见编码/解码、POST/Cookies数据提交、SQL/XSS/LFI/XXE漏洞测试、自定义Referer/User-Agent等,是一款不可多得

    2024年02月05日
    浏览(57)
  • selenium 调用本地浏览器插件

    本文所有教程及源码、软件仅为技术研究。不涉及计算机信息系统功能的删除、修改、增加、干扰,更不会影响计算机信息系统的正常运行。不得将代码用于非法用途,如侵立删! selenium 使用本地浏览器插件 环境 win10 Python3.9 selenium 4.10 查看chrome配置文件路径 地址栏输入 ​

    2024年02月09日
    浏览(72)
  • vue浏览器插件安装-各种问题

    https://blog.csdn.net/qq_55640378/article/details/131553642 下载地址: Tags · vuejs/devtools · GitHub npm  install  或是 cnpm  install 遇到的报错   设置淘宝镜像源(推荐使用nrm,这一步是为了保证其他依赖不报错  npm install -g nrm nrm use   taobao 文件下载到移动硬盘中cnpm  intall 报错   cnpm install

    2024年02月11日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包