浏览器插件：WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)

1年前作者：仲君Johnny分类：Toy博客阅读(10)违法举报

这篇具有很好参考价值的文章主要介绍了浏览器插件：WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

爬虫专栏：

Web Scraper 是一个浏览器扩展，用于从页面中提取数据(网页爬虫)。对于简单或偶然的需求非常有用，例如正在写代码缺少一些示例数据，使用此插件可以很快从类似的网站提取内容作为模拟数据。从 Chrome 的插件市场安装后，页面 F12 打开开发者工具会多出一个名 Web Scraper 的面板，接下来以此作为开始。

快速上手

写个例子：提取百度首页底部几个导航按钮的文字，了解下 Web Scraper 是如何工作。

创建任务

创建任务，即创建 SiteMap(这词不常用，还是用我们熟悉的词吧，意思大致一样就行)。打开百度首页，再打开开发者面板如下操作，其中URL可以使用特殊语法，这个后面再谈。

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

选择内容

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

开始抓取

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

浏览数据

抓取完肯定要确认数据是否正确，格式不正确需要重新调整选择器，浏览数据的步骤如下：

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

保存数据

确认无误后，就可以进行保存(如下)。目前只能导出 excel 或 csv 格式，json 需要充值(会员)，不过也不是啥大问题，随便找个在线网站转一下就行。

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

浏览数据

抓取完肯定要确认数据是否正确，格式不正确需要重新调整选择器，浏览数据的步骤如下：

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

保存数据

确认无误后，就可以进行保存(如下)。目前只能导出 excel 或 csv 格式，json 需要充值(会员)，不过也不是啥大问题，随便找个在线网站转一下就行。

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

小结

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

图片选择器

抓取的URL支持特殊语法，如果页面分页体现在URL上的话还是非常有用的。如下：

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

表格选择器

提取表格数据，以 IANA的域名列表为例，如下：

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

链接选择器

提取链接名字和地址，以百度首页为例，如下：

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

百度首页为例，如下：

属性选择器

提取属性值，以百度首页为例，如下：

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

图片选择器

提取图片地址，以百度首页为例，如下：

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

元素选择器

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

提取表格数据，以 IANA的域名列表为例，如下：

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

元素和子选择器创建好就可以了，以下是预览到的数据：

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

链接选择器

提取链接名字和地址，以百度首页为例，如下：

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

元素点击选择器

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

分组选择器

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

分页选择器

分页查询数据，支持多种类型，比元素滚动选择器、元素点击选择器更强大。值得注意的是，子选择器需放在分页选择器内部。以博客园WEB分页为例，模拟上面元素点击选择器的效果，如下：

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

百度首页为例，如下：

站点地图选择器

这几个比较简单，输入 sitemap.xml 的地址即可，如下：

webscraper,python爬虫逆向教程,爬虫,网络爬虫,数据分析,web

tips

提取元素，实际是个分组功能。例如，有个列表，每个子项都有名字、链接地址等属性，元素就是包裹这些属性的盒子，可以理解 JS 中的对象。

结语

OK，以上本片的所有内容，你可以利用它去爬取知乎、百度、豆瓣等等网页上的数据。

如果本文对你有帮助，不要忘记一键三连，你的支持是我最大的动力！文章来源地址https://www.toymoban.com/news/detail-828370.html

到了这里，关于浏览器插件：WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

查看edge浏览器插件的安装位置并将插件安装到别的浏览器
C:Users zhang AppDataLocalMicrosoftEdgeUser DataDefaultExtensions 这是我的目录，把中间的的替换成你的电脑用户名就可以了你也可以先输入目录的部分名称，下拉找对应的目录将插件导出，导入到别的浏览器以第一个插件扩展管理器为例，进入下一级子文件，找到插件
2024年02月10日
浏览(10)
浏览器插件下载以及安装----以chrome浏览器中安装Xpath插件进行演示
初学Spider, 需要Xpath插件, 可是电脑没有自带的插件, 需要自己下载安装, 当然不会, 就来CSDN取经, 看了好多博客, 终于整理出来一套简单实用且全面的插件下载安装说明书! 说明书! 本文章以 chrome浏览器为例, 因为常用的: 360浏览器, Edge浏览器, IE浏览器等, 它们的插件安装包和以
2024年02月15日
浏览(9)
Mac系统下使用Charles对android手机的app或者浏览器进行数据包抓取
手机完成解锁、打开开发者模式，打开root权限参考地址： xiaomi5c手机解锁、刷机、打开开发者模式，打开root权限_小悟哦的博客-CSDN博客 1）手机的Wi-Fi设置上，添加一个代理，代理的地址上面的“192.168.1.5”，端口：8888 2）手机浏览器上，输入 http://chl
2024年02月09日
浏览(8)
edge浏览器插件打包安装到谷歌浏览器上
没有安装插件的浏览器不能算的上是一个浏览器，众所周知的原因谷歌无法打开，所有也就无法安装谷歌应用商店的插件，但是Edge浏览器是可以安装访问插件，又因为egde浏览器用的是谷歌的内核，所有大部分的Edge浏览器插件在谷歌上一样是可以使用的。下面就来看一下怎么
2024年02月13日
浏览(40)
爬虫常用浏览器插件
EditThisCookie 是一个 Cookie 管理器，可以很方便的添加，删除，编辑，搜索，锁定和屏蔽。可以将登录后的 Cookies 先保存到本地，借助 cookielib 库，直接爬取登录后的数据。 Web Scraper Web Scraper 是一款免费的、适用于任何人，包含没有任何编程基础的爬虫工具。操作简单，只需要
2024年02月10日
浏览(11)
google浏览器插件开发
在开发Chrome插件时，以下几个文件的作用如下： manifest.json ：这是Chrome插件的清单文件，用于配置插件的基本信息、权限、页面跳转等。其中包括插件的名称、版本号、图标、后台脚本、浏览器动作等信息。 background.js ：这是Chrome插件的后台脚本文件，用于处理插件的后台逻
2024年04月28日
浏览(11)
selenium---浏览器F12的正确用法
测试过程中经常会进行抓包来查看一些错误内容，判断是前端的问题还是后端的问题，常见的抓包工具有Fiddler，Charles，还有web端的F12。今天安静来介绍下如何通过F12进行抓包查看请求内容打开百度按下键盘F12或者邮件选择检查，这里可以看到有一些选项：Elements，Console，
2024年02月09日
浏览(15)
渗透测试常用浏览器插件汇总
这个插件可以自动探测当前网站所属的国家、城市，解析IP地址以及开放的服务和端口，包括但不限于FTP、DNS、SSH或者其他服务等，属被动信息搜集中的一种。这个插件可用于常见编码/解码、POST/Cookies数据提交、SQL/XSS/LFI/XXE漏洞测试、自定义Referer/User-Agent等，是一款不可多得
2024年02月05日
浏览(10)
selenium 调用本地浏览器插件
本文所有教程及源码、软件仅为技术研究。不涉及计算机信息系统功能的删除、修改、增加、干扰，更不会影响计算机信息系统的正常运行。不得将代码用于非法用途，如侵立删！ selenium 使用本地浏览器插件环境 win10 Python3.9 selenium 4.10 查看chrome配置文件路径地址栏输入
2024年02月09日
浏览(12)
谷歌浏览器翻译插件安装步骤
首先下载最新版谷歌浏览器，这样能保证和我的操作界面一样，因为我的是最新版本的谷歌浏览器一、先下载可用的翻译插件插件下载地址：https://download.csdn.net/download/weixin_44743624/87631622 下载完成后解压，然后打开谷歌浏览器扩展，加进去就行了，往下看有详细步骤。二、
2024年02月12日
浏览(37)