小白必看Python爬虫Selenium库详细教程

这篇具有很好参考价值的文章主要介绍了小白必看Python爬虫Selenium库详细教程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在我们爬取网页过程中,经常发现我们想要获得的数据并不能简单的通过解析HTML代码获取,这些数据是通过AJAX异步加载方式或经过JS渲染后才呈现在页面上显示出来。

selenuim是一种自动化测试工具,它支持多种浏览器。而在爬虫中,我们可以使用它来模拟浏览器浏览页面,进而解决JavaScript渲染的问题。

1、使用示例

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2、详细介绍

2.1 声明浏览器对象

即告诉程序,应该使用哪个浏览器进行操作

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2.2 访问页面

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2.3 查找元素

成功访问网页后,我们可能需要进行一些操作,比如找到搜索框然后输入关键字再敲击回车键。因此,就需要在selenium中查找元素。 

2.3.1 单个元素

selenium查找元素有两种方法。第一种,是指定使用哪种方法去查找元素,比如指定依照CSS选择或者依照xpath去进行查找

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

下面是详细的元素查找方法

find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

第二种,是直接使用find_element(),传入的第一个参数为需要使用的元素查找方法

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2.3.2 多个元素

查找多个元素和查找单个元素的方法基本一致(只需要将查找单个元素的func里加一个s)。查找多个元素返回的是一个list。

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2.4 元素交互操作

元素交互是先获取一个元素,然后对获取的元素调用交互方法。比如说在搜索框内输入文字:

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2.5 交互动作

交互动作是将动作附加到交互链中串行执行,需要使用到ActionChains。

2.6 执行JavaScript

比如拖拽下拉

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2.7 获取元素信息

已经通过元素查找获取到元素后,可能还需要获取这个元素的属性、文本

2.7.1 获取属性

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2.8 Frame

如果定位到父frame,是无法查找到子frame的信息的,因此需要切换到子frame再进行查找。同理,在子frame也无法查找到父frame的信息

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2.9 等待

请求网页时,可能会存在AJAX异步加载的情况。而selenium只会加载主网页,并不会考虑到AJAX的情况。因此,使用时需要等待一些时间,让网页加载完全后再进行操作。

2.9.1 隐式等待

使用隐式等待时,如果webdriver没有找到指定的元素,将继续等待。超出规定时间后,如果还是没又找到指定元素则抛出找不到元素的异常。默认等待时间为0。

隐式等待是对整个页面进行等待。

需要特别说明的是:隐性等待对整个driver的周期都起作用,所以只要设置一次即可。

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2.9.2 显式等待

显示等待包含了等待条件和等待时间。

首先判定等待条件是否成立,如果成立,则直接返回;如果条件不成立,则等待最长时间为等待时间,如果超过等待时间后仍然没有满足等待等待条件,则抛出异常。

显式等待是对指定的元素进行等待。

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2.10 浏览器的前进/后退

back实现回到前一页面,forward实现前往下一页面

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2.11 对Cookies进行操作

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium

2.12 选项卡管理

选项卡管理就是浏览器的标签。有些时候我们需要在浏览器里增加一个新标签页或者删除一个标签页,就可以使用selenium来实现。

python爬虫之selenium库的使用详解,数据分析,Python,python,爬虫,selenium文章来源地址https://www.toymoban.com/news/detail-790420.html

到了这里,关于小白必看Python爬虫Selenium库详细教程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python selenium 爬虫教程

    Python和Selenium是很强大的爬虫工具,可以用于自动化地模拟浏览器行为,从网页中提取数据。下面是一个简单的使用Python和Selenium进行爬虫的案例。 1. 安装和配置: 首先,你需要安装Python和Selenium。可以使用pip命令来安装Selenium库: pip install selenium 。 然后,你还需要下载对应

    2024年02月09日
    浏览(32)
  • 【Python爬虫】selenium的详细使用方法

    selenium是一个用于web应用测试的工具,selenium所做的测试会直接运行在浏览器中,就像真人进行操作一样,像是打开浏览器,输入账号密码登录等等。目前selenium支持大部分的浏览器,例如:IE,Mozilla Firefox,Safari,Google Chrome,Opera,Edge等等浏览器,selenium是一个相当成功的开

    2024年02月07日
    浏览(49)
  • selenium+python爬虫全流程教程

    该教程许多内容基于个人经验,部分内容有些口语化 如有错误的地方麻烦及时指正(可评论或者私信) selenium实际上是web自动化测试工具,能够通过代码完全模拟人使用浏览器自动访问目标站点并操作来进行web测试。 通过python+selenium结合来实现爬虫十分巧妙。 由于是模拟人

    2024年01月24日
    浏览(32)
  • Python爬虫教程:Selenium模拟登录

    Selenium(本文基于python3.8)是一个功能强大的自动化测试工具,它可以用于模拟用户在浏览器中的行为,比如点击、输入、滚动等等,也可用于模拟登录网站并进行爬虫操作。本教程将详细介绍如何使用Python编写一个模拟登录地爬虫,使用XPath等多种元素匹配方法。 在开始之

    2024年02月04日
    浏览(34)
  • selenium.webdriver Python爬虫教程

    selenium安装和使用 pip install selenium 下载对应的浏览器驱动 实例化浏览器 元素定位 旧版本 selenium 函数 新版本 selenium 函数 返回复数元素的方法,分别在调用的方法加上一个s: findElements 用法示例 如果我们网页源码中有下面一段代码 元素属性 class 定位 css 选择器定位 ID 属性值

    2024年02月13日
    浏览(29)
  • python爬虫框架selenium安装和使用教程

    – Selenium是一个常用的Python爬虫框架,可以模拟浏览器行为,实现一些自动化的操作。本教程将介绍Selenium的基础知识、使用方法,包括导入包、安装、示例、数据保存等方面。 在开始之前,我们需要先导入Selenium相关的包。这里我们用Python3作为演示,所以需要安装对应版本

    2024年02月02日
    浏览(26)
  • python网络爬虫selenium打开多窗口与切换页面,附详细答案解析

    time.sleep(2) win2 = driver.window_handles[1] driver.switch_to.window(win2) print(driver.current_url) 关于句柄在列表中的顺序, 建议一般最好只额外打开一个网页,不建议打开更多的网页进行切换。当打开的网页数量超过两个时,句柄列表中的元素分别代表哪个网页,其顺序是不太好确定的。以下

    2024年04月09日
    浏览(67)
  • python网络爬虫之selenium的详细安装配置以及简单使用--菜鸟复习日记

     学习python selenium已经是好久以前的事情了,自己都快要忘记了,所以写篇博客复习复习,本文包括安装selenium驱动以及selenium的一些简单使用。本文默认安装python以及selenium库。 目录 一、安装seleium的驱动(以谷歌浏览器为例) 二、selenium库的一些简单用法。         1.向输入框

    2024年02月06日
    浏览(30)
  • python爬虫教程:selenium常用API用法和浏览器控制

    selenium api selenium 新版本( 4.8.2 )很多函数,包括元素定位、很多 API 方法均发生变化,本文记录以 selenium4.8.2 为准。 webdriver 常用 API 方法 描述 get(String url) 访问目标url地址,打开网页 current_url 获取当前页面url地址 title 获取页面标题 page_source 获取页面源代码 close() 关闭浏览器当

    2024年02月05日
    浏览(38)
  • 基于Python的Selenium详细教程

    本文使用环境:windows11、Python 3.10.5、PyCharm 2022.1.3、Selenium 4.3.0 需要你懂的技术:Python、HTML、CSS、JavaScript 在PyCharm终端或window命令窗口输入以下命令 注意:在window命令窗口安装时,首先要确保Python环境变量配置正确 下载浏览器驱动 这里给出各浏览器(Chrome、Firefox、Edge等)

    2024年02月02日
    浏览(17)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包