selenium基本使用、无头浏览器(chrome、FireFox)、搜索标签

这篇具有很好参考价值的文章主要介绍了selenium基本使用、无头浏览器(chrome、FireFox)、搜索标签。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

selenium基本使用

这个模块:既能发请求,又能解析,还能执行js

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行
JavaScript代码的问题

  1. selenium 会做web方向的自动化测试
  2. appnium 会做 app方向的自动化测试

selenium 可以操作浏览器,模拟人的 行为

使用浏览器

  1. 下载浏览器驱动(chrome):

    • https://registry.npmmirror.com/binary.html?path=chromedriver/
    • https://googlechromelabs.github.io/chrome-for-testing/
    • https://edgedl.me.gvt1.com/edgedl/chrome/chrome-for-testing/119.0.6045.105/win64/chromedriver-win64.zip
    • 火狐驱动:https://github.com/mozilla/geckodriver/releases/
    • 跟浏览器型号和版本一一对应的
      ie,火狐,谷歌:谷歌为例
      谷歌浏览器有很多版本:跟版本一一对应
  2. 将驱动放到python解释器目录下,或者配置环境变量

  3. 下载模块:pip install selenium

  4. 写python代码,操作浏览器

import time
from selenium import webdriver

# 跟人操作浏览器一样,打开了谷歌浏览器,拿到浏览器对象
bro=webdriver.Firefox()

# 在地址栏中输入地址
bro.get('https://www.baidu.com')
time.sleep(5)
bro.close()

指令

bro为实例化所得对象

  1. 在地址栏中输入地址:bro.get('网址地址')
  2. 关闭浏览器:bro.close()
  3. 设置等待:bro.implicitly_wait(10),从页面中找标签,如果找不到,就等待
  4. 页面最大化:bro.maximize_window()
  5. 当前页面html内容:bro.page_source)
  6. 选择器:
    from selenium.webdriver.common.by import By
    • 找一个:bro.find_element(by=By.选择器,value='')
    • 找所有:bro.find_elements(by=By.选择器,value='')
  7. 点击:找到的标签.click()
  8. 文本框写入:找到的标签.send_keys()

模拟登录

from selenium import webdriver
from selenium.webdriver.common.by import By

bro = webdriver.Firefox()
bro.get('https://www.baidu.com')
bro.implicitly_wait(10)
bro.maximize_window()

# 找到登录按钮
a_login = bro.find_element(by=By.LINK_TEXT, value='登录')
a_login.click()

# 往输入框中写文字
username = bro.find_element(by=By.ID, value='TANGRAM__PSP_11__userName')
username.send_keys('13437238745')
password = bro.find_element(by=By.ID, value='TANGRAM__PSP_11__password')
password.send_keys('caimina1')

agree = bro.find_element(By.ID, 'TANGRAM__PSP_11__isAgree')
agree.click()

submit = bro.find_element(By.ID, 'TANGRAM__PSP_11__submit')
submit.click()

bro.close()

selenium其它用法

无头浏览器(chrome浏览器)

如果我们做爬虫,我们只是为了获取数据,不需要非有浏览器在显示 ⇢ \dashrightarrow 隐藏浏览器图形化界面文章来源地址https://www.toymoban.com/news/detail-758655.html

chrome
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('blink-settings=imagesEnabled=false') #不加载图片, 提升速度
chrome_options.add_argument('--headless') #浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败
bro = webdriver.Chrome(options=chrome_options)


bro.get('https://www.cnblogs.com/liuqingzheng/p/16005896.html')

print(bro.page_source)
time.sleep(3)
bro.close()
FireFox
from selenium import webdriver

options = webdriver.FirefoxOptions()
options.add_argument("--headless")  # 设置火狐为headless无界面模式
options.add_argument("--disable-gpu")
driver = webdriver.Firefox(options=options)
driver.get("https://www.qq.com")
print(driver.page_source)
driver.close()


搜索标签

搜索标签
  1. 根据id号查找标签:
  2. 根据name属性查找标签:
  3. 根据标签查找标签:
  4. 按类名找:
  5. a标签文字:
  6. a标签文字,模糊匹配:
  7. 按css选择器找:
  8. 按xpath找:
获取标签的属性,文本,大小,位置
  1. 属性:bro.get_attribute('src')
  2. 文本:bro.text
  3. 大小:tag.size
  4. 位置:bro.location
  5. id(不是标签id,无需关注):tag.id
  6. 标签名:tag.tag_name
找到页面中所有div
divs=bro.find_elements(By.TAG_NAME,'div')
按类名找
div=bro.find_element(By.CLASS_NAME,'postDesc').text
按css选择器
div=bro.find_element(By.CSS_SELECTOR,'div.postDesc').text

#id为topics下的div下的div中类为postDesc
div=bro.find_element(By.CSS_SELECTOR,'#topics > div > div.postDesc').text

到了这里,关于selenium基本使用、无头浏览器(chrome、FireFox)、搜索标签的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python + Playwright 无头浏览器Chrome找不到元素

    用Python + Playwright调试时,发现不用无头浏览器(即 headless=False )代码能够运行成功,但是一用无头浏览器时(即 headless=True )就会报错,提示找不到元素。换成Firefox浏览器又不会有这个问题,有可能是因为网站有一个前段反爬虫手段。(同理,如果大家使用 playwright codege

    2024年02月16日
    浏览(49)
  • selenium无头浏览器

    无头浏览器,也是通过selenium操作浏览器,但是浏览器不弹出来的意思 需要用到这个:

    2024年02月11日
    浏览(61)
  • Selenium:设置无头浏览器

    在使用selenium执行测试用例时,每条用例执行过程中都会打开一个浏览器,如果用例数量过多时,每次运行均需要调用一次浏览器,增加了服务器压力,而无头模式就可以解决这种问题,他可以让运行速度更快,占用的资源也更少,让浏览器偷偷的在后台工作。 无头模式,是

    2024年02月16日
    浏览(49)
  • 使用Selenium控制Chrome浏览器 --工作自动化

    使用Selenium控制Chrome浏览器 --工作自动化 最近朋友在用秒账做帐时,由于销售单量很大,重复录入工作一天一录就近五个小时,寻求帮助,问能不能把这重复劳动减少些,看后分析,使用web自动化,应能解决问题,特此记录如下:  Selenium 简介:Selenium 是一套完整的web应用程

    2024年02月01日
    浏览(72)
  • selenium 使用已打开的chrome浏览器(python版)

    使用selenium 的 webdriver 调试的时候,每次都是打开一个新的 chrome浏览器实例,特别不方便,那怎么使用上次打开的chrome浏览器实例呢,以下是完整代码,亲测可用 python版本:3.10 系统:win11 步骤1,先写一个打开 chrome浏览器 的文件1,里面指定这个chrome浏览器实例的端口号

    2024年02月14日
    浏览(59)
  • Selenium Edge的无头浏览器模式以及反WebDriver检测

            由于本人只使用Edge浏览器,所以在得知Selenium对PantomJS的支持取消后,在网上找了各种关于Edge浏览器的资料。配置Selenium Edge有多种方法,但这里只介绍一种方法。 MSEdgeDriver下载地址  此处需要注意将浏览器更新到最新版本,以及选择正确的下载通道 解压下载的压缩

    2023年04月09日
    浏览(60)
  • 干货!一文搞定无头浏览器的概念以及在selenium中的应用

      无头浏览器,即 Headless Browser,是一种没有界面的浏览器。它拥有完整的浏览器内核,包括 JavaScript 解析引擎、渲染引擎等。与普通浏览器最大的不同是,无头浏览器执行过程中看不到运行的界面,但是我们依然可以用 GUI 测试框架的截图功能截取它执行中的页面。在这里强

    2023年04月12日
    浏览(59)
  • Selenium 无头浏览器被知乎限制访问的解决方案

    我尝试使用如下代码爬取知乎的有关内容,出现知乎安全验证界面: 添加启动参数 在网上的许多文章中,反复提到了如下三行代码,然而我将他们加入代码后没有什么效果: JavaScript特殊全局变量 有一些文章提到,通过 WebDriver 启动的网页会存在一些特殊的 JS 变量,这些变

    2024年02月14日
    浏览(50)
  • 使用selenium启动谷歌Chrome浏览器打开指定网站,页面空白,而使用其它浏览器手动打开该网站则正常

    在使用python实现自动化网络爬虫时,我使用到selenium来驱动谷歌Chrome浏览器来打开某一个网页,然后爬取数据,当使用Python中的selenium库驱动Chrome浏览器打开特定网站时,页面内容为空白,但在其他浏览器中手动访问该网站则显示正常。

    2024年02月07日
    浏览(77)
  • 『python爬虫』24. selenium之无头浏览器-后台静默运行(保姆级图文)

    欢迎关注 『python爬虫』 专栏,持续更新中 欢迎关注 『python爬虫』 专栏,持续更新中 一般性的selenium会打开浏览器页面,展示图形化页面给我们看,我们都应该知道命令行式的程序肯定比这种渲染图形化界面的程序快速高效。为了一定程度上缓解selenium慢的问题,我们可以采

    2024年02月07日
    浏览(123)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包