如何利用 Selenium 对已打开的浏览器进行爬虫

这篇具有很好参考价值的文章主要介绍了如何利用 Selenium 对已打开的浏览器进行爬虫。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

如何利用 Selenium 对已打开的浏览器进行爬虫,软件测试工程师,软件测试,自动化测试,selenium,爬虫,测试工具,自动化测试,软件测试,功能测试,程序人生

大家好!

在对某些网站进行爬虫时,如果该网站做了限制,必须完成登录才能展示数据,而且只能通过短信验证码才能登录

这时候,我们可以通过一个已经开启的浏览器完成登录,然后利用程序继续操作这个浏览器,即可以完成数据的爬取了

具体操作步骤如下:

1-1 安装依赖

# 安装依赖
pip3 install selenium

1-2 Chrome 应用完整路径

右键查看 Chrome 浏览器的完整路径

比如:C:\Program Files\Google\Chrome\Application\chrome.exe

如何利用 Selenium 对已打开的浏览器进行爬虫,软件测试工程师,软件测试,自动化测试,selenium,爬虫,测试工具,自动化测试,软件测试,功能测试,程序人生

1-3 命令行启动浏览器

接下来,在 CMD 终端中通过命令行启动 Chrome 浏览器

# 启动浏览器
cd C:\Program Files\Google\Chrome\Application && chrome.exe --remote-debugging-port=1234 --user-data-dir=“C:\selenum\user_data”

其中

–remote-debugging-port

指定浏览器调试端口号

PS:这里可以随机指定一个端口号,不要指定为已经被占用的端口号

–user-data-dir

用户配置文件目录

这里需要单独指定一个文件夹目录(不存在会新建),如果不显式指定该参数,运行会污染浏览器默认的配置文件

1-4 下载 ChromeDriver

根据 Chrome 浏览器版本下载对应的 ChromeDriver 驱动移动到某一个目录下

下载地址:

http://chromedriver.storage.googleapis.com/index.html

1-5 操作已打开的浏览器

假设上面开启的浏览器打开百度首页,我们现在编写一个简单的程序来继续操作上面的浏览器

注意的是,这里需要利用 debuggerAddress 指定浏览器的地址及端口号

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

chrome_options = Options()

# 指定已经打开浏览器的地址及端口号
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:1234")

# 注意:chrome版本与chromedirver驱动要保持一致
# 下载地址:http://chromedriver.storage.googleapis.com/index.html
s = Service(r"C:\Users\xingag\Desktop\111\chromedriver.exe")

driver = webdriver.Chrome(service=s, options=chrome_options)

# 操作浏览器
input_element = driver.find_element(By.ID, 'kw')

if input_element:
    # 关键字
    input_element.send_keys("AirPython")

    submit_element = driver.find_element(By.ID, 'su')

    if submit_element:
        # 点击搜索
        submit_element.click()

# 释放资源
# driver.close()

最后感谢每一个认真阅读我文章的人,礼尚往来总是要有的,虽然不是什么很值钱的东西,如果你用得到的话可以直接拿走:

如何利用 Selenium 对已打开的浏览器进行爬虫,软件测试工程师,软件测试,自动化测试,selenium,爬虫,测试工具,自动化测试,软件测试,功能测试,程序人生

这些资料,对于【软件测试】的朋友来说应该是最全面最完整的备战仓库,这个仓库也陪伴上万个测试工程师们走过最艰难的路程,希望也能帮助到你!   文章来源地址https://www.toymoban.com/news/detail-704795.html

到了这里,关于如何利用 Selenium 对已打开的浏览器进行爬虫的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • selenium打开火狐浏览器

    项目上需求为:甲方OA 系统是IE系统,需要从IE系统点个按钮打开火狐浏览器单点登录跳转到我们的系统  前期解决方案为:打开浏览器就行了,然后就用的是打开本地浏览器,但是由于B/S架构,有别人远程访问我的ip来尝试时,打开的确是服务器的浏览器,也就是我自己的浏

    2024年02月02日
    浏览(44)
  • selenium 驱动 Edge浏览器,解决selenium打开Edge浏览器闪退问题

    1、在设置中查看浏览器的版本号 2、在官网中进行对应下载 Microsoft Edge WebDriver - Microsoft Edge Developer 1、打开设置界面 右击【此电脑】---选择【属性】----选择【高级系统设置】-----点击【环境变量】 2、变量设置 在【系统变量】选项中,选择【Path】----》点击新建 将Edge浏览器

    2024年02月05日
    浏览(44)
  • selenium无法打开浏览器问题

    想利用这个例子简单测试一下安装是否成功? from selenium import wbdriver driver = weddriver.Chrom() driver.get(‘http://www.baidu.com’) 前提是:浏览器版本和浏览器驱动版本是一致的,具体怎么看版本是否是一致的,下期再给大家补充 结果报如下错误: 在安装浏览器的时候浏览器的名字都

    2024年02月11日
    浏览(42)
  • selenium 不重复打开当前浏览器

    注意: 1. selenium最好使用3.141.0版本,其他版本会有问题:如方法名不一致,参数名不一致比较麻烦 2. 谷歌浏览器和驱动一定要对应并使用正版的

    2024年02月09日
    浏览(33)
  • selenium 之 控制打开的浏览器

    使用背景: 当我们需要在打开的浏览器中进行自动化操作时需要用到此方法。 1、为了防止污染别的环境(同一个网站多个账号爬取的情况),最好对浏览器使用新的端口创建debug副本。 具体操作如下 (1)右键浏览器创建副本(或者直接复制) (2)在新生成的快捷方式上右

    2024年02月14日
    浏览(32)
  • 解决selenium打开浏览器自动退出

    解决selenium打开Chrome浏览器自动退出问题 问题 最近电脑换了新系统,在运行Selenium的时候遇到一个问题,当我执行完程序,浏览器自动关闭了,我在程序中也没有写driver.quit()方法。代码如下: 代码运行后,webdriver驱动chrome浏览器打开网页后,便自动退出了。但是系统升级前

    2024年02月11日
    浏览(37)
  • python用selenium打开浏览器后秒关闭浏览器-解决方法

    学习selenium的时候,上手第一个脚本发现成功打开浏览器后,代码执行完毕浏览器又秒关闭了,代码如下: 1、检查代码,代码中没有写driver.quit()或driver.close()方法,也没有其它错误提示; 2、检查版本号,浏览器版本号,驱动版本号,确认版本号没有问题; 3、最后找到解决

    2024年02月11日
    浏览(56)
  • Selenium打开浏览器闪退问题(浏览器驱动是对应的前提)-解决办法

    问题解决前的代码: 问题解决后的代码: 很显然,解决办法很简单,把driver放到main外面当全局变量,然后在main里面调用就ok了

    2024年02月12日
    浏览(42)
  • Selenium入门必备:学会用代码控制浏览器,打开网页、找到元素和退出浏览器

    目录 一、前期准备 1、概述 2、学习目标 3、安装 二、selenium的基本使用 1、加载网页: 2、定位和操作: 3、查看请求信息: 4、退出 小结 三、元素定位的方法 学习目标 1、selenium的定位操作 2、元素的操作 小结 四、selenium的其他操作 学习目标 1、无头浏览器 1、selenium 处理

    2024年02月13日
    浏览(89)
  • 解决Python selenium打开浏览器自动退出

    刚学selenium,在网上复制了启动浏览器的代码,结果打开Chrome浏览器跳转网页后,浏览器自动退出了,可是并没有调用quit(),查了下解决方案,说是降版本,不想降,所以找了其他方法: 设置启动参数即可,驱动过程结束后保持浏览器的打开状态: options.add_experimental_option(

    2024年02月05日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包