ubuntu上安装firefox geckodriver 实现爬虫

这篇具有很好参考价值的文章主要介绍了ubuntu上安装firefox geckodriver 实现爬虫。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

缘由:当时在windows 上运行chrom 的时候 发现要找到 浏览器和 webdirver 相匹配的 版本比较麻烦,当时搞了大半天才找到并安装好。

这次在ubuntu上尝试用firefox 实现爬虫
文章分为三个部分:

  1. 环境搭建
  2. 浏览器弹窗输入用户名,密码的解决方法
  3. web 页面元素的获取

1.环境搭建
1)安装firefox 浏览器

apt-get install firefox
2)安装 python 相关
apt-get install python3.8
apt-get install python3-pip
python3 -m pip install selenium
3)将github 上的geckdirver 下载下来 放到 Ubuntu目录下待用
	github 地址:https://github.com/mozilla/geckodriver/releases
	tar -zxvf geckodriver-v0.33.0-linux-aarch64.tar.gz
	mv geckodriver /usr/local/share/
	ln -s /usr/local/share/geckodriver /usr/local/bin/geckodriver
	ln -s /usr/local/share/geckodriver /usr/bin/geckodriver

4). 编写测试文件

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver import ActionChains
from selenium.webdriver.support.select import Select
from selenium.webdriver.firefox.options import Options
import os
import time
 
options = Options()
options.add_argument('-headless') # 无头参数
browser = webdriver.Firefox(options=options)
browser.get('https://blog.csdn.net')
print(browser.title)
browser.close()

测试过程中可能会遇到相关软件的版本不匹配,网上搜搜,都会有解决方法,我也是边搜边解决,具体解决问题忘记,而且每个人的情况有差异

二. 浏览器弹窗输入用户名,密码的解决方法
有些web程序使用浏览器自带的弹窗,让用户填写用户名密码来实现登录,但是对于爬虫来说,我们定位不到元素,所以也就无法输入用户名,密码,解决方法如下
url= http://用户:密码@登录ip:端口 没有端口的不用填
例:
url = ‘http://admin:12345@192.168.1.254’
browser.get(url)
这样就可以正常登录了

三. 页面元素获取文章来源地址https://www.toymoban.com/news/detail-617460.html

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver import ActionChains
from selenium.webdriver.support.select import Select
from selenium.webdriver.firefox.options import Options
import os
import time


url = 'http://admin:12345@192.168.1.254'

# 登录路由器管理页面  
def login():
    global browser,url,name,passwd
    try:
        # 实例化一个浏览器对象(传入浏览器的驱动程序)
        options = Options()
        options.add_argument('-headless') # 无头参数
        browser = webdriver.Firefox(options=options)
        browser.get(url)
        time.sleep(3)
        print(browser.title)
        iframe_sub0 = browser.find_elements(By.XPATH, '/html/frameset/frame[1]') 
        #print(len(iframe_sub0))
        browser.switch_to.frame(iframe_sub0[0])
        browser.find_elements(By.XPATH,'//*[@id="mynav7"]/span')[0].click()
        time.sleep(1)
        browser.switch_to.parent_frame()
        iframe_sub1 = browser.find_elements(By.XPATH, '/html/frameset/frame[2]')
        #print(len(iframe_sub1))
        browser.switch_to.frame(iframe_sub1[0])
        time.sleep(1)
        iframe_sub2 = browser.find_elements(By.XPATH, '/html/body/div/iframe')
        #print(len(iframe_sub2))
        browser.switch_to.frame(iframe_sub2[0])
        time.sleep(1)
        net_info = browser.find_elements(By.XPATH, '/html/body/pre')
        #print(len(net_info)) 
        print(net_info[0].text)        
        return 0
    except Exception as e:
        print(e)
        print("登录失败,请检查,用户名或者密码是否正确 !")
        return 1
if __name__=="__main__":
    login()    
    

到了这里,关于ubuntu上安装firefox geckodriver 实现爬虫的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Ubuntu卸载firefox浏览器安装google浏览器

            Ubuntu20.4系统,默认用的firefox浏览器,在2022.09.25日之后打开钉钉网页版,突然提示目前该浏览器不支持企业钉钉网页版了,请使用UC浏览器或google浏览器,之前firefox是支持打开钉钉网页版的,现在突然打不开有点不习惯,但是呢,如果两个浏览器同时安装使用的话

    2024年02月05日
    浏览(58)
  • 在OK3588的Ubuntu系统上安装Firefox浏览器

    因为Ubuntu系统里面没有安装浏览器,为了方便使用,提高工作效率,我们安装一下Firefox浏览器。 Firefox是一款适用于Ubuntu系统的免费和开源的Web浏览器。由Mozilla Foundation和其子公司Mozilla Corporation开发。Firefox以其强大的功能,强大的自定义能力,丰富的扩展插件,良好的隐私

    2024年02月16日
    浏览(41)
  • 爬虫小试 Selenium+Firefox

    ==  测试环境: 1)  Selenium:          pip config set global.index-url --site https://pypi.tuna.tsinghua.edu.cn/simple         pip install selenium hashlib xlrd xlwt pandas numpy hashlib           #chromedriver for version 解压chromedriver文件,放置chrome的安装目录下 https://edgedl.me.gvt1.com/edgedl/chrome/chrome

    2024年01月18日
    浏览(55)
  • Ubuntu卸载Firefox浏览器

    1.使用dpkg命令中的get命令,把选中的软件包列表打印到标准输出,同时使用grep过滤firefox安装信息。  2.卸载包 注意P要大写!!  

    2024年02月07日
    浏览(40)
  • 如何从Ubuntu Linux中删除Firefox Snap?

    Ubuntu Linux是一款广受欢迎的开源操作系统,拥有强大的功能和广泛的应用程序选择。默认情况下,Ubuntu提供了一种称为Snap的软件打包格式,用于安装和管理应用程序。Firefox是一款流行的开源网络浏览器,而Firefox Snap是Firefox的Snap版本。 如果您想从Ubuntu Linux系统中删除Firefox

    2024年02月14日
    浏览(37)
  • 记录一次Ubuntu下Firefox、Ubuntu software都打不开的解决方式

    不知道为什么我的火狐浏览器(自带的)不能打开了,本来想看看能不能通过 Ubuntu software 来修复一下,结果这货也打不开了! 尝试 我尝试使用apt/apt-get安装,但是显示的是找不到… 查看日志 我从菜单中 工具 目录看见有个 日志 ,我启动浏览器后发现有个报错: env: “/sn

    2024年02月15日
    浏览(48)
  • python爬虫进阶篇:Scrapy中使用Selenium模拟Firefox火狐浏览器爬取网页信息

    接着上一篇的笔记,Scrapy爬取普通无反爬、静态页面的网页时可以顺利爬取我们要的信息。但是大部分情况下我们要的数据所在的网页它是动态加载出来的(ajax请求后传回前端页面渲染、js调用function等)。这种情况下需要使用selenium进行模拟人工操作浏览器行为,实现自动化

    2024年02月04日
    浏览(78)
  • python爬虫进阶篇:Scrapy中使用Selenium+Firefox浏览器爬取沪深A股股票行情

    上篇记录了Scrapy搭配selenium的使用方法,有了基本的了解后我们可以将这项技术落实到实际需求中。目前很多股票网站的行情信息都是动态数据,我们可以用Scrapy+selenium对股票进行实时采集并持久化,再进行数据分析、邮件通知等操作。 详情请看上篇笔记 items middlewares setti

    2024年02月04日
    浏览(66)
  • Ubuntu 下 FireFox( 火狐 ) 浏览器不支持HTML5播放器解决方法

    终端输入   会出现正在设定 ttf-mscorefonts-installer 点【Tab】键,选中【确定】,然后单击【Enter】,选【是】,按【Enter】键,等待解压安装 重启浏览器ok了

    2024年04月14日
    浏览(49)
  • firefox笔记-Centos7离线安装firefox

    目前(2023-03-22 16:41:35)Centos7自带的firefox已经很新了是2020年的。主要原因是有个web项目,用2020年的firefox打不开。 发到互联网上是2023-07-24。 报错是js有问题,估计是搞前端的只做了chrome适应,没做firefox。 前端也不是我搞的,干脆用个最新的firefox。 Firefox 火狐浏览器 - 全新

    2024年02月16日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包