运用了selenium的爬虫技术

这篇具有很好参考价值的文章主要介绍了运用了selenium的爬虫技术。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

from selenium import webdriver
from selenium.webdriver.edge.service import Service
from selenium.webdriver.common.by import By
wd=webdriver.Edge(service=Service(r'D:\360安全浏览器下载\edgedriver_win64\msedgedriver.exe'))
wd.get('网站地址')
element=wd.find_element(By.ID,'ID号')
element.send_keys('你要输入的内容\n')
input()

这里input()是为了延迟程序,避免网站打开后自动关闭

注意像这种模拟浏览器的操作尽量在pycharm中使用,jupyter操作起来会很慢。

注意一下如果在pycharm可以进行断点调试,在代码左边设置一个断点,然后F9继续执行,可以观察到浏览器是如何输入了你输入的内容。

import time
from selenium import webdriver
from selenium.webdriver.edge.service import Service
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
wd=webdriver.Edge(service=Service(r'D:\360安全浏览器下载\edgedriver_win64\msedgedriver.exe'))
wd.get('网站地址')
try:
    element=wd.find_element(By.ID,'ID号')
    element.send_keys('你要输入的内容')
    time.sleep(10)
    element2=wd.find_element(By.ID,'search-bt')
    element2.click()
    time.sleep(10)
except NoSuchElementException:
    print('opps!')
wd.quit()

刚才是用换行符来进行搜索,这次是用点击的方式来搜索。

import time
from selenium import webdriver
from selenium.webdriver.edge.service import Service
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
wd=webdriver.Edge(service=Service(r'D:\360安全浏览器下载\edgedriver_win64\msedgedriver.exe'))
wd.implicitly_wait(5)
wd.get('http://eco.hust.edu.cn/info/1154/14684.htm')
try:
    elements=wd.find_elements(By.XPATH,'//a[contains(text(), "附件")]')
    for element in elements:
        print(element.text)
        element.click()
        time.sleep(5)
except NoSuchElementException:
    print('opps!')
wd.quit()

这个是解决点击链接下载文件的代码。

注意几点。

1.

在很多编程语言中,如Python, Java等,单引号(')和双引号(")都被认为是字符串的开始和结束标识。

当你在字符串中使用单引号(')时,如果字符串内部也使用单引号('),那么就需要采取一些措施,否则编译器会认为字符串在此结束。这也就是为什么你在输入汉字时会报错,因为在默认情况下,编译器会认为你正在试图使用一个以单引号(')开始和结束的字符串,而中间的汉字并不是有效的字符串内容。

而当使用双引号(")时,情况则稍有不同。在很多编程语言中,双引号(")通常被用来表示字符串,特别是在需要包含特殊字符(如单引号(')或双引号("))时。所以,当你在字符串中使用双引号(")时,如果字符串内部也使用双引号("),那么通常不会出现问题。所以,这里附件是要用双引号括起来,否则会报错。

2.

这里xpath语法注意下,我是通过a标签的文本内容来寻找a标签的。没有@text的用法。

3.

通过爬虫下载的文件保存地址可能和你用浏览器下载默认地址不同。文章来源地址https://www.toymoban.com/news/detail-769225.html

到了这里,关于运用了selenium的爬虫技术的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python自动化测试工具selenium

    selenium 是网页应用中最流行的自动化测试工具,可以用来做自动化测试或者浏览器爬虫等。官网地址为:Selenium。相对于另外一款web自动化测试工具QTP来说有如下优点: 免费开源轻量级,不同语言只需要一个体积很小的依赖包 支持多种系统,包括Windows,Mac,Linux 支持多种浏

    2024年02月08日
    浏览(81)
  • 一文详解:自动化测试工具——Selenium

    Selenium是一个用于Web应用程序测试的工具。是一个开源的Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium可以直接运行在浏览器上,它支持所有主流的浏览器,支持的浏览器包括IE(7, 8,

    2024年01月16日
    浏览(55)
  • 自动化测试工具-Selenium:Selenium的核心三大组件详解

    目录 1. WebDriver 1.1 WebDriver的通信方式 1.2 WebDriver的功能 1.3 W3C推荐标准 2. Grid 3. IDE Selenium 是支持 web 浏览器自动化的一系列工具和库的综合项目。官方对Selenium认可的三大组件或API分别是: WebDriver、Selenium IDE、Grid。 其中,WebDriver又被称为Selenium的核心。 下面本篇文章将深度介

    2024年02月03日
    浏览(43)
  • 自动化测试工具Selenium的语法续.

    OK,那么上篇博客我们介绍了如何搭建基于Java+selenium的环境,并且使用selenium的一些语法给大家演示了如何进行自动化测试的案例,那么本篇博客我们来继续学习selenium的一些其他的比较重要的语法,感谢关注,期待三连~ 目录 一、定位一组元素 二、下拉框处理 三、上传文件

    2024年02月10日
    浏览(56)
  • 自动化测试工具selenium的安装方法

    一、什么是selenium Selenium 是一套 Web网站 的程序自动化操作 解决方案。 通过它,我们可以写出自动化程序,像人一样在浏览器里操作web界面。 比如点击界面按钮,在文本框中输入文字 等操作。 Selenium 通过使用  WebDriver  支持市场上所有主流浏览器的自动化。 Webdriver 是一个

    2024年02月09日
    浏览(45)
  • 自动化测试工具Selenium的基本使用方法,软件测试基础

    browser.find_element(By.ID,‘kw’).send_keys(“美女”) browser.find_element_by_id(‘kw’).send_keys(‘性感’) 2.通过标签name属性进行定位 browser.find_element_by_name(“wd”).send_keys(“Linux”) browser.find_element(By.NAME,‘wd’).send_keys(“美女”) 3.通过标签名进行定位 browser.find_element_by_tag_name(“input”).

    2024年04月22日
    浏览(63)
  • Web应用程序测试工具Selenium用法详解

    目录 一、引言 二、Selenium简介 三、Selenium安装与配置 1、安装Selenium 2、配置浏览器驱动 3、配置测试环境 四、Selenium用法详解 1、导入Selenium库和浏览器驱动 2、启动浏览器并打开网页 3、定位元素 4、执行操作 5、断言与验证 6、等待与隐式等待 7、关闭浏览器 五、总结与建议

    2024年02月02日
    浏览(61)
  • Selenium教程:自动化浏览器测试工具

    Selenium是一款用于自动化浏览器测试的工具,它提供了一系列的API和功能,使得开发人员可以编写脚本来模拟用户在浏览器中的行为。无论是在Web应用程序的功能测试、性能测试还是数据抓取方面,Selenium都是一个强大且广泛使用的工具。 在开始使用Selenium之前,您需要进行安

    2024年02月07日
    浏览(75)
  • 自动化测试工具之Selenium IDE录制教程

            下载传送带:Selenium IDE · Open source record and playback test automation for the web         这里Darren洋以firefox火狐浏览器为例,将以上下载url直接在firefox浏览器中打开,点击对应下载按钮后,就会进入添加页面。         这里直接点击添加到Firefox浏览器的按钮即可,谷歌浏

    2024年02月08日
    浏览(42)
  • Python自动化测试工具selenium使用指南

    概述 selenium 是网页应用中最流行的自动化测试工具,可以用来做自动化测试或者浏览器爬虫等。官网地址为:相对于另外一款web自动化测试工具QTP来说有如下优点: 免费开源轻量级,不同语言只需要一个体积很小的依赖包 支持多种系统,包括Windows,Mac,Linux 支持多种浏览器

    2024年02月04日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包