Airtest-Selenium实操小课①:爬取新榜数据

这篇具有很好参考价值的文章主要介绍了Airtest-Selenium实操小课①:爬取新榜数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

此文章来源于项目官方公众号:“AirtestProject”
版权声明:允许转载,但转载必须保留原链接;请勿用作商业或者非法用途

1. 前言

最近看到群里很多小伙伴都在用Airtest-Selenium做一些web自动化的尝试,正好趁此机会,我们也出几个关于web自动化的实操小课,仅供大家参考~

今天跟大家分享的是一个非常简单的爬取网页信息的小练习,在百度找到新榜网页,搜索关键词“自动化”,爬取前5名的公众号名称。

2. 需求分析和准备

整体的需求大致可以分为以下步骤:

  • 打开chrome浏览器
  • 打开百度网页
  • 搜索“新榜官网”
  • 点击“找达人”按钮
  • 搜索关键词“自动化”
  • 爬取排名前5的公众号名称

在写脚本之前,我们需要准备好社区版AirtestIDE,设置好chrome.exe和对应的driver;并且确保我们的chrome浏览器版本不是太高以及selenium是4.0以下即可(这些兼容问题我们都会在后续的版本修复)。

3. 脚本实现

3.1 完整示例代码

接下来就可以着手写脚本啦,关于web自动化脚本,我们可以借助IDE的selenium Window ,方便我们录制控件信息和快速使用常用接口:

Airtest-Selenium实操小课①:爬取新榜数据

完整的参考代码如下:

# -*- encoding=utf8 -*-
__author__ = "AirtestProject"

from airtest.core.api import *
from airtest_selenium.proxy import WebChrome
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

"""
任务描述:打开chrome浏览器,打开百度搜索新榜,进入新榜搜索关键词“自动化”,爬取自动化综合排名前10的公众号名称
https://www.newrank.cn/search/gongzhonghao/%E8%87%AA%E5%8A%A8%E5%8C%96
"""
def start_selenium():
    # 创建一个实例,代码运行到这里,会打开一个chrome浏览器
    driver = WebChrome()
    driver.implicitly_wait(20)

    driver.get("https://www.baidu.com/")
    # 输入搜索关键词并提交搜索
    search_box = driver.find_element_by_name('wd')
    search_box.send_keys('新榜官网')
    search_box.submit()
    # 使用XPath查找文本为 "上海新榜信息技术股份" 的元素并点击
    try:
        element = driver.find_element_by_xpath("//div[@id='content_left']/div[@id='1']/div[@class='c-container']/div[1]/h3[@class='c-title t t tts-title']/a")
    except Exception as e:
        element = driver.find_element_by_xpath('//*/text()[normalize-space()="上海新榜信息技术股份"]/parent::*')
    element.click()
    # 获取所有窗口句柄
    window_handles = driver.window_handles
    # 切换到新打开的窗口
    driver.switch_to.window(window_handles[1])
    # 获取新页面的链接
    new_page_url = driver.current_url
    # 打印新页面的链接
    print(new_page_url)
    driver.get(new_page_url)
    # # 在主内容内部查找 "找达人" 按钮并点击
    search_box = driver.find_element_by_xpath('//button[@class="ant-btn ant-btn-primary ant-btn-lg index_searchBtn__c3q_1"]//a')

    print(search_box.text)
    # 获取a标签的URL
    url = search_box.get_attribute('href')
    # 打印URL
    print(url)
    driver.get(url)  # 请求搜索链接-跳转
    # 输入搜索关键词并提交搜索
    search_box = driver.find_element_by_id('rc_select_0')
    # 模拟发送Backspace键
    search_box.send_keys(Keys.BACKSPACE)  # 清空内容
    search_box.send_keys(Keys.BACKSPACE)
    search_box.send_keys('自动化')
    # 模拟发送Enter键
    search_box.send_keys(Keys.ENTER)
    sleep(5)
    list_date = driver.find_elements(By.XPATH, "//div[@class='ant-spin-container']//li")
    for item in list_date:
        name_str = item.find_element_by_class_name("index_name__Fk83i")
        print(name_str.text)

if __name__ == "__main__":
    start_selenium()

3.2 重要知识点

1)创建实例并打开浏览器
driver = WebChrome()
2)打开网页
driver.get("https://www.baidu.com/")
3)元素定位
driver.find_element_by_xpath('//button[@class="ant-btn ant-btn-primary ant-btn-lg index_searchBtn__c3q_1"]//a')

更多定位方式可以在官方教程学习:https://python-selenium-zh.readthedocs.io/zh_CN/latest/ 。

4)模拟按键输入
search_box = driver.find_element_by_name('wd')
search_box.send_keys('新榜官网')
5)模拟回车
search_box = driver.find_element_by_name('wd')
search_box.submit()
6)模拟键盘事件
search_box = driver.find_element_by_id('rc_select_0')
# 模拟发送Backspace键
search_box.send_keys(Keys.BACKSPACE)

4. 注意事项与小结

4.1 相关教程

  • 如何使用AirtestIDE生产web自动化脚本
  • 如何设置chromedriver以及一些常见的web脚本问题
  • 为什么AirtestIDE无法检索web控件?

4.2 参考脚本的有效性

请同学们不要过多依赖于我们给出的参考脚本,通常情况下,网页的控件信息可能会随着前端的改动而更新,所以我们的教程并不是永久有效的。

更多的是参考整体脚本的知识点,查漏补缺,让自己在小实践中对web自动化的熟练程度更高。也非常欢迎热心同学给我们投稿~


AirtestIDE下载:airtest.netease.com/
Airtest 教程官网:airtest.doc.io.netease.com/
搭建企业私有云服务:airlab.163.com/b2b

官方答疑 Q 群:117973773文章来源地址https://www.toymoban.com/news/detail-760351.html

到了这里,关于Airtest-Selenium实操小课①:爬取新榜数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Airtest-Selenium实操小课③:下载可爱猫猫图片

    此文章来源于项目官方公众号:“AirtestProject” 版权声明:允许转载,但转载必须保留原链接;请勿用作商业或者非法用途 上次实操小课分享,我们分享了如何使用Airtest-selenium实现自动化刷B站,还没看的同学可以戳这里回顾一下~ 那么这周我们看看如何实现使用Airtest-Selen

    2024年01月25日
    浏览(37)
  • Airtest-Selenium升级兼容Selenium 4.0,给你全新体验!

    此文章来源于项目官方公众号:“AirtestProject” 版权声明:允许转载,但转载必须保留原链接;请勿用作商业或者非法用途 在上期更新推文中提到,我们Airtest-Selenium更新到了1.0.6版本,新增支持Selenium4.0的语法,那么我们来看一下Airtest-Selenium更新后有什么新的内容吧~ seleni

    2024年03月14日
    浏览(40)
  • 零基础学会用Airtest-Selenium对Firefox进行自动化测试

    本文将详细介绍如何使用AirtestIDE驱动Firefox测试,以及脱离AirtestIDE怎么驱动Firefox(VScode为例)。 看完本文零基础小白也能学会Firefox浏览器自动化测试!!! 对于Web自动化测试,目前AirtestIDE支持chrome浏览器和Firefox2种浏览器,关于如何驱动chrome浏览器,之前我们的推文已经做

    2024年02月08日
    浏览(117)
  • Airtest全新升级兼容Selenium 4.0,快来看看更新的内容吧

    在上周更新推文中提到,我们Airtest-Selenium更新到了1.0.6版本,新增支持Selenium4.0的语法,那么我们来看一下Airtest-Selenium更新后有什么新的内容吧~ selenium4.0最主要的还是定位元素方法的更新,与旧版本的selenium代码写法存在一些差异,变得更简洁明了。 1. 定位单个元素方法的更

    2024年03月26日
    浏览(41)
  • 【自动化测试入门】用Airtest - Selenium对Firefox进行自动化测试(0基础也能学会)

    本文将详细介绍如何使用AirtestIDE驱动Firefox测试,以及脱离AirtestIDE怎么驱动Firefox(VScode为例)。看完本文零基础小白也能学会Firefox浏览器自动化测试!!! 对于Web自动化测试,目前AirtestIDE支持chrome浏览器和Firefox2种浏览器,今天我们重点聊一下,如何使用AirtestIDE驱动Firef

    2024年02月07日
    浏览(44)
  • selenium爬取有道翻译

    目录 什么是selenium? 如何使用和安装浏览器驱动? 第一步:可以到pycharm的环境下到终端去pip install selenium即可安装,也可到cmd中做。 第二步:  安装浏览器驱动需要查看自己浏览器的版本号对应下载 第三步给浏览器驱动配置环境变量  第四步在pycharm中执行下列代码,测试

    2024年02月02日
    浏览(40)
  • selenium京东商城爬取

     该项目主要参考与:http://c.biancheng.net/python_spider/selenium-case.html 你看完上述项目内容之后,会发现京东登录是一个比较坑的点,selenium控制浏览器没有登录京东,导致我们自动爬取网页被重定向到京东登录注册页面。 因此,我们要单独能一个登录注册。 但是,发现京东的验证功

    2024年02月07日
    浏览(44)
  • 【Selenium爬取小说】

    找到你所需要的网站 然后进行分析检查 。 ==注意: 进行搜索元素时 会有一个ctrl+f的操作 看class 或者 id 后面等于的值的时候 match 不一定是1 但是只要 这个标签下id=的这个值是唯一标识的即可 ,因为你搜索的是全部的整个页面下的这个值 但是class[id=xxx]这个会可能是唯一的。

    2024年02月04日
    浏览(39)
  • selenium+beautifulsoup数据爬取

    ## 准备工作 ### 1、安装selenium ``` pip install selenium ``` ### 2、安装浏览器driver(以Edge浏览器为例)   * 打开edge浏览器,然后“帮助和反馈”-“关于Microsoft Edge”,查看浏览器版本,根据版本号下载driver       ![Micro.png](https://tva1.sinaimg.cn/large/005T39qaly1h3g2mw4k5gj30qo0ba41d.jpg) * 打开网站

    2024年03月21日
    浏览(43)
  • Selenium实战之Python+Selenium爬取京东商品数据

    实战目标:爬取京东商品信息,包括商品的标题、链接、价格、评价数量。 代码核心在于这几个部分: 其一:使用元素定位来获取页面上指定需要抓取的; 其二:将页面上定位得到的数据永久存储到本地文件中。 具体来梳理一下从访问URL开始到爬取数据整个流程下来

    2023年04月13日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包