selenium爬取网页内容,对网页内容进行点击

这篇具有很好参考价值的文章主要介绍了selenium爬取网页内容,对网页内容进行点击。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

所需要的库

import time

from selenium import webdriver
from selenium.webdriver.common.by import By

首先明确所要爬取的网页,选择调用方法,增加无界面模式的无头参数,然后调用,获取网址,使页面放大,为最大化窗口

url="https://maoyan.com/board/4"
options=webdriver.ChromeOptions()#选择调用方法
options.add_argument("--headless")#无界面模式的无头参数
driver=webdriver.Chrome(options=options)#让无参数调用
driver.get(url)#打开页面输入地址并确认
driver.maximize_window()#使页面放大,最大化页面窗口
time.sleep(3)#停留时间

获取数据运用XPATH函数,将获取的数据作为item,运用XPATH函数获取,

//*[@id='app']/div/div/div[1]/dl/dd为运用谷歌浏览器,在更多工具中找到开发者工具,点击图片选择的位置,将鼠标放在你想要爬取的数据上点击,自动跳转代码,查看代码,对代码行进行右击,选择copy,copy xpath。

获取到网页的element后要进行点击,selenium,python,爬虫

 文章来源地址https://www.toymoban.com/news/detail-799035.html

def get_data():
    item_list=driver.find_elements(By.XPATH,"//*[@id='app']/div/div/div[1]/dl/dd")#xpath是数字是div,selector是函数直接是class里的
    for list in item_list:
        item={}
        info_list=list.text.split("\n")#每爬取一行换行
        item['number']=info_list[0]
        item['name'] = info_list[1]
        item['star'] = info_list[2]
        item['time'] = info_list[3]
        item['score'] = info_list[4]
        print(item)
    pass

模仿人点击下一页,运用 for语句,每10个一点,停留5秒

for i in range(10):
    time.sleep(5)
    get_data()
    driver.find_element(By.LINK_TEXT,"下一页").click()
time.sleep(10)
driver.quit()#结束

同样寻找下一页所在位置,如果是这样写By.LINK_TEXT,click()为点击的意思

获取到网页的element后要进行点击,selenium,python,爬虫

如果是如下界面,注意ID位置,有ID写ID,没有就写By.LINK_TEXT,click()。例如

driver.find_element(By.ID,"su").click()

获取到网页的element后要进行点击,selenium,python,爬虫

.send_key写内容例如,同样注重ID

driver.find_element(By.ID,"kw").send_keys("白鹿")

 代码总结

import time

from selenium import webdriver
from selenium.webdriver.common.by import By
url="https://maoyan.com/board/4"
options=webdriver.ChromeOptions()#调用方法
options.add_argument("--headless")#无界面模式无头参数
driver=webdriver.Chrome(options=options)#让无参数调用

driver.get(url)#打开页面输入地址并确认
driver.maximize_window()#使页面放大,最大化页面窗口
time.sleep(3)#
def get_data():
    item_list=driver.find_elements(By.XPATH,"//*[@id='app']/div/div/div[1]/dl/dd")#xpath是数字是div,selector是函数直接是class里的
    for list in item_list:
        item={}
        info_list=list.text.split("\n")
        item['number']=info_list[0]
        item['name'] = info_list[1]
        item['star'] = info_list[2]
        item['time'] = info_list[3]
        item['score'] = info_list[4]
        print(item)


    pass
#模仿点击下一页
for i in range(10):
    time.sleep(5)
    get_data()
    driver.find_element(By.LINK_TEXT,"下一页").click()
time.sleep(10)
driver.quit()#结束

如果有错误请告诉一下,谢谢!

 

到了这里,关于selenium爬取网页内容,对网页内容进行点击的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 爬虫:使用Selenium模拟人工操作及获取网页内容

    结合自身经验和内部资料总结的Python教程,每天3-5章,最短1个月就能全方位的完成Python的学习并进行实战开发,学完了定能成为大佬!加油吧!卷起来! 全部文章请访问专栏:《Python全栈教程(0基础)》 再推荐一下最近热更的:《大厂测试高频面试题详解》 该专栏对近年

    2024年02月13日
    浏览(36)
  • 爬虫(三):使用Selenium模拟人工操作及获取网页内容

    结合自身经验和内部资料总结的Python教程,每天3-5章,最短1个月就能全方位的完成Python的学习并进行实战开发,学完了定能成为大佬!加油吧!卷起来! 全部文章请访问专栏:《Python全栈教程(0基础)》 再推荐一下最近热更的:《大厂测试高频面试题详解》 该专栏对近年

    2024年02月11日
    浏览(33)
  • requests或selenium获取网页内容不全问题(非异步加载)

    最近用python做脚本的时候,发现了一个问题,就是获取的网页并不全。可能原因之一是页面内容过大,无法加载全部到内存中 下面的解决方法只针对静态加载页面(有的网页是动态加载数据,需要查看对应的js请求或者用selenium来获取就好)。 解决方法为放入文件里,再读取

    2024年01月25日
    浏览(42)
  • 一个月学通Python(三十四):使用Selenium模拟人工操作及获取网页内容

    结合自身经验和内部资料总结的Python教程,每天3-5章,最短1个月就能全方位的完成Python的学习并进行实战开发,学完了定能成为大佬!加油吧!卷起来! 全部文章请访问专栏:《Python全栈教程(0基础)》 再推荐一下最近热更的:《大厂测试高频面试题详解》 该专栏对近年

    2024年02月13日
    浏览(48)
  • scrapy爬虫爬取多网页内容

    摘要 :此案例是爬取目标网站( https://tipdm.com/ )的 新闻中心 板块的 公司新闻 中所有新闻的标题、发布时间、访问量和新闻的文本内容。 我使用的是 Anaconda prompt 我们使用如下命令创建scrapy项目: scrapy startproject spider_name 爬虫路径 spider_name 是项目的名字 爬虫路径 就是项目

    2023年04月21日
    浏览(33)
  • Python爬取网页Flex渲染的动态内容

    我最近使用Python爬取网页内容时遇到Flex渲染的动态页面,比如下图的课程目录标题,此时按鼠标右键,菜单里没有复制链接的选项。 我的目的是:获取各个视频标题、链接。 按F12进入开发者模式分析网页,可见有多个flex标签,像这种通过flex动态渲染的网页,视频链接隐藏

    2024年02月04日
    浏览(41)
  • 【爬虫】5.5 Selenium 爬取Ajax网页数据

    目录   AJAX 简介 任务目标 创建Ajax网站 创建服务器程序 编写爬虫程序         AJAX(Asynchronous JavaScript And XML,异步 JavaScript 及 XML) Asynchronous 一种创建 交互式 、 快速动态 网页应用的网页开发技术 通过在后台与服务器进行少量数据交换,无需重新加载整个网页的情况下

    2024年02月10日
    浏览(37)
  • Python实战:用Selenium爬取网页数据

    网络爬虫是Python编程中一个非常有用的技巧,它可以让您自动获取网页上的数据。在本文中,我们将介绍如何使用Selenium库来爬取网页数据,特别是那些需要模拟用户交互的动态网页。 Selenium是一个自动化测试工具,它可以模拟用户在浏览器中的操作,比如点击按钮、填写表

    2024年02月06日
    浏览(38)
  • python基于Selenium方法爬取网页图片

    selenium是一个用于web应用程序的自动化测试工具,通过Selenium可以写出自动化程序,拟人在浏览器对网页进行操作。selenium可以编写出自动化程序,简化手动保存的部分。 requests库可以向第三方发送http请求,是一个用于网络请求的模块,通常以GET方式请求特定资源,请求中不应

    2024年02月03日
    浏览(52)
  • python爬虫实战 scrapy+selenium爬取动态网页

    最近学习了scrapy爬虫框架,想要找个目标练练手。由于现在很多网页都是动态的,因此还需要配合selenium爬取。本文旨在记录这次学习经历,如有疑问或不当之处,可以在评论区指出,一起学习。 对scrapy不了解的同学可以阅读这篇文章 爬虫框架 Scrapy 详解,对scrapy框架介绍的

    2024年02月07日
    浏览(70)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包