用selenium爬取直播信息(1),JavaScript中的innerHTML、value属性

这篇具有很好参考价值的文章主要介绍了用selenium爬取直播信息(1),JavaScript中的innerHTML、value属性。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

可以看到有标题,类型,姓名,以及热度,我们爬取这四个字段就行

然后滑到底部,这里的下一页是我们控制爬取页数的​

注意:当我们进入页面时,虽然有滚动条,但所有直播信息已经加载好,并不是通过滑动然后Ajax加载的,所以在代码中并不需要写滑动,直接提取就可以拿到整个页面的数据。

1.解析数据的函数


#解析数据的函数

def parse(self):

#强制等待两秒,等待页面数据加载完毕

sleep(2)

li_list = self.bro.find_elements_by_xpath(‘//*[@id=“listAll”]/section[2]/div[2]/ul/li’)

#print(len(li_list))

data_list = []

for li in li_list:

dic_data = {}

dic_data[‘title’] = li.find_element_by_xpath(‘./div/a/div[2]/div[1]/h3’).text

dic_data[‘name’] = li.find_element_by_xpath(‘./div/a/div[2]/div[2]/h2/div’).text

dic_data[‘art_type’] = li.find_element_by_xpath(‘./div/a/div[2]/div[1]/span’).text

dic_data[‘hot’] = li.find_element_by_xpath(‘./div/a/div[2]/div[2]/span’).text

data_list.append(dic_data)

return data_list

2.保存数据的函数


(1)保存为txt文本

#保存数据的函数

def save_data(self,data_list,i):

#在当前目录下将数据存为txt文件

with open(‘./douyu.txt’,‘w’,encoding=‘utf-8’) as fp:

for data in data_list:

data = str(data)

fp.write(data+‘\n’)

print(“第%d页保存完成!” % i)

(2)保存为json文件

#保存数据的函数

def save_data(self,data_list,i):

with open(‘./douyu.json’,‘w’,encoding=‘utf-8’) as fp:

#里面有中文,所以注意ensure_ascii=False

data = json.dumps(data_list,ensure_ascii=False)

fp.write(data)

print(“第%d页保存完成!” % i)

3.主函数设计


#主函数

def run(self):

#输入要爬取的页数,如果输入负整数,转化成她的绝对值

page_num = abs(int(input(“请输入你要爬取的页数:”)))

#初始化页数为1

i = 1

#判断输入的数是否为整数

if isinstance(page_num,int):

#实例化浏览器对象

self.bro = webdriver.Chrome(executable_path=‘…/…/可执行文件/chromedriver.exe’)

chromedriver.exe如果已添加到环境变量,可省略executable_path=‘…/…/可执行文件/chromedriver.exe’

self.bro.get(self.url)

while i <= page_num:

#调用解析函数

data_list = self.parse()

#调用保存函数

self.save_data(data_list,i)

try:

#定位包含“下一页”字段的按钮并点击

button = self.bro.find_element_by_xpath(‘//span[contains(text(),“下一页”)]’)

button.click()

i += 1

except:

break

self.bro.quit()

else:

print(“输入格式错误!”)

四、完整代码

======

from selenium import webdriver

from time import sleep

import json

#创建一个类

class Douyu():

def init(self):

self.url = ‘https://www.douyu.com/directory/all’

#解析数据的函数

def parse(self):

#强制等待两秒,等待页面数据加载完毕

sleep(2)

li_list = self.bro.find_elements_by_xpath(‘//*[@id=“listAll”]/section[2]/div[2]/ul/li’)

#print(len(li_list))

data_list = []

for li in li_list:

dic_data = {}

dic_data[‘title’] = li.find_element_by_xpath(‘./div/a/div[2]/div[1]/h3’).text

dic_data[‘name’] = li.find_element_by_xpath(‘./div/a/div[2]/div[2]/h2/div’).text

dic_data[‘art_type’] = li.find_element_by_xpath(‘./div/a/div[2]/div[1]/span’).text

dic_data[‘hot’] = li.find_element_by_xpath(‘./div/a/div[2]/div[2]/span’).text

data_list.append(dic_data)

return data_list

#保存数据的函数

def save_data(self,data_list,i):

#在当前目录下将数据存为txt文件

with open(‘./douyu.txt’,‘w’,encoding=‘utf-8’) as fp:

for data in data_list:

data = str(data)

fp.write(data+‘\n’)

print(“第%d页保存完成!” % i)

json文件的存法

with open(‘./douyu.json’,‘w’,encoding=‘utf-8’) as fp:

里面有中文,所以注意ensure_ascii=False

data = json.dumps(data_list,ensure_ascii=False)

fp.write(data)

print(“第%d页保存完成!” % i)

#主函数

def run(self):

#输入要爬取的页数,如果输入负整数,转化成她的绝对值

page_num = abs(int(input(“请输入你要爬取的页数:”)))

#初始化页数为1

i = 1

#判断输入的数是否为整数

if isinstance(page_num,int):

#实例化浏览器对象

self.bro = webdriver.Chrome(executable_path=‘…/…/可执行文件/chromedriver.exe’)

chromedriver.exe如果已添加到环境变量,可省略executable_path=‘…/…/可执行文件/chromedriver.exe’

self.bro.get(self.url)

while i <= page_num:

#调用解析函数

data_list = self.parse()

#调用保存函数

self.save_data(data_list,i)

try:

#定位包含“下一页”字段的按钮并点击

button = self.bro.find_element_by_xpath(‘//span[contains(text(),“下一页”)]’)

button.click()

i += 1

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数前端工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Web前端开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

用selenium爬取直播信息(1),JavaScript中的innerHTML、value属性,程序员,selenium,javascript,测试工具

用selenium爬取直播信息(1),JavaScript中的innerHTML、value属性,程序员,selenium,javascript,测试工具

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

用selenium爬取直播信息(1),JavaScript中的innerHTML、value属性,程序员,selenium,javascript,测试工具

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你觉得这些内容对你有帮助,可以扫码获取!!(备注:前端)

用selenium爬取直播信息(1),JavaScript中的innerHTML、value属性,程序员,selenium,javascript,测试工具

结尾

正式学习前端大概 3 年多了,很早就想整理这个书单了,因为常常会有朋友问,前端该如何学习,学习前端该看哪些书,我就讲讲我学习的道路中看的一些书,虽然整理的书不多,但是每一本都是那种看一本就秒不绝口的感觉。

以下大部分是我看过的,或者说身边的人推荐的书籍,每一本我都有些相关的推荐语,如果你有看到更好的书欢迎推荐呀。

戳这里免费领取前端学习资料

如果你觉得这些内容对你有帮助,可以扫码获取!!(备注:前端)

用selenium爬取直播信息(1),JavaScript中的innerHTML、value属性,程序员,selenium,javascript,测试工具

结尾

正式学习前端大概 3 年多了,很早就想整理这个书单了,因为常常会有朋友问,前端该如何学习,学习前端该看哪些书,我就讲讲我学习的道路中看的一些书,虽然整理的书不多,但是每一本都是那种看一本就秒不绝口的感觉。

以下大部分是我看过的,或者说身边的人推荐的书籍,每一本我都有些相关的推荐语,如果你有看到更好的书欢迎推荐呀。

戳这里免费领取前端学习资料

用selenium爬取直播信息(1),JavaScript中的innerHTML、value属性,程序员,selenium,javascript,测试工具文章来源地址https://www.toymoban.com/news/detail-858265.html

到了这里,关于用selenium爬取直播信息(1),JavaScript中的innerHTML、value属性的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 用selenium爬取知网信息(五)

    总结一下: 十四、 Selenium的一些常用语法和方法 语法/方法 描述 from selenium import webdriver 导入Selenium库 from selenium.webdriver.common.by import By 导入定位策略的枚举类 from selenium.webdriver.support.ui import WebDriverWait 导入等待元素加载的类 from selenium.webdriver.support import expected_conditions as E

    2024年02月20日
    浏览(28)
  • 【爬虫】7.2. JavaScript动态渲染界面爬取-Selenium实战

    爬取的网页为:https://spa2.scrape.center,里面的内容都是通过Ajax渲染出来的,在分析xhr时候发现url里面有token参数,所有我们使用selenium自动化工具来爬取JavaScript渲染的界面。

    2024年02月10日
    浏览(39)
  • 基于selenium爬取去哪儿酒店信息

    去哪儿网站中,要爬取旅游的酒店信息,我们用通常的requests库进行爬取的时候发现,当我们要翻页的时候网址未出现变化,返回的网页源码信息始终只有第一页的内容,那么有没有一种方式可以使得能够翻页爬取呢?这时候我们要用爬虫常用的selenium框架进行爬取了,下面就

    2024年02月09日
    浏览(36)
  • selenium自动翻页爬取数据信息

    运行结果: 运行结果:  

    2024年02月11日
    浏览(38)
  • Selenium Python 实战:爬取个股实时信息

    Selenium是广泛使用的开源Web UI(用户界面)自动化测试套件之一。支持Chrome, Edge, Firfox等常见浏览器。除用于web应用程序自动化测试外,Selenium 也适合用于抓取JavaScript 动态网页数据。 本文演示如何使用 Selenium python库编程来爬取个股数据。 用pip安装 selenium库 下载浏览器的驱动

    2024年01月23日
    浏览(33)
  • Selenium定向爬取PubMed生物医学摘要信息

    目录 一、前言 1、PubMed是什么? 2、PubMed特点 二、实现代码 三、分析HTML

    2024年02月08日
    浏览(44)
  • Selenium+Chrome Driver 爬取搜狐页面信息

    安装selenium包 在命令行或者 anaconda prompt 中输入 pip install Selenium 安装 chromedriver 先查看chrome浏览器的版本 这里是 123.0.6312.106 版 然后在 http://npm.taobao.org/mirrors/chromedriver/ 或者 https://googlechromelabs.github.io/chrome-for-testing/ 中下载对应版本的 chromediver 由于没有106版的这里下的是105版

    2024年04月26日
    浏览(36)
  • 爬虫项目实战2.1 Selenium爬取Boss招聘信息

    完成: 1.爬取信息 2.基于爬取结果筛选符合条件的信息    岗位名称、薪资、岗位要求、地区、公司名称、公司规模、细节链接 3.筛选base杭州的岗位保存到csv文件中 But容易出现网络不稳定造成的无法定位元素所在位置的情况,小范围爬取可以 4.基于csv分析后续

    2024年02月05日
    浏览(40)
  • Selenium介绍--实例爬取京东商品信息与图片

    目录 一、Selenium简介 二、Selenium组成 三、Selenium特点 四、Selenium的基本使用 1.下载所用浏览器需要的驱动 2.创建项目并导入依赖 3.入门 3.代码演示 五、实例爬取京东商品信息与图片 _ 5.1 执行效果 操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chr

    2023年04月08日
    浏览(32)
  • 用selenium去爬取大麦网页面的演唱会信息

    利用selenium.webdriver爬取大麦网页面演唱会信息,信息包括: 演唱会标题、时间、价钱、地点、图片、网址。 操作环境: 1. Window10;  2. python3.9;   3. PycharmIDE 第三方库版本: 1. selenium 4.1.1 2. requests 2.28.1 本实验主要利用Goggle chrome浏览器进行,其中 浏览器版本为118开头 ,可在设

    2024年02月02日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包