【python】使用Selenium获取(2023博客之星)的参赛文章

这篇具有很好参考价值的文章主要介绍了【python】使用Selenium获取(2023博客之星)的参赛文章。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


【python】使用Selenium获取(2023博客之星)的参赛文章,python案例分析归纳,python,selenium,开发语言,腾讯云,小白必看,原力计划

前言

2023博客之星活动已经过了半年之久,出于好奇,想看看目前为止到底有多少人参与了, 由于小助手每次只发单独赛道的, 因此无法窥其全貌,进行对比, 因此写了这个脚本,来分析一下, 看到结果之后, 很想放弃啊, 太卷了.

导入模块

from selenium import webdriver
import json
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
import time
from datetime import datetime
import pandas as pd
from openpyxl import Workbook, load_workbook
  • 这一部分代码导入了所需的模块,其中包括selenium、json、time、datetime、pandas和openpyxl。

设置ChromeDriver路径和创建WebDriver对象

driver_path = ''
driver = webdriver.Chrome(driver_path)
  • 这部分代码设置了ChromeDriver的路径,并创建了一个Chrome WebDriver对象,用于操作浏览器。

打开网页

url = 'https://bbs.csdn.net/forums/blogstar2023?typeId=3092730&spm=1001.2014.3001.9616'
driver.get(url)
time.sleep(5)
  • 这部分代码通过get()方法打开了指定的网页,并使用time.sleep()方法等待5秒钟以确保页面加载完成。

找到结果元素

results = driver.find_element(By.CLASS_NAME, "user-tabs").find_elements(By.CLASS_NAME, "tab-list-item")
  • 这部分代码通过find_element()方法定位Class名字为"user-tabs"的元素,并通过find_elements()方法查找其下所有Class名字为"tab-list-item"的元素,将结果保存在results变量中。

创建一个空列表用于存储数据

data = []
  • 这部分代码创建了一个空列表data,用于存储数据。

获取当前日期和时间

current_datetime = datetime.now()
current_date = current_datetime.date()
  • 这部分代码获取了当前的日期。

创建一个新的 Excel 文件

result_workbook = Workbook()
result_sheet = result_workbook.active
  • 这部分代码使用openpyxl库的Workbook函数创建了一个新的Excel文件和一个工作表,并使用active属性获取默认的工作表。

写入标题行

result_sheet.append(['排名',"用户名","总原力值","当月获得原力值","2023年获得原力值","2023年高质量博文数"])
  • 这部分代码使用append()方法将标题写入工作表的第一行。

遍历结果元素并提取数据

for result in results:
    time.sleep(5)
    
    title = result.find_element(By.CLASS_NAME, 'content-wrapper').find_element(By.CLASS_NAME, 'long-text-title').text
    link = result.find_element(By.CLASS_NAME, 'content-wrapper').find_element(By.CLASS_NAME, 'align-items-center').get_attribute("href")
    if str(current_date) in title:
        item = {
            'title': title,  # 标题
            'link': link
        }
        data.append(item)
    else:
        print(f'不是今天的不做处理. 标题{title}')
  • 这部分代码使用for循环遍历结果元素列表,并使用find_element()方法提取每个元素中的标题和链接信息。如果标题包含当前日期,则将标题和链接以字典的形式存储在data列表中。否则,输出一条消息。

输出data列表

print(data)
  • 这部分代码输出data列表,显示提取的数据。

创建一个空的DataFrame来存储数据

df = pd.DataFrame(columns=["Link", "Content"])
  • 这部分代码使用pandas的DataFrame函数创建了一个空的DataFrame,用于存储数据。

遍历链接并爬取数据

for item in data:
    print(item['link'])
    driver.get(item['link'])
    time.sleep(5)
    table_element = driver.find_element(By.CLASS_NAME, 'markdown_views').find_element(By.TAG_NAME, 'table')
    rows = table_element.find_elements(By.TAG_NAME, 'tr')
    for row in rows:
        row_data = []
        columns = row.find_elements(By.TAG_NAME, 'td')
        for column in columns:
             cell_data = column.text
             row_data.append(cell_data)
             print(cell_data)
        result_sheet.append(row_data)
  • 这部分代码使用for循环遍历data列表中的每个元素,获取其链接并导航到该链接。然后从页面中找到标签为table的元素,并遍历表格的行和列,将单元格中的数据保存在row_data列表中,然后将row_data添加到result_sheet工作表中。

关闭浏览器驱动

driver.quit()
  • 这部分代码关闭了浏览器驱动,释放资源。

保存结果到一个新的 Excel 文件

result_workbook.save('博客之星.xlsx')
  • 这部分代码使用save()方法将result_workbook保存为名为"博客之星.xlsx"的Excel文件。

完整代码如下

from selenium import webdriver
import json
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
import time
from datetime import datetime
import pandas as pd
from openpyxl import Workbook, load_workbook

# 设置ChromeDriver的路径
driver_path = ''

# 创建Chrome WebDriver对象
driver = webdriver.Chrome(driver_path)

# 打开网页
url = 'https://bbs.csdn.net/forums/blogstar2023?typeId=3092730&spm=1001.2014.3001.9616'
driver.get(url)
time.sleep(5)

# 找到结果元素
results = driver.find_element(By.CLASS_NAME, "user-tabs").find_elements(By.CLASS_NAME, "tab-list-item")

# 创建一个空列表用于存储数据
data = []

# 获取当前日期和时间
current_datetime = datetime.now()
# 提取当前日期
current_date = current_datetime.date()


# 创建一个新的 Excel 文件
result_workbook = Workbook()
result_sheet = result_workbook.active

# 写入标题行
result_sheet.append(['排名',"用户名","总原力值","当月获得原力值","2023年获得原力值","2023年高质量博文数"])
# 遍历结果元素并提取数据
for result in results:
    time.sleep(5)


    title = result.find_element(By.CLASS_NAME, 'content-wrapper').find_element(By.CLASS_NAME, 'long-text-title').text
    link = result.find_element(By.CLASS_NAME, 'content-wrapper').find_element(By.CLASS_NAME, 'align-items-center').get_attribute("href")
    if str(current_date) in title:
        # 将提取的数据存储为字典格式
        item = {
            'title': title,  # 标题
            'link': link
        }
        # 将字典添加到数据列表中
        data.append(item)
    else:
        print(f'不是今天的不做处理. 标题{title}')

print(data)

# 创建一个空的DataFrame来存储数据
df = pd.DataFrame(columns=["Link", "Content"])


# 遍历链接并爬取数据
for item in data:
    print(item['link'])
    # 导航到链接
    driver.get(item['link'])
    time.sleep(5)
    table_element = driver.find_element(By.CLASS_NAME, 'markdown_views').find_element(By.TAG_NAME, 'table')
    rows = table_element.find_elements(By.TAG_NAME, 'tr')  # 获取所有行
    for row in rows:
        row_data = []
        columns = row.find_elements(By.TAG_NAME, 'td')  # 获取每行中的所有列
        for column in columns:
             cell_data = column.text
             row_data.append(cell_data)
             print(cell_data)
        result_sheet.append(row_data)

# 关闭浏览器驱动
driver.quit()

# 保存结果到一个新的 Excel 文件
result_workbook.save('博客之星.xlsx')

运行效果

【python】使用Selenium获取(2023博客之星)的参赛文章,python案例分析归纳,python,selenium,开发语言,腾讯云,小白必看,原力计划

结束语

太难了, 卷不起啊!!!文章来源地址https://www.toymoban.com/news/detail-625006.html

到了这里,关于【python】使用Selenium获取(2023博客之星)的参赛文章的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 2023-5-6第一次创建博客的第一篇文章

    关于最近学习记下来的一些要点以及模糊的地方总结 对象类型和引用类型可以用链式结构 2进制是toBinaryString 10进制是Decimal 16进制是toHexString 8进制是octal final 1.修饰类 不能被继承 2.修饰方法 不能被重写,能被重载 3.修饰变量 值不可被重新赋值 属性可以被修改 4.修饰引用数据

    2024年02月03日
    浏览(46)
  • Python爬虫——Selenium在获取网页数据方面的使用

    目录 一、Selenium (一)引入  (二)启动浏览器 二、操作 (一)点击 (二)输入 三、数据获取 四、特点 五、抓取拉钩实例 六、其他操作 (一)窗口切换 代码 (二)操作下拉列表/无头浏览器 代码         一个电影票房的网站里,响应数据是一串完全看不懂的字符串

    2024年02月07日
    浏览(51)
  • 使用Python和Selenium自动化爬取 #【端午特别征文】 探索技术极致,未来因你出“粽” # 的投稿文章

    本文章将介绍如何使用Python的Selenium库和正则表达式对CSDN的活动文章进行爬取,并将爬取到的数据导出到Excel文件中。 导入相关模块 首先,我们需要导入以下模块: re是Python内置的正则表达式模块,用于处理字符串匹配和搜索。 time模块提供了一些与时间相关的函数,我们可

    2024年02月11日
    浏览(57)
  • 一个月学通Python(三十四):使用Selenium模拟人工操作及获取网页内容

    结合自身经验和内部资料总结的Python教程,每天3-5章,最短1个月就能全方位的完成Python的学习并进行实战开发,学完了定能成为大佬!加油吧!卷起来! 全部文章请访问专栏:《Python全栈教程(0基础)》 再推荐一下最近热更的:《大厂测试高频面试题详解》 该专栏对近年

    2024年02月13日
    浏览(61)
  • Python爬虫入门:使用selenium库,webdriver库模拟浏览器爬虫,模拟用户爬虫,爬取网站内文章数据,循环爬取网站全部数据。

    *严正声明:本文仅限于技术讨论与分享,严禁用于非法途径。 目录 准备工具: 思路: 具体操作: 调用需要的库: 启动浏览器驱动: 代码主体:  完整代码(解析注释): Python环境; 安装selenium库; Python编辑器; 待爬取的网站; 安装好的浏览器; 与浏览器版本相对应的

    2023年04月24日
    浏览(58)
  • 2023年高教社杯全国大学生数学建模竞赛参赛事项注意

    一年一度的数学建模国赛要来啦!!!小编仔细阅读了比赛官方网站上的规则和要求,以及比赛的题型和时间安排,现总结分享给大家。 小编将会在开赛后第一时间发布选题建议、所有题目的思路解析、相关代码、参考文献、参考成品论文等多项资料,帮助大家取得好成绩哦

    2024年02月09日
    浏览(100)
  • 通过Python+Selenium查询文章质量分

    通过Python+Selenium查询文章质量分 质量分查询地址 大家好,我是空空star,本篇给大家分享一下 《通过Python+Selenium查询文章质量分》 。 浏览器:本篇使用的是Chrome Chrome驱动版本:110.0.5481.77 Python版本:Python3.8 selenium版本: 4.8.2 Selenium基础篇之环境准备 import pprint import time fro

    2024年02月11日
    浏览(86)
  • 2023 年(MCM/ICM)美国大学生数学建模竞赛参赛规则及注意事项

    2023美赛参赛规则及注意事项正式发布,快跟随我来一起看一看。 注意事项: • COMAP 比赛时间为美国东部时区:除注明当地时间外,本说明中给出的所有时间均以东部标准时间(EST)为准。 1.辅助报名截止时间: 北京时间 2023 年 2 月 17 日 00:00 2.比赛时间:  (北京时间:

    2024年02月15日
    浏览(43)
  • 企业级 Selenium 刷 其他平台 博客访问(学习使用 )

    今天我们来学习一下 Selenium , 来统计 博客的访问量 Selenium 介绍 Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera,Edge等。这个工具的主要功能包

    2023年04月24日
    浏览(42)
  • 手把手教你使用Hexo+GitHub搭建个人博客并发布文章(附常见问题解决方法)

    本教程使用GitHub自带的GitHub pages来生成静态个人博客,而Hexo可以更换各种好看的主题,而且都是免费的,花一点时间就可以打造出自己独有的个人博客。 Hexo这个有力的工具可以让我们专注于写出一篇博客而不需要关心如何编写html和CSS,再如何形成一个网站,它可以根据ma

    2024年02月04日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包