Python保存网页通知公告-Toy模板网

这篇具有很好参考价值的文章主要介绍了Python保存网页通知公告。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

我这里提供一个非常简单的方法，只不过需要下载一个第三方安装包并且在本地安装一个插件。这个方法操作下来可以获取到页面所有内容和一个基础的格式。

一、下载并安装插件

链接：https://pan.baidu.com/s/1u2Mkj3J5czATYOFVZH4m_w
提取码：1ee0

我在这里提供我一直在用的，如果这个不能用的话可以评论，我看到会及时回复的。或者大家去搜索pypandoc的下载安装，也可以找对很多对应教程。

二、根据安装包所提示内容安装对应的第三方包

我这个安装包指定的是pypandoc的版本是1.6.3

pip install pypandoc==1.6.3 -i https://pypi.tuna.tsinghua.edu.cn/simple

如果大家想下载下来搬到离线环境安装可以看我之前发的pip的相关知识。

三、pypandoc的用法

网上一搜pypandoc的用法有许多，但是大多数都是将一个html文件下载下来，然后去转换html转换为docx文件。我这个方法更适用于在RPA开发中的取数。

以网页url=http://www.cfachina.org/aboutassociation/associationannouncement/202301/t20230120_35468.html举例。

要获取该中期协的公告内容，代码如下：

import os
from selenium import webdriver
from time import sleep
import pypandoc
driver = webdriver.Chrome()
driver.maximize_window()

driver.get(url=r"http://www.cfachina.org/aboutassociation/associationannouncement/202301/t20230120_35468.html")
sleep(3)
html = driver.find_element_by_xpath('//div[@class="job-infos"]').get_attribute("outerHTML")
title = driver.find_element_by_xpath("//div[@class='job-tit']").text
content_savePath = r"D:\test" + os.sep + title + ".docx"
pypandoc.convert_text(html, 'docx', 'html', outputfile=content_savePath)
driver.quit()

如果对获取到的内容不满意，可以修改html对应的xpath。文章来源地址https://www.toymoban.com/news/detail-410097.html

到了这里，关于Python保存网页通知公告的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！