Python保存网页通知公告

这篇具有很好参考价值的文章主要介绍了Python保存网页通知公告。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

        我这里提供一个非常简单的方法,只不过需要下载一个第三方安装包并且在本地安装一个插件。这个方法操作下来可以获取到页面所有内容和一个基础的格式。

一、下载并安装插件

链接:https://pan.baidu.com/s/1u2Mkj3J5czATYOFVZH4m_w 
提取码:1ee0

        我在这里提供我一直在用的,如果这个不能用的话可以评论,我看到会及时回复的。或者大家去搜索pypandoc的下载安装,也可以找对很多对应教程。

二、根据安装包所提示内容安装对应的第三方包

        我这个安装包指定的是pypandoc的版本是1.6.3

pip install pypandoc==1.6.3 -i https://pypi.tuna.tsinghua.edu.cn/simple

如果大家想下载下来搬到离线环境安装可以看我之前发的pip的相关知识。

三、pypandoc的用法

        网上一搜pypandoc的用法有许多,但是大多数都是将一个html文件下载下来,然后去转换html转换为docx文件。我这个方法更适用于在RPA开发中的取数。

        以网页url=http://www.cfachina.org/aboutassociation/associationannouncement/202301/t20230120_35468.html举例。

        要获取该中期协的公告内容,代码如下:

import os
from selenium import webdriver
from time import sleep
import pypandoc
driver = webdriver.Chrome()
driver.maximize_window()

driver.get(url=r"http://www.cfachina.org/aboutassociation/associationannouncement/202301/t20230120_35468.html")
sleep(3)
html = driver.find_element_by_xpath('//div[@class="job-infos"]').get_attribute("outerHTML")
title = driver.find_element_by_xpath("//div[@class='job-tit']").text
content_savePath = r"D:\test" + os.sep + title + ".docx"
pypandoc.convert_text(html, 'docx', 'html', outputfile=content_savePath)
driver.quit()

如果对获取到的内容不满意,可以修改html对应的xpath。文章来源地址https://www.toymoban.com/news/detail-410097.html

到了这里,关于Python保存网页通知公告的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【python学习笔记】:实现网页视频自动下载并保存

    如何使用python爬虫实现网页视频自动下载并保存: 使用python爬取页面,然后自动下载视频,但是这样会有一个问题,我并不是需要所有视频,有些是垃圾视频不需要下载,python似乎还没法做到识别我对哪些视频是有价值的,所以这一步人工绕不开,我选择直接把目标视频的详

    2024年02月11日
    浏览(37)
  • 如何文件从电脑传到iPhone,这里提供几个方法

    本文介绍了如何使用Finder应用程序、iTunes for Windows、iCloud和谷歌照片将照片从Mac或PC传输到iPhone。 如果你有一台Mac电脑,里面装满了你想转移到iPhone的照片,这是一件非常简单的事情。只需遵循以下步骤: 这些说明适用于运行macOS Catalina(10.15)及以上版本的Mac电脑。如果你

    2024年02月03日
    浏览(37)
  • 如何在Windows中配置多个显示器?这里提供详细步骤

    Windows可以通过多种方式使用多个显示器,扩展或复制主显示器。你甚至可以关闭主显示器。以下是如何使用简单的键盘快捷键更改辅助显示设置。 要快速更改Windows 10处理多个显示器的方式,请按Windows+P。屏幕右侧会弹出一个名为“投影”的深灰色菜单。 从这里,你可以使用

    2024年02月20日
    浏览(46)
  • 在Excel中如何打开VBA,这里提供两种方法

    想在Excel中创建或添加自己的自定义Visual Basic脚本吗?第一步是了解如何在Excel中打开VBA编辑器。 在易用性和整体功能方面,没有其他电子表格应用程序能与Excel相提并论。无论你想做什么,只要你能深入挖掘Excel的深层菜单,就有很大的可能性可以选择。当你找不到该选项或

    2024年01月17日
    浏览(33)
  • 加强版python连接飞书通知——本地电脑PC端通过网页链接打开本地已安装软件(调用注册表形式,以漏洞扫描工具AppScan为例)

            如果你想要通过超链接来打开本地应用,那么你首先你需要将你的应用添入windows注册表中(这样网页就可以通过指定代号来调用程序),由于安全性的原因所以网页无法直接通过输入绝对路径来调用本地文件。         创建文本文档,使用记事本打开,添加内

    2024年02月09日
    浏览(30)
  • 主板指示灯亮着,电脑却无法开机怎么办?这里提供几个解决方法

    如果你的电脑无法开机,但主板指示灯亮着,最可能的原因可能是机箱上的电源按钮有故障。或者,连接按钮和主板电源开关头的接线坏了。在这种情况下,你仍然可以启动电脑。 但是,如果备用启动方法失败,你可能正在处理有故障的硬件部件。但是,你可以查找POST代码

    2024年02月22日
    浏览(54)
  • 如何在Windows 11中打开.NET Framework 2.0和3.5,这里提供详细步骤

    如果你在Windows 11 PC上启动某些应用程序时遇到问题,你的系统可能没有所需的.NET Framework版本。.NET Framework 2.0版和3.5版很容易安装,以修复你的应用程序问题。以下是如何做到这一点。 在Windows 11 PC上启用.NET Framework 2.0和3.5,你将需要一个活动的互联网连接,这是因为该过程

    2024年01月18日
    浏览(64)
  • 如何修复Microsoft Edge不能以全屏模式打开​?这里提供几个故障排除方法

    随着越来越多的Windows 10用户将Edge设置为默认浏览器,各种错误和小故障层出不穷。例如,许多用户抱怨他们无法在全屏模式下启动Edge。如果你正在寻找解决方案来解决这个恼人的问题,请按照下面的故障排除步骤进行操作。 过时的Edge浏览器版本有时可能会出现故障。单击

    2024年02月21日
    浏览(50)
  • 如何在Windows 10/11的防火墙中禁止和允许某个应用程序,这里提供详细步骤

    想阻止应用程序访问互联网吗?以下是如何通过简单的步骤阻止和允许Windows防火墙中的程序。​ 一般来说,大多数用户永远不需要担心应用程序访问互联网。然而,在某些情况下,你需要限制应用程序访问互联网。 例如,有问题的应用程序可能会不断下载不稳定的更新、中

    2024年01月16日
    浏览(53)
  • Android保存图片到系统图库并通知系统相册刷新

      在android开发中保存应用的图片并插入到系统图库同时通知相册刷新的功能,做完后发现在部分手机上出现虽然图片保存成功了,但是相册却找不到图片的问题,查找文件夹图片也已经存在,可就是在相册里刷新不出来。   以上代码便是将Bitmap保存图片到指定的路径/

    2024年01月24日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包