Python实现将pdf，docx，xls，doc，wps链接下载并将文件保存到本地

1年前作者：写python的鑫哥分类：Toy博客阅读(37)违法举报

这篇具有很好参考价值的文章主要介绍了Python实现将pdf，docx，xls，doc，wps链接下载并将文件保存到本地。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

前言

本文是该专栏的第31篇，后面会持续分享python的各种干货知识，值得关注。

在工作上，尤其是在处理爬虫项目中，会遇到这样的需求。访问某个网页或者在采集某个页面的时候，正文部分含有docx，或pdf，或xls，或doc，或wps，或ofd，或xlsx，或zip等链接。需要你使用python自动将页面上含有的这些信息链接下载并保存到指定文件夹。

遇到这种情况需要怎么做呢？别担心，跟着笔者直接往下看正文的详细解决方法。（附完整代码）

正文

1. doc下载

在有些网页的正文中，有时会有如下图中的doc链接。比如爬虫在采集正文数据的时候，像标题，正文内容，作者，发布时间等等信息都可以直接通过数据解析抓取并保存到本地。而下图中的doc一般在网页中，我们只需要通过鼠标点击就可自动下载并保存到本地目录文件里。而通过程序代码要怎样让它自动下载并保存到本地呢。实现方法如下：

Python实现将pdf，docx，xls，doc，wps链接下载并将文件保存到本地,Python课堂,python,docx,pdf,xls,wps,爬虫,doc

以上图中的doc为例，我们可以通过xpath或者正则，bs4等解析方法将其doc链接地址提取出来，然后使用如下文章来源地址https://www.toymoban.com/news/detail-573432.html

到了这里，关于Python实现将pdf，docx，xls，doc，wps链接下载并将文件保存到本地的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

Java给文件加水印，支持.pptx,.doc,.docx,.xls,.xlsx,.pdf,.png,.jpg。
office 相关格式文档的加密主要使用微软提供的Spire.Office for Java ，free部分有针对性每个类型的API说明和示例，请自行参考以下链接。下面也会附上我在项目中的实际工具类。 Spire.Office for Java ｜专业的 Java Office 套件｜创建、修改、转换、打印 Word/PowerPoint/PDF 文档我的策略是
2024年02月12日
浏览(13)
前端小程序，h5，浏览器，app, doc，.docx，.ofd，.PDF，.WPS以及Office文档的在线解析预览方式
在线预览是将Word、PPT、Excel、PDF、OFD、音视频等文件在浏览器中解析查看。我使用的是usdoc,也有用office online进行在线预览，不过注意的是使用usdoc的时候，我们先需要注册和添加预览的地址域名 usdoc的地址：http://www.usdoc.cn 进入用户中心，我们进行注册注册好之后，先
2024年02月11日
浏览(17)
Python 实现 PDF 到 Word 文档的高效转换（DOC、DOCX）
PDF（Portable Document Format）已成为一种广泛使用的电子文档格式。PDF的主要优势是跨平台，可以在不同设备上呈现一致的外观。然而，当我们需要对文件内容进行编辑或修改，直接编辑PDF文件会非常困难，而且效果也不理想。将PDF文件转换为Word文档（doc、docx）再进行编辑是一
2024年02月03日
浏览(11)
在Windows和MacOS环境下实现批量doc转docx,xls转xlsx
Python中批量进行办公文档转化是常见的操作，在windows状态下我们可以利用changeOffice这个模块很快进行批量操作。 Windows环境下，如何把doc转化为docx，xls转化为xlsx？首先，我们要安装这个第三方模块，在cmd下输入其次，导入这个模块然后，要确定文件所在的位置最后就可以
2024年02月13日
浏览(8)
vue 预览有token验证的 doc、docx、pdf、xlsx、csv、图片并下载
预览 doc我也不会下载
2024年02月09日
浏览(9)
uniapp 在线预览各种格式文件(支持doc, xls, ppt, pdf, docx, xlsx, pptx格式) 适用于小程序 (解决了真机调试可以打开,发布体验版打不开的问题)(可设置文件名)
代码: 参考官方文档: uni.saveFile(OBJECT) @savefile | uni-app官网 uni-app,uniCloud,serverless https://uniapp.dcloud.net.cn/api/file/file.html#opendocument tips: 问题一: 打不开 1. 文件地址须保证能正常打开(在浏览器中尝试是否能预览或正常下载) 2.注意文件名最好为数字字母(非中文) 问题
2024年02月05日
浏览(16)
python读取pdf、doc、docx、ppt、pptx文件内容
使用python读取文件，其中pdf、docx、pptx可以直接读，.ppt和.doc文件不能直接读，需要转换成.pptx和.docx文件，并且需要区分系统如果是linux系统，请先安装组件 python代码如下：
2024年02月11日
浏览(13)
微信公众号 - 实现 H5 网页在微信内置浏览器中下载文件，可预览和下载 office 文件（doc / xls / ppt / pdf 等）适用于任何前端技术栈网站，兼容安卓和苹果系统！
网上的教程都是让你写页面 “引导” 右上角三个点里，让用户自己去浏览器打开，其实这样用户体验并不好。本文实现了最新微信公众号 H5 网页（微信内置浏览器中），预览下载 office 文件，安卓和苹果全都支持！您可以直接复制代码，移植到自己项目中去，任何前端项
2024年01月21日
浏览(10)
php怎么在线预览word文件？php预览.doc、.docx、.wps文件
php预览Word PHP要实现在线Word预览只需要3步第一步：准备一个文件地址，如下： http://usdoc.cn/vw/文件模板.docx 第二步预览前置地址： http://vw.usdoc.cn/?src= 第三步开始预览 http://vw.usdoc.cn/?src=http://usdoc.cn/vw/文件模板.docx
2024年02月08日
浏览(12)
vue实战--vue+elementUI实现多文件上传+预览（word/PDF/图片/docx/doc/xlxs/txt）
最近在做vue2.0+element UI的项目中遇到了一个需求：需求是多个文件上传的同时实现文件的在线预览功能。需求图如下：看到这个需求的时候，小栗脑袋一炸。并不知道该如何下手，之前的实践项目中也并没有遇到相似的功能。因此也废了一番功夫想要实现这样一个
2024年01月23日
浏览(18)