Python批量爬虫下载文件——把Excel中的超链接快速变成网址

这篇具有很好参考价值的文章主要介绍了Python批量爬虫下载文件——把Excel中的超链接快速变成网址。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文的背景是:大学关系很好的老师问我能不能把Excel中1000个超链接网址对应的pdf文档下载下来。虽然可以手动一个一个点击下载,但是这样太费人力和时间了。我想起了之前的爬虫经验,给老师分析了一下可行性,就动手实践了。
  
没想到刚开始就遇到了困难,Excel中的超链接读到Python中直接显示成了中文。所以第一步就是把超链接对应的网址梳理出来,再用Python去爬取对应网址的pdf。本文分享批量爬虫下载文件的第一步,从Excel中把超链接转换成对应网址。下一篇文章分享批量爬虫下载pdf文件的代码。


  

一、想要得到的效果

  
首先来看下想要得到的效果,第一列是原始的超链接,第二列是我们想要得到的对应网址。
  
Python批量爬虫下载文件——把Excel中的超链接快速变成网址,python,爬虫,excel

  
  

二、把超链接转换成对应网址的3个方法

  
网上有很多方法实现超链接转换,我分享3个自己尝试的方法,前2个都失败了,最后1个是成功的。
  
  

1 方法一:单个超链接鼠标点击转换

  
第一个方法是选中想要把超链接转换成对应网址的单元格,接着双击鼠标左键,然后回车,单元格内容就会自动转换成网址。这种方法只适合转换超链接数量较少的情况,我在尝试过程中失败了。

  
  

2 方法二:自动套用格式

  
第二个方法是单击文件-更多-选项-校对-自动更正选项-键入时自动套用格式,选中Internet及网络路径替换为超链接,然后点击确定。第二个方法我尝试下来还是失败了……
  
  

3 方法三:自定义VBA函数转换

  
第三个方法是自定义VBA函数进行转换。
  

[1]启用【开发工具】,具体步骤如下:

  
左键单击菜单栏中的【文件】选项卡,然后左键单击【更多】,接着左键单击【选项】。左键单击【Excel 选项】中的【自定义功能区】选项,然后将【开发工具】前的小方格打上对勾,然后左键单击【确定】按钮,此时菜单栏中会多出一个选项【开发工具】。
  
step1:左键单击菜单栏中的【文件】选项卡,然后左键单击【更多】,接着左键单击【选项】。
  

Python批量爬虫下载文件——把Excel中的超链接快速变成网址,python,爬虫,excel
  

step2:左键单击【Excel 选项】中的【自定义功能区】选项,然后将【开发工具】前的小方格打上对勾,然后左键单击【确定】按钮。
  
Python批量爬虫下载文件——把Excel中的超链接快速变成网址,python,爬虫,excel

step3:查看菜单栏中是否多出一个选项【开发工具】。
  
Python批量爬虫下载文件——把Excel中的超链接快速变成网址,python,爬虫,excel

  

[2]自定义一个VBA函数GetAdrs。

  
首先左键单击【开发工具】选项,然后左键单击【代码】功能区中的【Visual Basic编辑器】。右键单击【工程资源管理器】窗口,将鼠标指针移动至【插入】选项,左键单击二级菜单中的【模块】选项,插入【模块1】,并将以下代码复制粘贴到【模块1】的代码窗口后,最后关闭Visual Basic编辑器。
  
step1:左键单击【开发工具】选项,然后左键单击【代码】功能区中的【Visual Basic编辑器】。
  
Python批量爬虫下载文件——把Excel中的超链接快速变成网址,python,爬虫,excel
  
step2:右键单击【工程资源管理器】窗口,将鼠标指针移动至【插入】选项,左键单击二级菜单中的【模块】选项,插入【模块1】,并将以下代码复制粘贴到【模块1】的代码窗口后,最后关闭Visual Basic编辑器。

Function GetAdrs(Rng)
  Application.Volatile True
  With Rng.Hyperlinks(1)
    GetAdrs = IIf(.Address = "", .SubAddress, .Address)
  End With
End Function

Python批量爬虫下载文件——把Excel中的超链接快速变成网址,python,爬虫,excel

  

[3]用函数GetAdrs获取网址。

  
首先左键单击选中【B2】单元格,键入自定义函数【=GetAdrs(A2)】,按回车键进行计算。将鼠标指针移动至【B2】单元格右下角,当鼠标指针变成【+】号后,长按鼠标左键并向下拖动进行公式填充。
  
至此,把Excel中的超链接快速变成网址已经讲解完毕,感兴趣的同学可以自己实现一遍图片。
  
限时免费进群】群内提供学习Python、玩转Python、风控建模、人工智能、数据分析相关招聘内推信息、优秀文章、学习视频,也可交流学习工作中遇到的相关问题。需要的朋友添加微信号19967879837,加时备注想进的群,比如风控建模。
  
参考文献
https://baike.baidu.com/
https://zhuanlan.zhihu.com/《数据科学与大数据技术》学校排名 - 知乎 (zhihu.com)

你可能感兴趣:
用Python绘制皮卡丘
用Python绘制词云图
Python人脸识别—我的眼里只有你
Python画好看的星空图(唯美的背景)
用Python中的py2neo库操作neo4j,搭建关联图谱
Python浪漫表白源码合集(爱心、玫瑰花、照片墙、星空下的告白)
文章来源地址https://www.toymoban.com/news/detail-660715.html

到了这里,关于Python批量爬虫下载文件——把Excel中的超链接快速变成网址的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Python爬虫:给我一个链接,西瓜视频随便下载

    Python爬虫:给我一个链接,西瓜视频随便下载

    1.实现原理 首先,我们需要来到西瓜视频的官网,链接为:西瓜视频,随便点击其中一个视频进入,点击电脑键盘的F12来到开发者模式,按ctrl+F进行搜索,输入video,如下: 我们可以发现,这里有一个视频链接,我们点击这个链接进入,依旧按电脑F12键来到开发者模式,继续

    2024年02月14日
    浏览(13)
  • 【Python爬虫实战】1.爬取A股上市公司年报链接并存入Excel

    【Python爬虫实战】1.爬取A股上市公司年报链接并存入Excel

     数据来源:巨潮资讯  项目需求:按照股票代码,公司名称,年报全称,年份,下载链接等要素写入excel表  使用语言:python  第三方库:requests, re , time等 成品展示:  废话就到这里,直接开干! 1.寻找接口 众所周知,爬取网页数据一般可以通过寻找网页结构规律和爬取接

    2024年02月04日
    浏览(6)
  • python拷贝漫画下载爬虫(附代码github链接)

    python拷贝漫画下载爬虫(附代码github链接)

    先附上github链接:GitHub - muzi-xiaoren/kaobei_Crawler: 拷贝漫画爬虫 主要使用selenium库模拟浏览器来获取kaobei动态加载的html页面。 用BeautifulSoup进行解析。然后传入函数先获取url。 将url传入get.py中使用多线程编程加快下载速率 下面是具体函数及使用方法。 download.py 和 get.py 是方法函

    2024年02月03日
    浏览(19)
  • Python爬虫实战-批量爬取下载网易云音乐

    Python爬虫实战-批量爬取下载网易云音乐

    大家好,我是python222小锋老师。前段时间卷了一套  Python3零基础7天入门实战 https://blog.csdn.net/caoli201314/article/details/132882813 1小时掌握Python操作Mysql数据库之pymysql模块技术 https://blog.csdn.net/caoli201314/article/details/133199207 一天掌握python爬虫【基础篇】 涵盖 requests、beautifulsoup、se

    2024年02月05日
    浏览(44)
  • Word控件Spire.Doc 【超链接】教程(3):在C#中查找word文档中的超链接

    Word控件Spire.Doc 【超链接】教程(3):在C#中查找word文档中的超链接

    Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库。在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建、编辑、转换和打印 Microsoft Word 文档。拥有近10年专业开发经验Spire系列办公文档开发工具,专注于创建、编辑、转换和打印Word/PDF/Excel等格式文件处

    2024年02月04日
    浏览(11)
  • Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接

    Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接

    1. 前言 文章内容可能存在版权问题,为此,小编不提供相关实现代码,只是从js逆向说一说到底怎样实现这个的过程,希望能够帮助到那些正在做js逆向相关操作的读者,需要代码的读者单独私信我吧!不过,需要注意的是: 代码仅供学习,不能用于商业活动,望读者切记。

    2024年02月15日
    浏览(12)
  • python之批量读写excel文件

    python之批量读写excel文件

    首先,导入openpyxl库中的读取和新建文件包(比较官方的名称我没有查,就按照好理解的方向这样说),文中关于行和列的理解都是个人想法,可能有和读者不同之处。 先详细说怎么样读取单个excel文件,批量在后边写。 excel表格格式如下,需要弄清楚的就是excel文件路径,以

    2024年02月02日
    浏览(8)
  • Python批量给excel文件加密

    Python批量给excel文件加密

    有时候我们需要定期给公司外部发邮件,在自动化发邮件的时候需要对文件进行加密传输。本文和你一起来探索用python给单个文件和批量文件加密。    python自动化发邮件可参考【干货】用Python每天定时发送监控邮件。    调用win32com.client,需先要安装pypiwin32包。打开cm

    2024年02月12日
    浏览(7)
  • 用Python实现批量创建Excel文件

    小编简单写了一个批量创建Excel文件的实例 实例代码: 这段Python代码使用了 xlwings 库来操作Excel。 xlwings 是一个允许你从Python中读写Excel文件(.xlsx)的库,并且它还提供了很多其他的功能,如创建图表、执行宏等。 下面是代码的逐行解释: import xlwings as xw :导入 xlwings 库,

    2024年02月22日
    浏览(11)
  • Python爬虫实战(六)——使用代理IP批量下载高清小姐姐图片(附上完整源码)

    Python爬虫实战(六)——使用代理IP批量下载高清小姐姐图片(附上完整源码)

    本次爬取的目标是某网站4K高清小姐姐图片: 实现批量下载指定的图片,存放到指定文件夹中: Python:3.10 编辑器:PyCharm 第三方模块,自行安装: 爬虫使用代理IP的好处有以下几点: 轮换IP地址 :使用代理IP可以轮换IP地址,降低被封禁的风险,从而保持爬取的连续性

    2024年02月07日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包