python喜马拉雅爬虫简单实现(超详细注释)

这篇具有很好参考价值的文章主要介绍了python喜马拉雅爬虫简单实现(超详细注释)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

没啥就是闲着,爬了爬盗墓笔记


import requests
import re
import os


root_url="https://www.ximalaya.com/album/8625924"   #待爬取网站
folder_path=r"在这里填文件保存的地址"     #注意在文件路径前一定要写上r,不然会报错
                                                                        # SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape

# 创建想把资源存往的文件夹(如果不存在)
os.makedirs(folder_path, exist_ok=True)

passcard={
"User-Agent":"这里填你的浏览器证书"
}   #passcard用于伪装身份,防止网站反爬

yuan_ma=requests.get( root_url, headers=passcard ).text    #text是因为获取的网页源码都是text格式

value = re.findall('"trackId":(\d+),"isPaid":false,"tag":0,"title":"(.*?)",',yuan_ma) 
#用正则表达式寻找符合条件的,找到不同资源的id和名字,输出列表套元组
# 在上面的正则表达式中,只会返回trackid和title里的东西,其他只是筛选条件,不返回的

for item in value:
        name=f"{item[1]}.m4a"   #资源的名字
        id=item[0]      #资源的id
        
        audio_url=f"https://www.ximalaya.com/revision/play/v1/audio?id={id}&ptype=1"   #audio文件的地址
        data=requests.get(audio_url,headers=passcard).json()      #访问audio文件,应为audio文件是json格式,将服务器返回的JSON格式的数据解析为字典data
        last_url=data["data"]["src"]                   #从audio文件(现在已经返回为data)中获取文件的真实地址
        response = requests.get(last_url).content      #访问真实地址,把资源写入response
        
        # 构造保存文件的完整路径
        file_name = os.path.join(folder_path, name)
        
        
        #写入文件
        with open(file_name, "wb") as file:
            file.write(response)
            print("已获取%s"%item[1])

值得注意的是,我发现喜马拉雅的资源地址不是固定的。也就是说上面代码里的网页资源地址需要重新获取。 文章来源地址https://www.toymoban.com/news/detail-827792.html

到了这里,关于python喜马拉雅爬虫简单实现(超详细注释)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Python编程实现简单网络爬虫实现

    引言 网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 --维基百科 网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 一般有两个步骤:1.获取网页内容  2.对获

    2024年01月18日
    浏览(30)
  • python实现简单的爬虫功能

    前言 Python是一种广泛应用于爬虫的高级编程语言,它提供了许多强大的库和框架,可以轻松地创建自己的爬虫程序。在本文中,我们将介绍如何使用Python实现简单的爬虫功能,并提供相关的代码实例。 如何实现简单的爬虫 1. 导入必要的库和模块 在编写Python爬虫时,我们需要

    2024年02月14日
    浏览(34)
  • 使用 Python 实现简单的爬虫框架

    爬虫是一种自动获取网页内容的程序,它可以帮助我们从网络上快速收集大量信息。在本文中,我们将学习如何使用 Python 编写一个简单的爬虫框架。 一、请求网页 首先,我们需要请求网页内容。我们可以使用 Python 的 requests 库来发送 HTTP 请求。在使用之前,请确保已安装该

    2024年02月03日
    浏览(29)
  • 如何用Python实现一个简单的爬虫?

    作为一名程序员,我深知爬虫技术在现代互联网领域中的重要性。因此,今天我来分享一下如何用Python实现一个简单的爬虫。 简单来说,爬虫就是一种自动化程序,通过网络协议来获取特定网站的信息,例如图片、文字、视频等等。这些信息可以是公开数据,也可以是需要用

    2024年02月07日
    浏览(36)
  • 【用Vscode实现简单的python爬虫】从安装到配置环境变量到简单爬虫以及python中pip和request,bs4安装

    第一步:安装python包  可以默认,也可以选择自己想要安装的路径 python下载资源链接: Download Python | Python.org 第二步: 配置python环境变量,找到我的电脑-属性-高级-环境变量 找到python,新增 然后将刚刚安装的路径配置到path路径下: 特别注意,配置了环境变量后要进行重启电

    2024年02月15日
    浏览(39)
  • 【小5聊】Python3 使用selenium模块实现简单爬虫系列一

    第一次听说Python还是在工作的时候,还是一位女生在用,当时她说可以用来处理excel文档,特别是一些统计分析。第二次让我真正进入python世界,还是在一次C站举办的大赛上。聊聊你是因为什么机缘巧合进入到python圈的呢?不妨留言说说 本期主要是聊聊,我接触到的selenium模

    2024年02月06日
    浏览(60)
  • Python 爬虫之简单的爬虫(一)

    最近也学了点爬虫的东西。今天就先给大家写一个简单的爬虫吧。循序渐进,慢慢来哈哈哈哈哈哈哈哈哈哈哈 主要是以下几部分(下文基本会按照这个步骤来写): 导入需要的库 要测试的网页 生成代理,请求网页 请求成功,解析网页,找到并保存想要的东西 请求失败,返

    2024年02月02日
    浏览(25)
  • 简单的python爬虫

    #导入requests模块 import requests #a,b赋值的是文件名和后缀 a=[\\\'xx\\\',\\\'xxx\\\',\\\'123\\\',\\\'xihuan\\\',\\\'666\\\'] b=[\\\'jpg\\\',\\\'jpeg\\\',\\\'png\\\',\\\'gif\\\',\\\'zip\\\',\\\'rar\\\',\\\'php\\\'] #for循环a+b for name1 in a:     for name2 in b:         name=(name1+\\\'.\\\'+name2)         q=requests.get(\\\'http://ip/\\\'+name)         q.status_code         print(name)         print(q)

    2023年04月10日
    浏览(27)
  • python简单网页爬虫

    正则匹配:难度较大,不建议 BeautifulSoup或者xpath:文档结构清晰【推荐】 实际使用常常是:BeautifulSoup或者xpath匹配到对应的dom节点,然后正则提取想要的数据 (1)BeautifulSoup : 安装: pip install lxml pip install bs4 使用: 爬取国家重点保护野生植物的信息,网站:中国珍稀濒危

    2024年02月08日
    浏览(28)
  • Python爬虫市场简单分析

    Python爬虫是目前互联网行业中最重要的组成部分之一。Python作为一门易学易懂的编程语言,不需要过多的软件环境和部署条件,基本覆盖了爬虫开发的大部分需求,是网络数据爬取和处理的首选技术之一。Python通过一系列优秀的爬虫框架和库的支持,例如Scrapy、BeautifulSoup、

    2024年02月08日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包