爬虫爬取mp3文件例子

这篇具有很好参考价值的文章主要介绍了爬虫爬取mp3文件例子。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

相信训练模型时数据集的获取也是一个很头疼的事情,搞cv领域的可以扛着摄像头架起三脚架拍摄获取(以前干过),但是如果是nlp领域的呢,特别是chatgpt等大模型出来后对这类文本等数据的需求更大,如果没有现成的数据集的话基本上很难自己创造数据,所以爬取视为其中一个手段获取数据(但是提醒一下要合法获取数据哦)。
那么下面就以简单的批量获取mp3文件为例。

假设我们要获取网易云飙升榜的所有音乐文件:
爬虫爬取mp3文件例子,数据集获取,爬虫,python,大数据,数据分析
地址为:https://music.163.com/#/discover/toplist?id=19723756
首先f12打开开发者工具:
爬虫爬取mp3文件例子,数据集获取,爬虫,python,大数据,数据分析
选择network,然后根据歌曲名复制到搜索框,然后点击清理按键清理所有的请求信息。
然后点击刷新页面,可以看到出现了很多新的请求信息,这里打开抓包再开始请求是因为刚才的请求信息可能是有延迟的请求信息,并不全,这里重新获取的比较全面。
爬虫爬取mp3文件例子,数据集获取,爬虫,python,大数据,数据分析
在左边搜索框搜索出来的点击就可以看到定位到的位置,在li标签的a标签里面,接下来我们先查看请求信息get获取一下信息打印出来看看:
爬虫爬取mp3文件例子,数据集获取,爬虫,python,大数据,数据分析
爬虫爬取mp3文件例子,数据集获取,爬虫,python,大数据,数据分析

选择headers,要获取两个信息,一个是url,一个是request headers底下的user agent。复制这两个信息开始下面的代码:

import requests   
import re   # 正则表达式的库

url = "https://music.163.com/discover/toplist?id=19723756"
headers = {
    "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
}
response = requests.get(url=url, headers=headers)
print(response.text)

爬虫爬取mp3文件例子,数据集获取,爬虫,python,大数据,数据分析
运行后打印出获取到的信息,接下来开始从中提取想要的内容,ctrl f定位到歌名可以看到是包裹在li标签中,因为我们想要下载的是mp3格式的文件,看到mp3的下载地址的组成包括id,而id就是和歌名一一对应的,所以我们for循环获取每个歌名及id来下载对应的mp3文件:
我们先拿这个“双星”举例,他的组成是这样的:<li><a href="/song?id=2068206782">双星</a></li>,所以我们可以用正则表达式来通用表示所有的歌名的标签组成:<li><a href="/song\?id=(\d+)">(.*?)</a>,代码如下:

html_data = re.findall('<li><a href="/song\?id=(\d+)">(.*?)</a>', response.text)
# print(html_data)
for num_id, title in html_data:
    music_url = f"http://music.163.com/song/media/outer/url?id={num_id}.mp3"  # mp3文件地址
    music_content = requests.get(url=music_url, headers=headers).content
    with open("/home/alpha/桌面/results/" + title + ".mp3", mode="wb") as f:   # 下载每个mp3文件
        f.write(music_content)
    print(num_id, title)

运行结果:
爬虫爬取mp3文件例子,数据集获取,爬虫,python,大数据,数据分析
这样就爬取下当前页面下全部的mp3文件了。文章来源地址https://www.toymoban.com/news/detail-705203.html

到了这里,关于爬虫爬取mp3文件例子的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python网络爬虫逆向分析爬取动态网页、使用Selenium库爬取动态网页、​编辑将数据存储入MongoDB数据库

    目录 逆向分析爬取动态网页 了解静态网页和动态网页区别 1.判断静态网页  2.判断动态网页  逆向分析爬取动态网页 使用Selenium库爬取动态网页 安装Selenium库以及下载浏览器补丁 页面等待  页面操作 1.填充表单 2.执行JavaScript 元素选取 Selenium库的find_element的语法使用格式如下

    2024年02月15日
    浏览(119)
  • python爬虫-获取某某在线翻译的查询结果,爬取json文件并解析

    url,请求方式,请求格式,都在此请求的header中 (此内容浏览器不同显示内容应该也是一样的,我用的edge浏览器,我也试过chrom浏览器,效果一样) ctrl + b进入方法体内即可 解读response.text,这是一个包含Unicode字符的JSON字符串编码 也许我们需要翻译一下 将API接口返回的JS

    2024年02月06日
    浏览(44)
  • 快乐学Python,数据分析之使用爬虫获取网页内容

    在上一篇文章中,我们了解了爬虫的原理以及要实现爬虫的三个主要步骤:下载网页-分析网页-保存数据。 下面,我们就来看一下:如何使用Python下载网页。 浏览器画网页的流程,是浏览器将用户输入的网址告诉网站的服务器,然后网站的服务器将网址对应的网页返回给浏览

    2024年01月17日
    浏览(54)
  • 基于python的网络爬虫爬取天气数据及可视化分析(Matplotlib、sk-learn等,包括ppt,视频)

    基于python的网络爬虫爬取天气数据及可视化分析 可以看看演示视频。 基于Python爬取天气数据信息与可视化分析 本论文旨在利用Python编程语言实现天气数据信息的爬取和可视化分析。天气数据对于人们的生活和各个领域都有着重要的影响,因此准确获取和有效分析天气数据对

    2024年02月03日
    浏览(50)
  • 使用Python合并mp3音频文件的最简单方法

    想把多个单独的英语单词MP3朗读音频文件合并在一起,开始找的方法一是下载专门的音频编辑合成软件,但是觉得太麻烦。二是使用免费的在线mp3音频合成服务,这种网站免费,使用也很简单。但是需要把文件一个个上传到网站上,还是有点麻烦。关键是我想让每个英语单词

    2024年02月11日
    浏览(47)
  • 【Python数据分析案例】——中国高票房电影分析(爬虫获取数据及分析可视化全流程)

    案例背景 最近总看到《消失的她》票房多少多少,《孤注一掷》票房又破了多少多少… 于是我就想自己爬虫一下获取中国高票房的电影数据,然后分析一下。 数据来源于淘票票:影片总票房排行榜 (maoyan.com) 爬它就行。 代码实现 首先爬虫获取数据: 数据获取 导入包 传入网

    2024年01月20日
    浏览(288)
  • Python数据分析案例30——中国高票房电影分析(爬虫获取数据及分析可视化全流程)

    最近总看到《消失的她》票房多少多少,《孤注一掷》票房又破了多少多少..... 于是我就想自己爬虫一下获取中国高票房的电影数据,然后分析一下。 数据来源于淘票票:影片总票房排行榜 (maoyan.com) 爬它就行。 不会爬虫的同学要这代码演示数据可以参考:数据   首先爬虫

    2024年02月08日
    浏览(60)
  • 【Python】将M4A\AAC录音文件转换为MP3文件

    基础环境: 要将M4A文件转换为MP3文件,你可以使用Python中的第三方库 pydub 。 pydub 使得音频处理变得非常简单。在开始之前,请确保你已经安装了 pydub 库,如果没有,可以通过以下命令安装: 接下来,你可以使用以下代码将M4A文件转换为MP3文件: 将上述代码中的 input_m4a_f

    2024年02月15日
    浏览(60)
  • 微软Azure文本转音频,保存成MP3文件【代码python3】

    标签: 文本转音频并保存mp3文件; 微软Azure; 微软Azure可以将文本转音频,并保存mp3文件,直接上代码 代码格式: python 3 注意: 1,代码运行前,SPEECH_KEY和SPEECH_REGION已生成好,并保存在你的环境变量中。 参考:https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-

    2024年02月07日
    浏览(50)
  • 用python写一个变声器,要求导入mp4或者mp3文件,将视频中的声音变成女声

    用 Python 实现变声器可以使用第三方库 pydub。pydub 是一个音频处理库,可以支持多种音频格式,包括 mp3 和 mp4。 首先需要安装 pydub 库,使用 pip 安装: 这样我们就完成了一个简单的音频变声器,它可以将 mp4 或 mp3 文件中的声音变成女声。

    2024年02月16日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包