【python】爬取酷狗音乐Top500排行榜【附源码】

这篇具有很好参考价值的文章主要介绍了【python】爬取酷狗音乐Top500排行榜【附源码】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

英杰社区https://bbs.csdn.net/topics/617804998

 一、导入必要的模块:

    这篇博客将介绍如何使用Python编写一个爬虫程序,从斗鱼直播网站上获取图片信息并保存到本地。我们将使用requests模块发送HTTP请求和接收响应,以及os模块处理文件和目录操作。

        如果出现模块报错

爬取酷狗,爬虫案例100,python,人工智能,开发语言

        进入控制台输入:建议使用国内镜像源

pip install requests -i https://mirrors.aliyun.com/pypi/simple

         我大致罗列了以下几种国内镜像源:

        

清华大学
https://pypi.tuna.tsinghua.edu.cn/simple

阿里云
https://mirrors.aliyun.com/pypi/simple/

豆瓣
https://pypi.douban.com/simple/ 

百度云
https://mirror.baidu.com/pypi/simple/

中科大
https://pypi.mirrors.ustc.edu.cn/simple/

华为云
https://mirrors.huaweicloud.com/repository/pypi/simple/

腾讯云
https://mirrors.cloud.tencent.com/pypi/simple/

    

二、发送GET请求获取响应数据:

        设置了请求头部信息,以模拟浏览器的请求,函数返回响应数据的JSON格式内容。

def get_html(url):
    header = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
    }
    response = requests.get(url=url, headers=header)
    # print(response.json())
    html = response.json()
    return html

        如何获取请求头:

        火狐浏览器:
  1. 打开目标网页并右键点击页面空白处。
  2. 选择“检查元素”选项,或按下快捷键Ctrl + Shift + C(Windows)
  3. 在开发者工具窗口中,切换到“网络”选项卡。
  4. 刷新页面以捕获所有的网络请求。
  5. 在请求列表中选择您感兴趣的请求。
  6. 在右侧的“请求标头”或“Request Headers”部分,即可找到请求头信息。

     将以下请求头信息复制出来即可

爬取酷狗,爬虫案例100,python,人工智能,开发语言

三、爬取酷狗TOP500排行榜

        从酷狗音乐排行榜中提取歌曲的排名、歌名、歌手和时长等信息

爬取酷狗,爬虫案例100,python,人工智能,开发语言

        

        具体步骤如下:

  1. 导入需要的模块:requests用于发送HTTP请求,BeautifulSoup用于解析HTML,time用于控制爬虫的速度。

  2. 设置请求头部信息:通过headers字典设置了User-Agent,模拟浏览器发送请求,防止被网站封禁。

  3. 定义函数get_info(url):该函数接收一个URL参数,用于爬取指定网页的信息。

  4. 发送网络请求并解析HTML:使用requests.get()函数发送GET请求获取网页的HTML内容,并使用BeautifulSoup模块解析HTML。

  5. 通过CSS选择器定位需要的信息:使用select()方法根据CSS选择器定位到歌曲的排名、歌名和时长等元素。

  6. 循环遍历每个信息并存储到字典中:使用zip()函数将排名、歌名和时长等元素打包成一个迭代器,然后通过循环遍历,将每个信息存储到data字典中。

  7. 打印获取到的信息:使用print()函数打印data字典中的信息。

  8. 主程序入口:使用if __name__ == '__main__':判断当前文件是否被直接执行,如果是则执行以下代码。

  9. 构造要爬取的页面地址列表:使用列表推导式构造一个包含要爬取的页面地址的列表。

  10. 调用函数获取页面信息:使用for循环遍历页面地址列表,并调用get_info()函数获取每个页面的信息。

  11. 控制爬虫速度:使用time.sleep()函数控制爬虫的速度,防止过快被封IP。

源码:

    如果你对白嫖、有偿返现活动,感兴趣:可以关注:https://bbs.csdn.net/topics/617804998

import requests  # 发送网络请求,获取 HTML 等信息
from bs4 import BeautifulSoup  # 解析 HTML 信息,提取需要的信息
import time  # 控制爬虫速度,防止过快被封IP


headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"
    # 添加浏览器头部信息,模拟请求
}

def get_info(url):
    # 参数 url :要爬取的网页地址
    web_data = requests.get(url, headers=headers)  # 发送网络请求,获取 HTML 等信息
    soup = BeautifulSoup(web_data.text, 'lxml')  # 解析 HTML 信息,提取需要的信息

    # 通过 CSS 选择器定位到需要的信息
    ranks = soup.select('span.pc_temp_num')
    titles = soup.select('div.pc_temp_songlist > ul > li > a')
    times = soup.select('span.pc_temp_tips_r > span')
    
    # for 循环遍历每个信息,并将其存储到字典中
    for rank, title, time in zip(ranks, titles, times):
        data = {
            "rank": rank.get_text().strip(),  # 歌曲排名
            "singer": title.get_text().replace("\n", "").replace("\t", "").split('-')[1],  # 歌手名
            "song": title.get_text().replace("\n", "").replace("\t", "").split('-')[0],  # 歌曲名
            "time": time.get_text().strip()  # 歌曲时长
        }
        print(data)  # 打印获取到的信息

if __name__ == '__main__':
    urls = ["https://www.kugou.com/yy/rank/home/{}-8888.html".format(str(i)) for i in range(1, 24)]
    # 构造要爬取的页面地址列表
    for url in urls:
        get_info(url)  # 调用函数,获取页面信息
        time.sleep(1)  # 控制爬虫速度,防止过快被封IP

效果图:

爬取酷狗,爬虫案例100,python,人工智能,开发语言

  给大家推荐一个网站

    IT今日热榜 一站式资讯平台

爬取酷狗,爬虫案例100,python,人工智能,开发语言


        里面包含了上百个IT网站,欢迎大家访问:IT今日热榜 一站式资讯平台

   iToday,打开信息的新时代。作为一家创新的IT数字媒体平台,iToday致力于为用户提供最新、最全面的IT资讯和内容。里面包含了技术资讯、IT社区、面试求职、前沿科技等诸多内容。我们的团队由一群热爱创作的开发者和分享的专业编程知识爱好者组成,他们精选并整理出真实可信的信息,确保您获得独特、有价值的阅读体验。随时随地,尽在iToday,与世界保持连接,开启您的信息新旅程!

IT今日热榜 一站式资讯平台IT今日热榜汇聚各类IT热榜:虎嗅、知乎、36氪、京东图书销售、晚点、全天候科技、极客公园、GitHub、掘金、CSDN、哔哩哔哩、51CTO、博客园、GitChat、开发者头条、思否、LeetCode、人人都是产品经理、牛客网、看准、拉勾、Boss直聘http://itoday.top/#/文章来源地址https://www.toymoban.com/news/detail-753246.html

到了这里,关于【python】爬取酷狗音乐Top500排行榜【附源码】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python爬取酷我音乐

    🎈 博主: 一只程序猿子 🎈  博客主页: 一只程序猿子 博客主页 🎈  个人介绍: 爱好(bushi)编程! 🎈 创作不易:喜欢的话 麻烦您 点个👍和 ⭐ ! 🎈  欢迎访问我的主页(点我直达) 🎈 除此之外您还可以通过个人名片联系我 👉👉👉👉👉👉 额滴名片儿 目录 1.介绍

    2024年02月04日
    浏览(30)
  • Python爬虫案例分享【爬取豆瓣电影排行榜的电影名称和评分】

    注意:在运行此代码之前,请确保已安装 requests 和 beautifulsoup4 库

    2024年01月19日
    浏览(44)
  • 贵金属实时行情看盘软件排行榜(top 10)

    贵金属实时行情看盘软件哪个好,还是得看MT4软件,MT4是俄罗斯软件公司MetaQuotes生产的一款以外汇和贵金属交易为主的软件,其功能十分全面,目前全球有超过100家贵金属公司和30个国家的银行选择MT4软件作为网络交易平台。MT4综合行情图表、技术分析、下单交易四大功能于

    2024年02月03日
    浏览(33)
  • 【Python大数据期末/课程设计】动态爬取“纵横中文网“小说排行榜数据并进行可视化处理 (flask框架/MySQL数据库/echarts数据可视化)

    代写C语言、C++、Java、Python、HTML、JavaScript、vue、MySQL相关编程作业, 长期接单,信誉有保证,标价10-20每份,如有需要请加文章最下方QQ。 本文资源:https://download.csdn.net/download/weixin_47040861/89149396 题目描述: 爬取“纵横中文网” 1.利用爬虫技术爬取完整的一千条数据. 2.将爬

    2024年04月25日
    浏览(33)
  • 贴吧照片和酷狗音乐简单爬取

    很简单,主要是两大步 这里注意找准对应资源的 url ,如果对应资源不让程序代码访问,这里可以伪装成浏览器发起请求。 这里解析看具体情况,一般是筛选标签之中的信息或者资源,有很多筛选的第三方包和方法 导入 requests 和 lxml 两个第三方包,没有需要下载 找到我们需

    2024年02月12日
    浏览(22)
  • 微博排行榜:获取微博用户和话题排行榜API接口

    随着社交媒体的快速发展,微博已成为了人们获取信息的重要途径。而在微博中,用户和话题的排行榜更是引起了人们的广泛关注。那么如何获取微博用户和话题排行榜呢?下面介绍一下基于微博排行榜API接口的方法。     一、获取微博用户排行榜API接口 微博用户排行榜A

    2024年02月05日
    浏览(46)
  • Python逆向爬虫入门教程: 酷狗音乐加密参数signature逆向解析

    网站链接: aHR0cHM6Ly93d3cua3Vnb3UuY29tLw== 正常抓包分析找到音频链接地址   通过链接搜索找到对应的数据包位置     分析 signature 参数加密位置     通过 s 列表 合并成字符串, 传入d函数中进行加密, 返回32位, 还是比较明显的MD5加密, 相当于请求参数除了signature 以外, 在头尾加了一

    2024年02月02日
    浏览(42)
  • 【lettuce-排行榜】

    背景: 这次游戏中台采用lettuce的zset完成游戏内的本服和跨服排行榜,因此写一下案例。 pom.xml RedisManager.java RankManager.java RankItem.java RankInfo.java Main.java redis中查看下

    2024年01月21日
    浏览(40)
  • 爬虫:中国大学排行榜

            访问网址https://www.shanghairanking.cn/rankings,爬取排行榜数据,分析按区域的大学数量排行,得出有效结论。 爬取主榜数据并保存在文件中。 分析每个地区上榜大学的数量,保存在文件中。 分析前十名的地区的大学数量,绘制柱状图。 (4)说明爬虫爬取过程中可能

    2024年01月17日
    浏览(33)
  • 采购管理系统排行榜

    在这个数字化改变业务的年代,有哪些采购管理系统居于排行榜单的前列呢?作为一个自诩对该行业了如执掌的软件行业人员,给各位分享分享采购管理系统排行榜。 1、甄云数字化采购管理平台 国内做的一流的采购管理软件,算是行业内的老大哥,功能全面,也比较实用。

    2024年02月04日
    浏览(28)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包