编程小白的自学笔记十(python爬虫入门二+实例代码详解)

这篇具有很好参考价值的文章主要介绍了编程小白的自学笔记十(python爬虫入门二+实例代码详解)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

系列文章目录

编程小白的自学笔记九(python爬虫入门+代码详解)

编程小白的自学笔记八(python中的多线程) 

 编程小白的自学笔记七(python中类的继承)

 编程小白的自学笔记六(python中类的静态方法和动态方法)

编程小白的自学笔记五(Python类的方法) 


目录

系列文章目录

前言

一、如何查找网页的headers

二、如何查找top200数据

总结


前面我们已经学习了第三方模块requests模块的get函数,今天我们继续深入学习


一、如何查找网页的headers

通过上次的学习,我们发现我们需要传参headers来骗过服务器,从而让服务器相信是一个正常浏览器在访问它,并不是每一台计算的headers都相同,我们怎么知道呢?我们可以使用浏览器正常访问,然后在检查模式下查看,具体操作如下: 

1、打开网页的检查模式。用谷歌浏览器打开网页后,右击鼠标,点击检查。

编程小白的自学笔记十(python爬虫入门二+实例代码详解),编程小白自学笔记,笔记,python,爬虫,实例,spring cloud

 

2、选择Network。打开检查模式后,我们在右边的检查模式窗口,点击Network。

编程小白的自学笔记十(python爬虫入门二+实例代码详解),编程小白自学笔记,笔记,python,爬虫,实例,spring cloud

3、选择name。打开Network后,我们发现没有内容,这时点击键盘上的F5键,页面刷新后,出现了name选项卡。

 编程小白的自学笔记十(python爬虫入门二+实例代码详解),编程小白自学笔记,笔记,python,爬虫,实例,spring cloud

 4、查找User-Agent。点击name选项卡里的html文件,然后在右边找到User-Agent,然后把里面的内容复制到python就行了,代码如下:

import re
url = 'https://www.kugou.com/yy/rank/home/1-8888.html'
h = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
try:
    req = requests.get(url,headers=h)
    songs = re.findall(r'<li.*?title="(.*?)"',req.text)
    for song in songs:
        print(song)
except:
print('查询失败')

结果输出和上一篇文章一样。 

二、如何查找top200数据

上面的代码只能获取一个网页的数据,只能获得top20的数据,我们想要获取top200的数据,难道要写个十个代码。 

 No~,经过研究链接,我们发现,把后面的1-8888改成2-8888就翻页到第二面,以此类推,top180-200的链接是10-8888,链接本质上是以字符串的形式传给url,这样我们可以设置一个变量,通过for循环的形式,自动改变url的地址。我们来看一下代码:

import requests
import re
for i in range(1,11):
    url = f'https://www.kugou.com/yy/rank/home/{i}-8888.html'
    h = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
    try:
        req = requests.get(url,headers=h)
        songs = re.findall(r'<li.*?title="(.*?)"',req.text)
        for song in songs:
            print(song)
    except:
        print('查询失败')

输出的结果为:

苏星婕 - 听悲伤的情歌

指尖笑 - 不问ciaga

郭顶 - 凄美地

一只白羊 - 等不到的你

任夏 - 悲伤的爱情

张靓颖、王赫野 - 是你 (Live)

Mae Stephens - If We Ever Broke Up (Explicit)

Kui Kui - 宝贝在干嘛

张紫豪 - 可不可以

周杰伦 - 说好的幸福呢

周杰伦 - 晴天

汪苏泷、吉克隽逸 - Letting Go (Live)

承桓 - 我会等

蔡健雅 - Letting Go

任夏 - 失眠情歌 (Live合唱版)

苏星婕 - 吹着晚风想起你

周杰伦 - 我落泪情绪零碎

云狗蛋 - 天若有情

程响 - 可能

A-Lin - 天若有情

RE-D、是二哈ya、masta - 肯定

G.E.M. 邓紫棋 - 喜欢你

周杰伦 - 蒲公英的约定

胡彦斌 - 你要的全拿走

赵雷 - 我记得

BEYOND - 海阔天空

周杰伦 - 兰亭序

李宇春 - 下个,路口,见

郭静 - 心墙

黄静美、张俊波 - 我借人间二两墨

Wiz_H张子豪 - 一般的一天

曲肖冰 - 谁

G.E.M. 邓紫棋 - 多远都要在一起

Ailee - HEAVEN (Original Version)

蔡健雅 - 达尔文

王蓝茵 - 恶作剧

宝石Gem - 电梯战神 (Live)

羊羊 - 用情

周杰伦 - 明明就

盛哲 - 在你的身边

Taylor Swift - Love Story

Kelly Clarkson - Catch My Breath

张碧晨 - 开往早晨的午夜

cici_ - 把回忆拼好给你

周杰伦 - 稻香

周杰伦 - 花海

林俊杰 - 裹着心的光

Hillsong Young & Free - Wake (Studio)

周杰伦 - 七里香

买辣椒也用券 - 起风了

EXO - Baby, Don't Cry (인어의 눈물)

林俊杰 - 达尔文

周杰伦 - 我是如此相信

蔡健雅 - 红色高跟鞋

Lulleaux、Kid Princess - Empty Love

指尖笑 - 不问别离

蔡健雅 - 达尔文 II

永彬Ryan.B - 像极了

周杰伦 - 反方向的钟

王菲 - 如愿

告五人 - 爱人错过

周杰伦 - 说了再见

余超颖 - 春泥

周杰伦 - 最长的电影

侯泽润 - 有一种爱是你在

JISOO - 꽃 (FLOWER)

田馥甄 - 小幸运

周杰伦 - 爱在西元前

耳朵便利店 - 我不信你不惭愧

苏星婕 - 把回忆拼好给你

Ari Abdul - BABYDOLL (Speed) (Explicit)

Lil笑笑 - 山茶花读不懂白玫瑰

曾浩然 - 我的美丽

黄静美 - 庄周一生梦一蝶

周杰伦 - 一路向北

锤娜丽莎 - 我太笨

薛之谦 - 崇拜

陈奕迅 - 爱情转移

AGA - 孤雏

RAiNBOW计划、雷雨心 - 记念

小咪 - 我走后

DP龙猪、王云宏、陷阱表哥 - 翠花

林俊杰 - 不潮不用花钱

周林枫 - 忘了

周杰伦 - 青花瓷

胜屿 - 特别的爱给特别的你

五月天 - 后来的我们

FIFTY FIFTY - Cupid

Madnap、Pauline Herr - Slow Down

周杰伦 - 退后

汐音社、浮生梦 - 探窗

告五人 - 带我去找夜生活

尹昔眠 - 三拜红尘凉

程今 - 爱是无畏的冒险

侯泽润 - 一无所有的年纪

S.H.E - Super Star

周杰伦 - 搁浅

张芸京 - 偏爱

周杰伦 - 夜曲

任夏 - 爱的惩罚

柯柯柯啊 - 姑娘在远方

苏晗 - 最后一页

林俊杰 - 修炼爱情

黄绮珊、希林娜依高 - 是妈妈是女儿

BY2 - 我知道

张碧晨、王赫野 - 字字句句 (Live)

赵雷 - 我们的时光

Hedley - Lose Control (Explicit)

林俊杰 - 江南

那奇沃夫、KKECHO - 苦咖啡·唯一

容祖儿 - 就让这大雨全都落下

韩帅(HS) - 遇星

Henry Young、Ashley Alisha - One More Last Time

张叶蕾 - 还是分开

葛东琪 - 悬溺

街道办GDC、欧阳耀莹 - 春娇与志明

melo-D - Just Say Hello

BEYOND - 光辉岁月

印子月 - 落空

柯子颜 - 听悲伤的情歌

花玲、喵酱油、宴宁、Kinsen - 让风告诉你

Capper、罗言RollFlash - 雪 Distance

Glichery - Sea Of Problems (Explicit)

阿梨粤 - 晚风心里吹

林俊杰 - 美人鱼

邵帅 - 暖一杯茶

G.E.M. 邓紫棋 - 倒数

张韶涵、王赫野 - 篇章

崔子格 - 卜卦

侯泽润 - 惩罚与奖励

林俊杰 - 可惜没如果

G.E.M. 邓紫棋 - 桃花诺

萧亚轩 - 遗失的心跳

阿桑 - 一直很安静

當山みれい - 願い〜あの頃のキミへ〜 (祈愿~致那个时候的你~)

林俊杰 - Always Online

陈绮贞 - 还是会寂寞

周杰伦 - 半岛铁盒

汪苏泷、Jessica - 哎呀 (Live)

林俊杰 - 背对背拥抱

Zyboy忠宇 - 妈妈的话

周杰伦 - 轨迹

福禄寿FloruitShow - 我用什么把你留住 (Live)

周杰伦 - 枫

梦然 - 是你

薛之谦 - 天外来物

蔡健雅 - 越来越不懂

于冬然 - 听说你

王子健 - 循迹

林俊杰 - 裂缝中的阳光

周杰伦、张惠妹 - 不该

Pixxie、Zom Marie - ไม่ได้ก็ไม่เอา (Whatever)

萧敬腾、张淇 - 武家坡2021 (Live)

告五人 - 唯一

程响 - 人间烟火

李荣浩 - 李白

戚薇 - 如果爱忘了

G.E.M. 邓紫棋 - 再见

EXO - Baby, Don't Cry (人鱼的眼泪)

侯泽润 - 借口

Professor Green - In The Shadow Of The Sun

平生不晚 - 难却

郭顶 - 水星记

周杰伦 - 烟花易冷

浩然H.R - 年少的你啊

蔡徐坤 - Hug me

Meg Myers - Running Up That Hill

Max Elto - Shadow Of The Sun

蓝心羽 - 寂寞烟火

林俊杰 - 曹操

家家 - 命运

周杰伦 - 你听得到

周杰伦 - 告白气球

一只白羊 - 赐我

周传雄 - 黄昏

Dion Timmer、The Arcturians - The Best Of Me

林俊杰 - 浪漫血液

弦子、小乐哥(王唯乐) - 不甘 (Live)

林俊杰 - 将故事写成我们

青鸟飞鱼 - 此生不换

五月天 - 步步

LBI利比 - 小城夏天

吉克隽逸、于文文 - 你要的全拿走 (Live)

威仔、格子兮 - 我知道你不爱我

周杰伦 - 不能说的秘密

JVKE - golden hour

王力宏 - 我们的歌

半吨兄弟、张茜 - 乌兰巴托的夜

周林枫、L(桃籽) - 只为碎银几两

曲婉婷 - 我的歌声里

任夏 - 凭什么

付豪 - 他真的对你好吗

海洋小霞 - 向云端

柯柯柯啊 - 雨过天不晴

杨丞琳 - 雨爱

Daniel Powter - Free Loop

周杰伦 - 等你下课 (with 杨瑞代)

王忻辰、苏星婕 - 清空

丹正母子 - 乌兰巴托的夜

王以太、刘至佳 - 危险派对

KOKIA - ありがとう… (谢谢…)

张杰 - 他不懂

周杰伦 - 暗号

汪苏泷、容祖儿 - 就让这大雨全都落下 (Live)

Tungevaag、Raaban、Richard Smitt - All For Love

蓝心羽 - 阿拉斯加海湾

林俊杰 - 我还想她

Wiz Khalifa、Charlie Puth - See You Again

Öwnboss、SEVEK - Move Your Body (remix:Razihel)

Reynard Silva - The Way I Still Love You

筷子兄弟 - 老男孩

ycccc - 满天星辰不及你

一只白羊 - 吹安静的风

就是南方凯 - 巡光

杨丞琳 - 带我走

陆杰awr - 晚风遇见你

陆杰awr - 32度的晚风

许巍 - 曾经的你

侯泽润 - 下辈子做个狠心人

胡歌 - 忘记时间

200个数据不多不少,如果网页的地址没有特殊的规律,我想可以做一个列表,或者放在一个文件里,同样使用for循环来实现。 


总结

爬虫headers是指在发送请求时,附带的一些信息,用于模拟浏览器行为。常见的headers包括User-Agent、Referer、Cookies等。其中,User-Agent用于标识请求的来源,Referer用于标识请求的来源页面,Cookies用于存储登录状态等信息。文章来源地址https://www.toymoban.com/news/detail-579992.html

到了这里,关于编程小白的自学笔记十(python爬虫入门二+实例代码详解)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 爬虫入门指南(7):使用Selenium和BeautifulSoup爬取豆瓣电影Top250实例讲解【爬虫小白必看】

    在本篇博客中,我们将使用 Python 的 Selenium 和 BeautifulSoup 库来实现一个简单的网页爬虫,目的是爬取豆瓣电影TOP250的数据,并将结果保存到Excel文件中。 Selenium 是一个自动化测试工具,可以模拟用户在浏览器中的交互操作。我们将使用 Selenium 来打开网页、获取网页源码。 B

    2024年02月12日
    浏览(50)
  • 项目二:学会使用python爬虫请求库(小白入门级)

    上一章已经了解python爬虫的基本知识,这一次让我们一起来学会如何使用python请求库爬取目标网站的信息。当然这次爬虫之旅相信我能给你带来不一样的体验。 目录 一、安装requests 库 简介 安装 步骤 1.requests的基本使用3步骤 2.查看所使用编码 3.设置编码 二、认识requests请求

    2024年04月24日
    浏览(33)
  • python教程 入门学习笔记 第3天 编程基础常识 代码注释 变量与常量

    编程基础常识 一、注释 1、对代码的说明与解释,它不会被编译执行,也不会显示在编译结果中 2、注释分为:单行注释和多行注释 3、用#号开始,例如:#这是我的第一个python程序 4、注释可以写在单独一行,也可以写在一句代码后面 5、不想执行编译,又不能删除的代码,可

    2024年02月14日
    浏览(51)
  • 014集:python访问互联网:网络爬虫实例—python基础入门实例

    以pycharm环境为例: 首先需要安装各种库(urllib:requests:Openssl-python等) python爬虫中需要用到的库,大致可分为:1、实现 HTTP 请求操作的请求库;2、从网页中提取信息的解析库;3、Python与数据库交互的存储库;4、爬虫框架;5、Web框架库。 一、请求库 实现 HTTP 请求操作 1、

    2024年01月16日
    浏览(48)
  • Python教程_编程入门自学教程_菜鸟教程-免费教程分享

    Python - 教程 Python - 概述 Python - 环境设置 Python - 基本语法 Python - 变量类型 Python - 基本运算符 Python - 决策 Python - 循环 Python - 数字 Python - 字符串 Python - 列表 Python - 元组 Python - 字典 Python - 日期和时间 Python - 功能 Python - 模块 Python - 文件I / O. Python - 异常处理 Python - 面向对象

    2024年02月02日
    浏览(42)
  • 小白用chatgpt编写python 爬虫程序代码 抓取网页数据(js动态生成网页元素)

    jS动态生成,由于呈现在网页上的内容是由JS生成而来,我们能够在浏览器上看得到,但是在HTML源码中却发现不了        如果不加,如果网站有防爬技术,比如频繁访问,后面你会发现什么数据都取不到 User-Agent获取地方:  网页获取位置: 使用代理IP解决反爬。(免费代理

    2024年02月01日
    浏览(87)
  • 网络安全(黑客)-小白自学笔记

    想自学网络安全(黑客技术)首先你得了解什么是网络安全!什么是黑客! 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、

    2024年02月06日
    浏览(38)
  • Python基础编程入门实例:恺撒密码

    恺撒撒密码是古罗马恺撒大帝用来对军事情报进行加密的算法,它采用了替换方法对信息中的每一个英文字符循环替换为字母表序列该字符后面第三个字符: 原文:A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 密文:D E F G H I J K L M N O P Q R S T U V W X Y Z A B C 原文字符P,其密文字符

    2024年02月07日
    浏览(40)
  • 网络安全(黑客技术)—小白自学笔记

    网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 一、是市场需求量高; 二、则是发展相对成熟入门比较容易。 需要掌握的知识点偏多(举例): 外围打

    2024年02月08日
    浏览(41)
  • vue-vben-admin 与.net core 结合实例 【自学与教学 小白教程】---第4节---部门管理

     ue-vben-admin 与.net core 结合实例 这里计划使用.net core 作为后端 。目标:打造好看 易用 开箱即用 的netcore一体化框架。Vue Vben Admin For NetCore 取命 hcrain-vvadmin 我不是前端人员 但有时开发还是要写一些界面。 之前使用layui是时候 狠心升级下了。 只为了好看----------于是  小白教

    2024年01月16日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包