爬虫实战|手把手教你用Python爬虫(附详细源码)

这篇具有很好参考价值的文章主要介绍了爬虫实战|手把手教你用Python爬虫(附详细源码)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

什么是爬虫?

实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就…

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。一句话概括就是网上信息搬运工。

我们再来看下爬虫应该遵循的规则:robots协议是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。一句话概括就是告诉你哪些东西能爬哪些不能爬。

了解了定义和规则,最后就是熟悉爬虫的基本原理了,很简单,作为一名灵魂画手,我画个示意图给你看下就明白了。

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

 (⊙o⊙)…尴尬,鼠标写字咋这么丑,都不好意思说自己学过书法,好一个脸字打得呱呱响。

项目背景

理论部分差不多讲完了,有些小朋友估计要嫌我啰嗦了,那就不废话,直接讲实操部分。本次爬虫小项目是应朋友需求,爬取中国木材价格指数网中的红木价格数据,方便撰写红木研究报告。网站长这样:

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

 所需字段已用红框标记,数据量粗略看了下,1751页共5万多条记录,如果你妄想复制粘贴的话,都不知道粘到猴年马月了。而python只要运行几分钟就能把所有数据保存到你的excel里,是不是很舒服?

项目实战

工具:PyCharm

Python版本:Python 3.7

浏览器:Chrome (推荐)

对于第一次写爬虫的朋友可能觉得很麻烦,咱不慌,由浅入深,先爬一页数据试试嘛。

一.爬取一页

首先,我们需要简单分析下网页结构,鼠标右键点击检查,然后点击Network,刷新网页,继续点击Name列表中的第一个。我们发现此网站的请求方式为GET,请求头Headers反映用户电脑系统、浏览器版本等信息。

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

 接着,把爬虫所需的库都pip安装一下并导入,所有库的功能都有注释。

import csv  #用于把爬取的数据存储为csv格式,可以excel直接打开的
import time  #用于对请求加延时,爬取速度太快容易被反爬
from time import sleep #同上
import random  #用于对延时设置随机数,尽量模拟人的行为
import requests  #用于向网站发送请求
from lxml import etree    #lxml为第三方网页解析库,强大且速度快

构造请求url,添加头部信息headers即复制前文标记的User-Agent,通过requests.get方法向服务器发送请求,返回html文本。添加headers目的在于告诉服务器,你是真实的人在访问其网站。如果你不添加headers直接访服务器,会在对方服务器显示python在访问,那么,你很可能会被反爬,常见的反爬就是封你ip。

url = 'http://yz.yuzhuprice.com:8003/findPriceByName.jspx?page.curPage=1&priceName=%E7%BA%A2%E6%9C%A8%E7%B1%BB'
headers = {
    'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36",
}
response = requests.get(url, headers=headers, timeout=10)
html = response.text  
print(html)

我们运行下以上代码,看下效果:

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

 看到这个,第一次接触爬虫的朋友可能会有点懵。

其实这就是网页源代码,咱们右键打开下源代码看一哈。

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

 长这样:

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

 而我们需要提取的数据,就潜藏在这网页源代码中,我们要用lxml库中的etree方法解析下网页。

parse = etree.HTML(html)  #解析网页

解析完之后,就可以开开心心的提取我们所需要的数据了。方法很多,比如xpath、select、beautiful soup,还有最难的re(正则表达式)。本文爬取的数据结构较为简单,就直接用xpath玩一下吧。

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

 我们发现,每一行数据对应源码里的一个id=173200的tr,那就先把这些tr都提取下来。

all_tr = parse.xpath('//*[@id="173200"]')

有些小伙伴不会写xpath。

那就找个简单办法,直接copy所需的xpath。

所有tr都提取下来了,接下来就得依次从tr里面提取具体字段了。比如提取商品名称字段,点开第一个tr,选中商品,copy其xpath。其他字段同理。

以下要注意几点,tr={key1 : value1, key2 : value2 }是python的字典数据类型(你也可以根据自己兴趣或需要存为列表或元组类型)。‘’.join是指把获取到的列表转为字符串。./是指继承前面的//*[@id=“173200”],strip()表示对提取的数据进行简单的格式清洗。

for tr in all_tr:
    tr = {
        'name': ''.join(tr.xpath('./td[1]/text()')).strip(),
        'price': ''.join(tr.xpath('./td[2]/text()')).strip(),
        'unit': ''.join(tr.xpath('./td[3]/text()')).strip(),
        'supermaket': ''.join(tr.xpath('./td[4]/text()')).strip(),
        'time': ''.join(tr.xpath('./td[5]/text()')).strip()
    }


咱们打印一下print(tr),看下效果。

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行
此时,你的心情也许是这样的:

但还没完,数据有了,咱们还得保存csv格式到本地,这一步比较简单,直接贴代码。

with open('wood.csv', 'a', encoding='utf_8_sig', newline='') as fp:
    # 'a'为追加模式(添加)
    # utf_8_sig格式导出csv不乱码
    fieldnames = ['name', 'price', 'unit', 'supermaket', 'time']
    writer = csv.DictWriter(fp, fieldnames)
    writer.writerow(tr)

打开下刚生成的wood.csv,长这样:

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

二.爬取多页

 别开心的太早,你还仅仅是爬了一页数据,人家复制粘贴都比你快。咱们的志向可不在这,在诗和远方,哦不,是秒速爬海量数据。

那么,怎么才能爬取多页数据呢?没错,for循环。

我们再回过头来分析下url:

http://yz.yuzhuprice.com:8003/findPriceByName.jspx?page.curPage=1&priceName=%E7%BA%A2%E6%9C%A8%E7%B1%BB

我们把里面的page.curPage改成2试试,如下:

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

 你也许发现玄机,只要改变page.curPage就可以实现翻页。OK,那我们直接在url前面加个循环就好啦。format(x)是一种格式化字符串的函数,可以接受不限个数的参数。

for x in range(1,3):
    url = 'http://yz.yuzhuprice.com:8003/findPriceByName.jspx?page.curPage={}&priceName=%E7%BA%A2%E6%9C%A8%E7%B1%BB'.format(x)

至此,你只要改变range想爬多少页就爬多少页,开不开心?意不意外?

三.完善爬虫

如果仅仅按照以上代码爬虫,很有可能爬了十几页程序就崩了。我就多次遇到过中途报错,导致爬虫失败的情况。好不容易写出的爬虫,怎么说崩就崩呢。

报错原因就很多了,玩爬虫的都知道,调试bug是很麻烦的,需要不断试错。这个爬虫的主要bug是TimeoutError。因此,我们需要进一步完善代码。

首先,要将以上代码封装成函数,因为不用函数有以下缺点:

1、复杂度增大

2、组织结构不够清晰

3、可读性差

4、代码冗余

5、可扩展性差

其次,在可能出现报错的地方都加上异常处理。即try…except。

 

题外话

在此疾速成长的科技元年,编程就像是许多人通往无限可能世界的门票。而在编程语言的明星阵容中,Python就像是那位独领风 骚的超级巨星, 以其简洁易懂的语法和强大的功能,脱颖而出,成为全球最炙手可热的编程语言之一。

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行
Python 的迅速崛起对整个行业来说都是极其有利的 ,但“人红是非多”,导致它平添了许许多多的批评,不过依旧挡不住它火爆的发展势头。

如果你对Python感兴趣,想要学习pyhton,这里给大家分享一份Python全套学习资料,都是我自己学习时整理的,希望可以帮到你,一起加油!

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

👉CSDN大礼包🎁:全网最全《Python学习资料》免费分享(安全链接,放心点击)👈

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行文章来源地址https://www.toymoban.com/news/detail-787061.html

1️⃣零基础入门

① 学习路线

对于从来没有接触过Python的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

② 路线对应学习视频

还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~
爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

③练习题

每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

2️⃣国内外Python书籍、文档

① 文档和书籍资料

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

3️⃣Python工具包+项目源码合集

①Python工具包

学习Python常用的开发软件都在这里了!每个都有详细的安装教程,保证你可以安装成功哦!
爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

②Python实战案例

光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。100+实战案例源码等你来拿!
爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

③Python小游戏源码

如果觉得上面的实战案例有点枯燥,可以试试自己用Python编写小游戏,让你的学习过程中增添一点趣味!
爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

4️⃣Python面试题

我们学会了Python之后,有了技能就可以出去找工作啦!下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行
爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

5️⃣Python兼职渠道

而且学会Python以后,还可以在各大兼职平台接单赚钱,各种兼职渠道+兼职注意事项+如何和客户沟通,我都整理成文档了。
爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

上述所有资料 ⚡️ ,朋友们如果有需要的,可以扫描下方👇👇👇二维码免费领取🆓

爬虫代码怎么运行,python,编程,爬虫,python,爬虫,开发语言,数据分析,转行

到了这里,关于爬虫实战|手把手教你用Python爬虫(附详细源码)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 手把手教你用VMware安装Centos7.9镜像(史上最详细)

            VMware WorkStation是著名的虚拟机软件。不需要分区或重开机就能在同一台PC上使用两种以上的操作系统,完全隔离并且保护不同OS的操作环境以及所有安装在OS上面的应用软件和资料,不同的OS之间还能互动操作,包括网络、周边、文件分享以及复制贴上功能。试用期

    2024年02月08日
    浏览(35)
  • 手把手教你用python演奏音乐(以富士山下为例)

    目录 1.代码 2.文本 3.效果图  这两天,我非常无聊,琢磨出了十二平均律,并利用mido库进行编写,实现了利用python演奏音乐。废话不多说了,直接上代码,供诸位大佬把玩。  

    2024年02月12日
    浏览(26)
  • 手把手教你用python一键抢12306火车票(附代码)

    哈喽,哈喽~,一年一度的抢火车票大战正式拉开序幕… 然饿大多数人碰到的是这种情况:当你满心期待摩拳擦掌准备抢票的时候,你会发现一票难求!想回趟家真难! 那么作为程序猿的你,当然要用程序猿的方式来抢票!下面分享用python来抢票! 城市cookie可根据具体需求自

    2024年02月15日
    浏览(45)
  • 手把手教你用Python编一个《我的世界》 2.材质及第一人称

    本次,我们将实现这样一个效果: 首先,导入ursina模块 创建app 定义Block类,继承自Button 然后,我们需要一个天空 定义Sky类 因为我们所有的方块包括天空都需要图片材质,所以我们在程序开头写以下代码: 然后咱们先创建一个超平坦地形,厚度就只有1层吧,因为方块多了很

    2024年02月04日
    浏览(44)
  • 手把手教你用代码画架构图

    作者:京东物流 覃玉杰 本文将给大家介绍一种简洁明了软件架构可视化模型——C4模型,并手把手教大家如何使用 代码 绘制出精美的C4架构图。 阅读本文之后,读者画的架构图将会是这样的: 注:该图例仅作绘图示例使用,不确保其完整性、可行性。 C4是软件架构可视化

    2024年02月04日
    浏览(37)
  • 快收藏!手把手教你用AI绘画

    点个关注👆跟腾讯工程师学技术 最近看到一篇有趣的文章,一副名为《太空歌剧院》(如下图)的艺术品在某美术比赛上,获得了第一名的成绩, 有意思的是这件作品是通过AI来实现的画作, 顿时觉得非常神奇。结合近期科技媒体频频报道的AI作画爆火现象,深入了解了下

    2024年02月09日
    浏览(27)
  • 手把手教你用AirtestIDE无线连接手机

    一直以来,我们发现同学们都挺喜欢用无线的方式连接手机,正好安卓11出了个无线连接的新姿势,我们今天就一起来看看,如何用AirtestIDE无线连接你的Android设备~ 当 手机与电脑处在同一个wifi 下,即可尝试无线连接手机了,但是这种方式受限于网络连接的稳定性,可能会出

    2023年04月18日
    浏览(39)
  • 手把手教你用 Jenkins 自动部署 SpringBoot

    CI/CD 是一种通过在应用开发阶段引入自动化来频繁向客户交付应用的方法。 CI/CD 的核心概念可以总结为三点: 持续集成 持续交付 持续部署 CI/CD 主要针对在集成新代码时所引发的问题(俗称\\\"集成地狱\\\")。 为什么会有集成地狱这个“雅称”呢?大家想想我们一个项目部署的

    2024年02月02日
    浏览(37)
  • 手把手教你用video实现视频播放功能

    哈喽。大家好啊 今天需要做一个视频播放列表,让我想到了video的属性 下面让我们先看看实现效果 这里是我的代码 width是当前播放页面的宽度 height是当前播放页面的高度 Controls属性用就是控制栏那些了 比如播放按钮 暂停按钮 autoplay是指的是自动播放 poster是指的是初始化进

    2024年02月12日
    浏览(35)
  • 手把手教你用jmeter做压力测试(详图)

    压力测试是每一个Web应用程序上线之前都需要做的一个测试,他可以帮助我们发现系统中的瓶颈问题,减少发布到生产环境后出问题的几率;预估系统的承载能力,使我们能根据其做出一些应对措施。所以压力测试是一个非常重要的步骤,下面我带大家来使用一款压力测试工

    2024年02月02日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包