爬虫爬取黑马程序员论坛的网页数据

这篇具有很好参考价值的文章主要介绍了爬虫爬取黑马程序员论坛的网页数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

#引入requests库
import requests
#根据url发起请求,获取服务器响应文件  url:待抓取的url
def load_page(url):

#这里的请求头header可以是任意一个网站上面的请求头,进入开发者模式就可以找到,推荐使用google浏览器,比较方便查看#
    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.95 Safari/537.36 QIHU 360SE'}

    #发送get请求
    response = requests.get(url, headers = header)

    #返回html源代码
    return response.text
#将html文件保存为网页文件
def save_file(html, filename):
    print('正在保存' + filename)
    with open(filename, 'w', encoding='utf-8') as file:
        file.write(html)
#调度函数
def heima_fornum(begin_page, end_page):
    for page in range(begin_page, end_page + 1):
        #组合页面完整的url
        url = f'http://bbs.itheima.com/forum-568-{page}.html'
#上面的url以黑马程序员论坛的大数据技术交流模块为例子
        #文件名称
        file_name = '第' + str(page) + '页.html'
        #抓取网页数据
        html = load_page(url)
        #保存网页数据
        save_file(html, file_name)
#定义主函数
if __name__ == '__main__':
    begin_page = int(input('请输入起始页:'))
    end_page = int(input('请输出结束页:'))
    heima_fornum(begin_page, end_page)

输入完成后运行将会是这样:

爬虫爬取黑马程序员论坛的网页数据

例如:

输入起始页码"1"

结束页码"6" 

爬虫爬取黑马程序员论坛的网页数据

那么将会保存1—6页的网络代码

保存后也页面可以本地文件夹中查看

 爬虫爬取黑马程序员论坛的网页数据

 打开任意一个本地网页文件,将可以看到论坛上对应的内容

爬虫爬取黑马程序员论坛的网页数据

这样看来是不是很简单呢文章来源地址https://www.toymoban.com/news/detail-456555.html

到了这里,关于爬虫爬取黑马程序员论坛的网页数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 黑马程序员 Docker笔记

    本篇学习笔记文档对应B站视频: 同学们,在前两天我们学习了Linux操作系统的常见命令以及如何在Linux上部署一个单体项目。大家想一想自己最大的感受是什么? 我相信,除了个别天赋异禀的同学以外,大多数同学都会有相同的感受,那就是麻烦。核心体现在三点: 命令太

    2024年01月23日
    浏览(69)
  • 【黑马程序员】PySpark学习

    定义:Apache Spark是用于大规模数据处理的统一分析引擎 简单来说,spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算PB、TB乃至EB级别的海量数据 Spark对Python语言的支持重点体现在Python第三方库:PySpark上 PySpark是由Spark官方开发的Python语言第三方库 Python开发

    2024年04月17日
    浏览(73)
  • Vector容器(黑马程序员)

    视频与文档链接 功能: vector数据结构和 数组非常相似 ,也称为 单端数组 普通数组一旦分配内存,容量就被固定了,无法扩展。 vector与普通数组区别: 不同之处在于数组是静态空间,而vector可以 动态扩展 动态扩展: 并不是在原空间之后续接新空间,而是找更大的内存空

    2024年02月08日
    浏览(46)
  • 黑马程序员前端学习接口变更

    VUE 刘老师离职了,VUE的接口失效的,一律换为黑马官方接口 axios.defaults.baseURL = \\\'https://www.escook.cn\\\' 换成 axios.defaults.baseURL = \\\'https://applet-base-api-t.itheima.net\\\'    微信小程序 https://api-ugo-web.itheima.net https://www.uinav.com 刘老师博客简介为不再讲课的程序员,但他真的是一位不错的老师

    2024年02月09日
    浏览(53)
  • C++面向对象(黑马程序员)

    引用的本质:在C++内部实现是一个指针常量 C++面向对象三大特征:封装,继承,多态 公共权限 public 成员类内可以访问,类外可以访问 保护权限 protected 成员类内可以范文,类外不可以访问 私有权限 private 成员类内可以范文,类外不可以访问 保护权限和私有权限在继承中体

    2024年02月04日
    浏览(48)
  • 黑马程序员rocketmq第二章

    maven工程springboot-rocketmq-producer application.properties 测试类 springboot-rocketmq-consumer application.properties zookeeper集群搭建 1.在/usr/soft/zookeeper-cluster下存放zookeeper-3.4.6.tar.gz 2.解压:tar -zvxf zookeeper-3.4.6.tar.gz 3./usr/soft/zookeeper-cluster/zookeeper-3.4.6/conf 下重命名 zoo_sample.cfg为zoo.cfg mv zoo_sample.cf

    2023年04月26日
    浏览(87)
  • [学习笔记]黑马程序员python教程

    1.9.1异常的捕获 1.9.1.1 为什么要捕获异常 1.9.1.2 捕获常规的异常 1.9.1.3 捕获指定的异常 e是接受异常信息的变量 1.9.1.4 捕获多个异常 1.9.1.5 捕获全部异常 1.9.1.6 异常的else 1.9.1.7 异常的finally 1.9.2 异常的传递 如果异常是在某一层产生,但是没有被catch,那么会继续往上层抛出,此

    2024年02月07日
    浏览(74)
  • SpringBoot-黑马程序员-学习笔记(三)

    目录 30.springboot整合MyBatis-plus 32.SSM整合 38.MP中的条件查询 小知识:许多放在类前面的注解,比如@Mapper,@Service都是将该类定义成一个Bean,交给spring管理 39.Service模块 1.创建普通springboot项目,勾选Mysql 框架 2.在pom包里面导入mybatis-plus的坐标 3.把数据层的类继承BaseMapper这个接口

    2024年02月07日
    浏览(50)
  • 学习笔记-微服务高级(黑马程序员)

    测试软件 jmeter 雪崩问题 个微服务往往依赖于多个其它微服务,服务提供者I发生了故障,依赖于当前服务的其它服务随着时间的推移形成级联失败 超时处理 设定超时时间,请求超过一定时间没有响应就返回错误信息 仓壁模式 限定每个业务能使用的线程数,避免耗尽整个tom

    2024年04月25日
    浏览(55)
  • 黑马程序员---微服务笔记【实用篇】

        微服务实现流程:  所有要学的技术:  分层次教学:  具体分层:  单体架构 将业务所有功能集中在一个项目中开发,打成一个包部署 优点:架构简单、部署成本低 缺点:耦合度高 分布式架构 根据业务功能对系统进行查分,每个业务模块作为独立项目开发,称为一

    2024年02月07日
    浏览(60)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包