爬虫案例—爬取ChinaUnix.net论坛板块标题

这篇具有很好参考价值的文章主要介绍了爬虫案例—爬取ChinaUnix.net论坛板块标题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

爬虫案例—爬取ChinaUnix.net论坛板块标题

ChinaUnix.net论坛网址:http://bbs.chinaunix.net

目标:抓取各个板块的标题和内容的标题

网站截图:

爬虫案例—爬取ChinaUnix.net论坛板块标题,笔记,编程,爬虫案例,爬虫,python

利用requests和xpath实现目标。源码如下:

import requests
from lxml import etree


headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',}

url = 'http://bbs.chinaunix.net'

res = requests.get(url, headers=headers)

html = res.text

tree = etree.HTML(html)
div_lst = tree.xpath('//div[@class="mn"]/div/table')

for div in div_lst[:6]:
    print('板块名称:', div.xpath('./tbody[1]/tr/td//h2/a/text()')[0])
    for tr in div.xpath('./tbody[2]/tr'):
        for td in tr.xpath('./td'):
            # if td.xpath('./table'):
            #     print(td.xpath('./table/tr/td[2]/a/text()'))
            table_lst = td.xpath('./table')
            if table_lst:
                print(td.xpath('./table/tr/td[2]/a/text()')[0],end='\t')

        print('')
    print('=' * 50)

运行结果如下:文章来源地址https://www.toymoban.com/news/detail-804314.html

抓取ChinaUnix板块标题.py

板块名称: IT运维
Docker	监控及自动化运维技术	集群和高可用	
服务器应用	虚拟化与云服务	分布式文件系统(FastDFS)	
数据安全	服务器及硬件技术	存储备份	
网络技术	初创企业IT架构选型	中间件技术	
Hadoop和大数据技术	
==================================================
板块名称: 操作系统
Linux新手园地	Linux系统管理	Windows系统	
BSD	AIX	AS400	
Solaris	HP-UX	其他UNIX	
移动操作系统	Mac OS X	
==================================================
板块名称: 程序设计
C/C++	Linux环境编程	内核源码	
Shell	Perl	Java	
PHP	Python	Ruby	
嵌入式开发	驱动开发	Web开发	
架构设计	CPU与编译器	软件配置管理	
Golang	Erlang	
==================================================
板块名称: 数据库技术
MySQL	Sybase	Oracle	
PostgreSQL	DB2	Informix	
数据仓库与数据挖掘	NoSQL技术	
==================================================
板块名称: 综合交流区
IT资讯	IT职业生涯	IT图书与评论	
二手交易	下载共享	
==================================================
板块名称: 站务及频道
站务交流	博客SNS站务交流区	CU活动专区	
频道交流区	
==================================================

Process finished with exit code 0

到了这里,关于爬虫案例—爬取ChinaUnix.net论坛板块标题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python爬虫爬取微信公众号的阅读数、喜爱数、文章标题和链接等信息

    爬虫的步骤: (1)申请自己的公众号 (2)使用fiddler抓包工具 (3)pycharm (一)申请公众号 官网:微信公众平台 填入相关信息创建微信公众号 进入公众号界面如下: 找到新的创作-图文信息 在弹出的界面中查找公众号文章-输入公众号名称-确定 点击确认之后,进入公众号

    2024年02月05日
    浏览(58)
  • 【爬虫案例】用Python爬取抖音热榜数据!

    目录 一、爬取目标 二、编写爬虫代码 三、同步讲解视频 3.1 代码演示视频 四、获取完整源码 您好,我是@马哥python说,一名10年程序猿。 本次爬取的目标是:抖音热榜 共爬取到50条数据,对应TOP50热榜。含5个字段,分别是: 热榜排名,热榜标题,热榜时间,热度值,热榜标签。

    2024年02月16日
    浏览(60)
  • 【爬虫案例】用Python爬取知乎热榜数据!

    目录 一、爬取目标 二、编写爬虫代码 三、同步讲解视频 3.1 代码演示视频 3.2 详细讲解视频 四、获取完整源码 您好,我是@马哥python说,一名10年程序猿。 本次爬取的目标是:知乎热榜 共爬取到6个字段,包含: 热榜排名, 热榜标题, 热榜链接, 热度值, 回答数, 热榜描述。 用

    2024年02月15日
    浏览(50)
  • 【经典爬虫案例】用Python爬取微博热搜榜!

    目录 一、爬取目标 二、编写爬虫代码 2.1 前戏 2.2 获取cookie 2.3 请求页面 2.4 解析页面 2.5 转换热搜类别 2.6 保存结果 2.7 查看结果数据 三、获取完整源码 您好,我是@马哥python说,一名10年程序猿。 本次爬取的目标是: 微博热搜榜 ​ 分别爬取每条热搜的: 热搜标题、热搜排名

    2024年02月13日
    浏览(45)
  • python爬虫如何写,有哪些成功爬取的案例

    编写Python爬虫时,常用的库包括Requests、Beautiful Soup和Scrapy。以下是三个简单的Python爬虫案例,分别使用Requests和Beautiful Soup,以及Scrapy。 1. 使用Requests和Beautiful Soup爬取网页内容: 2. 使用Requests和正则表达式爬取图片: 3. 使用Scrapy爬取网站: 首先,确保已安装Scrapy: 创建一个

    2024年01月19日
    浏览(99)
  • 【爬虫案例】用Python爬取百度热搜榜数据!

    目录 一、爬取目标 二、编写爬虫代码 三、同步视频讲解 四、完整源码 您好,我是@马哥python说,一名10年程序猿。 本次爬取的目标是:百度热搜榜 分别爬取每条热搜的: 热搜标题、热搜排名、热搜指数、描述、链接地址。 下面,对页面进行分析。 经过分析,此页面有XH

    2024年02月13日
    浏览(39)
  • Python爬虫:一个爬取豆瓣电影人像的小案例

    从谷歌浏览器的开发工具进入 选择图片右键点击检查 翻页之后发现网址变化的只有start数值,每次变化值为30 Python代码 把爬取的图片全部放到新建的文件夹中存放

    2024年02月10日
    浏览(85)
  • 〖Python网络爬虫实战㉔〗- Ajax数据爬取之Ajax 分析案例

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                 python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2024年02月07日
    浏览(72)
  • 爬虫案例—京东数据爬取、数据处理及数据可视化(效果+代码)

            使用PyCharm(引用requests库、lxml库、json库、time库、openpyxl库和pymysql库)爬取京东网页相关数据(品牌、标题、价格、店铺等) 数据展示(片段):         京东网页有反爬措施,需要自己在网页登录后,获取cookie,加到请求的header中(必要时引入time库,设置爬取

    2024年02月09日
    浏览(47)
  • 〖Python网络爬虫实战㉕〗- Ajax数据爬取之Ajax 案例实战

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                 python项目实战                  Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2024年02月06日
    浏览(70)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包