【爬虫】对某某贴吧主页的爬虫分析+源码

这篇具有很好参考价值的文章主要介绍了【爬虫】对某某贴吧主页的爬虫分析+源码。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 网站分析

  想要的内容有标题、时间和帖子跳转链接

【爬虫】对某某贴吧主页的爬虫分析+源码

查看网站源代码,发现想要的内容就在里面,那就好办了,直接上正则,当然beautifulsoup也不是不可以

【爬虫】对某某贴吧主页的爬虫分析+源码

2. Python源码

import requests
import re
from prettytable import PrettyTable

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/114.0'
}
x = PrettyTable(["标题", "时间", "链接"])
x.align["标题"] = "l"
// 这里会整合三页内容,想要多少页,就把101改成50*(页数-1)+1
for i in range(0, 101, 50):
    resp = requests.get(f'https://tieba.baidu.com/f?kw=%E5%8D%9A%E5%B0%94%E7%89%B9&ie=utf-8&pn={i}', headers=headers)
    with open(file='1.html', mode='w', encoding='utf-8') as f:
        f.write(resp.text)
    obj = re.compile('<a rel="noopener" href="/p/(?P<url>.*?)" title="(?P<title>.*?)".*?<span class="pull-right is_show_create_time" title="创建时间">(?P<time>.*?)</span>', re.S)
    title = obj.finditer(resp.text)
    for i in title:
        x.add_row([i.group('title'), i.group('time'), 'https://tieba.baidu.com/p/' + i.group('url')])
print(x)

 3. 效果展示

【爬虫】对某某贴吧主页的爬虫分析+源码

ps:好久没玩爬虫了,但是在网页版逛吧时看到很多广告让我很不爽,故写下此脚本。

 文章来源地址https://www.toymoban.com/news/detail-504211.html

到了这里,关于【爬虫】对某某贴吧主页的爬虫分析+源码的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 抖音web主页视频爬虫

    文章内容仅供参考学习,如有侵权请联系作者进行删除 抖音主页视频爬虫演示,程序运行长期稳定【python和php两个版本】。 ​ python部分源码展示: 

    2024年02月11日
    浏览(41)
  • 微信社区小程序源码/h5/圈子论坛贴吧交友/博客/社交/陌生人社交/宠物/话题/私域/同城引流微信小程序源码

    H5多端圈子社区论坛系统小程序源码,交友/博客/社交/陌生人社交,即时聊天,私域话题,社区论坛圈子,信息引流小程序源码,广场/微校园/微小区/微同城/圈子论坛社区系统,含完整的后台系统。thinkPHP+uniapp 全开源。 功能说明: 小程序授权登陆,H5和APP,手机号登陆,发

    2024年02月11日
    浏览(49)
  • 基于github制作个人学术网站(主页)

    首先找到一个学术模板,fork到远程仓库。academicpages,如果不是很清楚具体的步骤,可以参考保姆级教程。在github上对该网站代码修改不是很方便,肯定是在本地进行更新后push到远程仓库。 学会下载和安装就行,一路默认,可以先学习一下Git相关的原理及基础操作,可以参考

    2024年02月15日
    浏览(57)
  • Midjourney助力交互设计师设计网站主页

    Midjourney的一大核心优势是提供创意设计,这个功能也可以用在网站主页设计上,使用Midjourney prompt 应尽量简单,只需要以\\\"web design for...\\\" or \\\"modern web design for...\\\"开头即可 比如设计一个通用 SAAS服务的初创企业网站 主页,可以这样写:   效果图是这样的: 户外运动网站主页

    2024年02月16日
    浏览(44)
  • 【网站】让自己的个人主页能被Google检索

    参考: https://zhuanlan.zhihu.com/p/129022264 这样操作之后,等一天左右,个人主页就能被Google搜索到啦:

    2024年02月07日
    浏览(44)
  • 【爬虫JS混淆分析】某网站票房响应数据加密(含JS补环境调用与Python解密算法)

    【作者主页】: 吴秋霖 【作者介绍】:Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作! 【作者推荐】:对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》,对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建

    2024年02月04日
    浏览(72)
  • 基于python舆情分析可视化系统+情感分析+爬虫+机器学习(源码)✅

    大数据毕业设计:Python招聘数据采集分析可视化系统✅ 毕业设计:2023-2024年计算机专业毕业设计选题汇总(建议收藏) 毕业设计:2023-2024年最新最全计算机专业毕设选题推荐汇总 🍅 感兴趣的可以先收藏起来,点赞、关注不迷路,大家在毕设选题,项目以及论文编写等相关

    2024年01月20日
    浏览(53)
  • python微博舆情分析系统 可视化 情感分析 爬虫 机器学习(源码+讲解)✅

    🍅 大家好,今天给大家分享一个Python项目,感兴趣的可以先收藏起来,点赞、关注不迷路! 🍅 大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助同学们顺利毕业 。 设计1000套(建议收藏) 毕业设计:2023-2024年最新最全计算机专业毕业设计选题

    2024年03月25日
    浏览(55)
  • 手机商城网站的分析与设计(论文+源码)_kaic

    目录 摘   要    1 1 绪论    2 1.1选题背景意义    2 1.2国内外研究现状    2 1.2.1国内研究现状    2 1.2.2国外研究现状    3 1.3研究内容    3 2 网上手机商城网站相关技术    4 2.1.NET框架    4 2.2Access数据库    4 2.3 JavaScript技术    4 3网上手机商城网站分析与设计 

    2024年02月12日
    浏览(30)
  • Microsoft Edge 主页启动diy以及常用的扩展、收藏夹的网站

    1、去广告:uBlock Origin 2、翻译: 页面翻译:右键就有了,已经内置了 划词翻译 3、超级复制 三、收藏夹的网站

    2024年02月10日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包