【爬虫实战】使用Python获取小红书笔记下的几千条评论和多级评论

这篇具有很好参考价值的文章主要介绍了【爬虫实战】使用Python获取小红书笔记下的几千条评论和多级评论。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、目标整理

今天的目标是爬取小红书上指定笔记下的所有评论数据。

以某篇举例,有2千多条评论。
以下代码,截止2023-12-01 有效。

python爬取小红书,爬虫案例,爬虫,python

效果如下:

python爬取小红书,爬虫案例,爬虫,python

python爬取小红书,爬虫案例,爬虫,python

每条评论获取多个字段,

  • 笔记链接
  • 页码
  • 评论者昵称
  • 评论者ID
  • 评论者主页链接
  • 评论时间
  • 评论IP属地
  • 评论点赞数
  • 评论级别
  • 评论内容

而评论包含根级评论、二级评论和二级展开评论(评论回复)。

二、逻辑分析

接口分析

python爬取小红书,爬虫案例,爬虫,python

可以看到从这个接口中获取了我们想要的数据,左边是内容展示,右边是接口返回的相关字段。

请求头

python爬取小红书,爬虫案例,爬虫,python

# 请求头
headers = {
   
	'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36',
	# cookie需定期更换
	'Cookie': 'xxxxxx',
}

请求头这部分主要的就是UA和Cookie,其中Cookie需要定期更换,否则会出现响应数据为空的情况。

请求参数

python爬取小红书,爬虫案例,爬虫,python

python爬取小红书,爬虫案例,爬虫,python

简单说明一下这几个参数:文章来源地址https://www.toymoban.com/news/detail-753297.html

  • note_id 这个是笔记的ID,为固定值
  • cusor,获取第一页的时候可以为空,获取后面评论的时候需要使用,稍后再讲
  • top_comment_id ,同样首次请求可以为空,之后才需要。
  • image_scenes 固定值</

到了这里,关于【爬虫实战】使用Python获取小红书笔记下的几千条评论和多级评论的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python爬虫实战(10)--获取本站热榜

    通过分析,本站的热榜数据可以直接通过接口拿到,故不需要解析标签,请求热榜数据接口 直接请求解析会有点问题,数据无法解析,加上请求头 完整请求代码

    2024年01月16日
    浏览(31)
  • python爬虫实战(8)--获取虎pu热榜

    注意:分析标签,这里加了非意向标签的跳过处理 测试

    2024年01月23日
    浏览(33)
  • Python爬虫实战之原神公告获取

    好久不见了吧,博主最近也是成为了准高三,没有太多时间去创作文章了,所以这篇文章很有可能是高考前最后一篇文章了(也不一定😉) 言归正传,本次文章主要讲解如何去爬取原神官网的公告(我不玩原神!!!!) 1.准备 好学的心 httpx 2.寻找接口 首先我们来到原神官网,

    2024年02月15日
    浏览(35)
  • python爬虫实战(7)--获取it某家热榜

    2024年01月16日
    浏览(27)
  • 爬虫实战(一)Python+selenium自动化获取数据存储到Mysql中

      行话说得好,“爬虫学得好,牢饭吃到饱!”哈哈博主是因这句话入的坑,不为别的就为邀大家一起铁窗泪(bushi),本人虽小牛一只,但是喜爱捣鼓技术,有兴趣的小伙伴们可以共同探讨,也欢迎各位大佬们的指点,愿共同进步!   这次计划是翻墙爬取外网某网站

    2024年01月17日
    浏览(36)
  • Python爬虫教程:如何使用Python获取免费代理IP

    部分数据来源: ChatGPT 引言         在爬取数据时,为了避免被反爬机制封锁,我们需要使用代理IP来进行隐蔽访问。有些网站提供免费的代理IP,我们可以使用Python来自动化获取这些代理IP,并进行验证筛选出可用的代理IP。 准备工作         在开始之前,需要安装

    2024年02月07日
    浏览(39)
  • Python爬虫基础:使用requests模块获取网页内容

    了解如何使用Python中的requests模块进行网页内容获取,包括获取网页步骤、代码实现、状态码查看、提取信息等。

    2024年02月22日
    浏览(61)
  • Python爬虫——Selenium在获取网页数据方面的使用

    目录 一、Selenium (一)引入  (二)启动浏览器 二、操作 (一)点击 (二)输入 三、数据获取 四、特点 五、抓取拉钩实例 六、其他操作 (一)窗口切换 代码 (二)操作下拉列表/无头浏览器 代码         一个电影票房的网站里,响应数据是一串完全看不懂的字符串

    2024年02月07日
    浏览(39)
  • 【实战】Python爬虫之代理使用详解

    在Python爬虫中,代理的使用非常常见。代理的主要作用是隐藏客户端的真实IP地址,从而实现更高的网络访问速度和更好的访问隐私保护。下面我们将通过Python爬虫的实例,带你详细了解Python爬虫中代理的使用方法。 目录 ## 1. 代理原理和作用 ## 2. Python爬虫代理的使用方式

    2024年02月09日
    浏览(89)
  • 快乐学Python,数据分析之使用爬虫获取网页内容

    在上一篇文章中,我们了解了爬虫的原理以及要实现爬虫的三个主要步骤:下载网页-分析网页-保存数据。 下面,我们就来看一下:如何使用Python下载网页。 浏览器画网页的流程,是浏览器将用户输入的网址告诉网站的服务器,然后网站的服务器将网址对应的网页返回给浏览

    2024年01月17日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包