Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接

这篇具有很好参考价值的文章主要介绍了Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 前言

文章内容可能存在版权问题,为此,小编不提供相关实现代码,只是从js逆向说一说到底怎样实现这个的过程,希望能够帮助到那些正在做js逆向相关操作的读者,需要代码的读者单独私信我吧!不过,需要注意的是:代码仅供学习,不能用于商业活动,望读者切记。。

2. 实现过程

说到js逆向,那么表明要抓取的数据不是来自一个静态页面,也就是说用requests访问这个页面,你得不到你想要的那些数据,那么,怎样得到那些数据呢?找相关链接接口,这通常涉及到ajax技术。因为有的接口上一些相关请求参数你是无法理解到其中的意义,所以需要通过js逆向,明白这些请求参数具体意义(当然有的也无法理解,但是可以明白的是这个参数值是怎样组成或者可以从哪里找到)。
Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接,Python,爬虫,爬虫,javascript,开发语言
既然是获取评论区的图片下载链接,当然也可以得到评论的相关数据,这些数据都来自这个接口,如下:
Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接,Python,爬虫,爬虫,javascript,开发语言
请求参数为:
Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接,Python,爬虫,爬虫,javascript,开发语言
可以看到请求参数中有两个键,分别为arg和head,通过这个接口后的启动器,找到相关js代码实现的过程,可以发现这个键head对应的字典的中键对应的值除了cid之外,其他的均为固定值,而cid值也可以说是固定的吧!(它这个值来自cookie中相关键的值,如下:)
Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接,Python,爬虫,爬虫,javascript,开发语言
Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接,Python,爬虫,爬虫,javascript,开发语言
Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接,Python,爬虫,爬虫,javascript,开发语言
至于arg这个字典里的键值,pageIndex值是和页数相匹配的;pageSize是每页的数量,;sortType为排序方式,有两种吧!一种是时间排序,另外一种为智能排序,默认情况下为智能排序;poiId应该是景点的id编号(这个值可以通过当前界面的script内部一个json数据中得到)。其他可以说基本上是固定的吧!如下:
Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接,Python,爬虫,爬虫,javascript,开发语言
poiId来自这个script标签下的json数据里边哈!Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接,Python,爬虫,爬虫,javascript,开发语言这个commentTagId参数值应该是指这个吧!(不一定对哈!)Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接,Python,爬虫,爬虫,javascript,开发语言
至于
https://m.ctrip.com/restapi/soa2/13444/json/getCommentCollapseList?_fxpcqlniredt=09031020210426062880&x-traceID=09031020210426062880-1689141447244-7704556

问号后面的参数,可以从这一段js代码中明白其组成原理,如下:
Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接,Python,爬虫,爬虫,javascript,开发语言
通过和上述图片中相关数据比较,读者应该可以发现图片中js代码中的t就是09031020210426062880,也就是cookie中那个键guid的值。

3. 运行结果

第1页的数据
Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接,Python,爬虫,爬虫,javascript,开发语言
第2页的数据
Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接,Python,爬虫,爬虫,javascript,开发语言

小编我也不知道能不能发表成功!所以在上述过程中,一些js逆向操作并没有说的很详细,希望读者理解。文章来源地址https://www.toymoban.com/news/detail-554657.html

到了这里,关于Python爬虫:利用JS逆向抓取携程网景点评论区图片的下载链接的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 你评论,我赠书~【哈士奇赠书 - 12期】-〖爬虫逆向进阶实战〗参与评论,即可有机获得

    大家好,我是 哈士奇 ,一位工作了十年的\\\"技术混子\\\", 致力于为开发者赋能的UP主, 目前正在运营着 TFS_CLUB社区。 💬 人生格言:优于别人,并不高贵,真正的高贵应该是优于过去的自己。💬 📫 如果文章知识点有错误的地方,请指正!和大家一起学习,一起进步👀 🔥 如果感

    2024年02月03日
    浏览(36)
  • Python爬虫:抖音 JS XB逆向解析

    哈喽兄弟们,抖音现在有JS加密,以前的方法爬不了饿了,今天来实现一下某音短视频的JS逆向解析。 知识点 动态数据抓包`在这里插入代码片` requests发送请求 X-Bogus 参数逆向 环境模块 python 3.8               运行代码 pycharm 2022.3           辅助敲代码 requests 

    2024年02月08日
    浏览(40)
  • 【Python爬虫】利用爬虫抓取双色球开奖号码,获取完整数据,简洁45行代码实现,更新时间2023-06-28

    链接:https://pan.baidu.com/s/18oE308_NVNPaCOACw_H5Hw?pwd=abc1  利用爬虫抓取双色球开奖号码,获取完整数据,简洁45行代码实现,更新时间2023-06-28 这是网上的数据,怎么将它爬取下来 它将只爬取最近30期的双色球开奖号码,并将结果写入到名为 \\\"双色球开奖结果.csv\\\" 的文件中。   生成

    2024年02月15日
    浏览(118)
  • 关于 Python 爬虫 JS 逆向的入门指南

    请注意,这篇指南只是一个概述,为了深入理解和实践,你可能需要额外的学习和实践。         Python 爬虫经常遇到需要逆向 JavaScript 生成的网站内容和逻辑的情况。这种技能对于爬取动态网站,尤其是那些使用了复杂 JS 逻辑和反爬虫技术的网站,尤其重要。 Python 爬虫概

    2024年01月16日
    浏览(32)
  • Python爬虫抓取经过JS加密的API数据的实现步骤

    随着互联网的快速发展,越来越多的网站和应用程序提供了API接口,方便开发者获取数据。然而,为了保护数据的安全性和防止漏洞,一些API接口采用了JS加密技术这种加密技术使得数据在传输过程中更加安全,但也给爬虫开发带来了一定的难度。。 在面对经过JS加密的API数

    2024年02月10日
    浏览(35)
  • 【逆向爬虫】Python中执行调用JS的多种方法汇总

    “以前的数据靠买,现在的数据靠爬”,越来越多的学者通过网络爬虫来获取数据。但是做爬虫的人都知道,现在的很多网站都在和我们斗智斗勇,防护普遍越来越好,并且越有价值的网站在这方面越强,哪怕是小一点的网站也多多少少存在一些反爬。而JS逆向又是网络反爬

    2024年02月04日
    浏览(49)
  • 抓取网络请求Network中的响应JSON数据,不用JS逆向和RPC,python selenium+browser-proxy

    显然上面的红框是加密数据。   下面正式开始 首先要检查电脑是否安装了JDK8,高版本的好像不行,如果没有安装,则需要进行安装。这里不介绍了。下面下载两个东西: (1)python包的安装:pip3 install browsermob-proxy (2)组件下载地址:https://github.com/lightbody/browsermob-proxy/r

    2024年02月15日
    浏览(33)
  • Python爬虫:js逆向调式操作及调式中遇到debugger问题

    1. 前言 本篇博客主要讲解js逆向调式操作及调式中遇到debugger问题,内容参考自网上的一些视频讲解结合自己所做过的爬虫测试,觉得小编总结的还不错的读者记得点赞支持一下( 内容仅供学习使用 )。 2. js逆向调式操作 2.1 DOM事件断点 比如虎牙直播登录操作,想快速找到找到

    2024年02月13日
    浏览(33)
  • python爬虫之JS逆向基础小案例:网抑云数据获取

    嗨喽~大家好呀,这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取 所用软件 解释器: python 3.8 编辑器: pycharm 2022.3 使用的模块 第三方模块: requests 数据请求 execjs pip install pyexecjs 内置模块(无需安装): nodejs 模块安装: win + R 输入cmd 输入安

    2024年01月20日
    浏览(37)
  • 小白用chatgpt编写python 爬虫程序代码 抓取网页数据(js动态生成网页元素)

    jS动态生成,由于呈现在网页上的内容是由JS生成而来,我们能够在浏览器上看得到,但是在HTML源码中却发现不了        如果不加,如果网站有防爬技术,比如频繁访问,后面你会发现什么数据都取不到 User-Agent获取地方:  网页获取位置: 使用代理IP解决反爬。(免费代理

    2024年02月01日
    浏览(61)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包