python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

这篇具有很好参考价值的文章主要介绍了python---js逆向-----为了理想爬到想要的数据,我们怎能放过它。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

这是我的gitee仓库:https://gitee.com/qin-laoda/python-exercises

有兴趣的小可爱们可以点进去看看,

_________________________________

下面我们来按照爬虫思路找一下我们要爬的网页,并获取数据

下面我以https://ggzyfw.fujian.gov.cn/business/list/来爬取想要的数据

首先我们进去找到该网页,打开开发者工具找到如下所示:

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

图中我们没有搜索到想要的内容,那我们就查看源代码看看,如图:

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

可以看出也没有找到我们想要的数据,那就有可能是被加密了,下面我们就找到对应的接口其看看

如下图:

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它 当我们随机点击一个看看就会发现,返回的是一堆看不懂的数据,其实这就是js加密后返回来的数据,下面我们就来进入正题

js是什么

  • JavaScript 是世界上最流行的语言之一,是一种运行在客户端的脚本语言 (Script 是脚本的意思)

  • 脚本语言:不需要编译,运行过程中由 js 解释器( js 引擎)逐行来进行解释并执行

  • 现在也可以基于 Node.js 技术进行服务器端编程

___________________________

下面我来说一些思路:

python代码跑爬虫,js代码去做参数加密

例如:

from:en

to:zh

query:hello

transtype:realtime

simple_means_flag:3

sign:54706.276099

token:12cb0bfe4bc476dc010333cfb8148927

domain:common

ts:1686129751591

sign是通过js加密的!   !   !  !,要去找到网站的sign加密的位置,然后把这段js代码扣下来,放到js文件里面执行,执行的结果要和网页的一样 ,比如网页的sign:54706.276099,我们执行的结果也要是这样的

总结一小下:就是通过python代码运行js文件,js文件返回结果给python,然后python再利用

来发送请求

js文件的查找和扣代码

下面我来讲解怎么找到页面的js文件

以百度翻译为例https://fanyi.baidu.com/translate?aldtype=16047&query=hello%0D%0A%0D%0A&keyfrom=baidu&smartresult=dict&lang=auto2zh#en/zh/hello

第一步:python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 第二步:

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 第三步:

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

第四步:

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 第五步(找到含有对应内容的就是文件,然后打一个标记,再继续找直到找完全部): 

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它第六步让js代码运行到断点那里就慢慢那调试

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 第七步:

我们要好好分析一下

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 第八步点击进去会有一下的提示

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 第九步:python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 第十步:找到对应的js代码:

function n(t, e) {
    for (var n = 0; n < e.length - 2; n += 3) {
        var r = e.charAt(n + 2);
        r = "a" <= r ? r.charCodeAt(0) - 87 : Number(r),
            r = "+" === e.charAt(n + 1) ? t >>> r : t << r,
            t = "+" === e.charAt(n) ? t + r & 4294967295 : t ^ r
    }
    return t
}
function arr(t) {
    var o, i = t.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
    if (null === i) {
        var a = t.length;
        a > 30 && (t = "".concat(t.substr(0, 10)).concat(t.substr(Math.floor(a / 2) - 5, 10)).concat(t.substr(-10, 10)))
    } else {
        for (var s = t.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), c = 0, l = s.length, u = []; c < l; c++)
            "" !== s[c] && u.push.apply(u, function(t) {
                if (Array.isArray(t))
                    return e(t)
            }(o = s[c].split("")) || function(t) {
                if ("undefined" != typeof Symbol && null != t[Symbol.iterator] || null != t["@@iterator"])
                    return Array.from(t)
            }(o) || function(t, n) {
                if (t) {
                    if ("string" == typeof t)
                        return e(t, n);
                    var r = Object.prototype.toString.call(t).slice(8, -1);
                    return "Object" === r && t.constructor && (r = t.constructor.name),
                        "Map" === r || "Set" === r ? Array.from(t) : "Arguments" === r || /^(?:Ui|I)nt(?:8|16|32)(?:Clamped)?Array$/.test(r) ? e(t, n) : void 0
                }
            }(o) || function() {
                throw new TypeError("Invalid attempt to spread non-iterable instance.\nIn order to be iterable, non-array objects must have a [Symbol.iterator]() method.")
            }()),
            c !== l - 1 && u.push(i[c]);
        var p = u.length;
        p > 30 && (t = u.slice(0, 10).join("") + u.slice(Math.floor(p / 2) - 5, Math.floor(p / 2) + 5).join("") + u.slice(-10).join(""))
    }
    r='320305.131321201'
    for (var d = "".concat(String.fromCharCode(103)).concat(String.fromCharCode(116)).concat(String.fromCharCode(107)), h = (null !== r ? r : (r = window[d] || "") || "").split("."), f = Number(h[0]) || 0, m = Number(h[1]) || 0, g = [], y = 0, v = 0; v < t.length; v++) {
        var _ = t.charCodeAt(v);
        _ < 128 ? g[y++] = _ : (_ < 2048 ? g[y++] = _ >> 6 | 192 : (55296 == (64512 & _) && v + 1 < t.length && 56320 == (64512 & t.charCodeAt(v + 1)) ? (_ = 65536 + ((1023 & _) << 10) + (1023 & t.charCodeAt(++v)),
            g[y++] = _ >> 18 | 240,
            g[y++] = _ >> 12 & 63 | 128) : g[y++] = _ >> 12 | 224,
            g[y++] = _ >> 6 & 63 | 128),
            g[y++] = 63 & _ | 128)
    }
    for (var b = f, w = "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(97)) + "".concat(String.fromCharCode(94)).concat(String.fromCharCode(43)).concat(String.fromCharCode(54)), k = "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(51)) + "".concat(String.fromCharCode(94)).concat(String.fromCharCode(43)).concat(String.fromCharCode(98)) + "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(102)), x = 0; x < g.length; x++)
        b = n(b += g[x], w);
    return b = n(b, k),
    (b ^= m) < 0 && (b = 2147483648 + (2147483647 & b)),
        "".concat((b %= 1e6).toString(), ".").concat(b ^ f)
}



console.log(arr("你好"));

结果:

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 这里我们不要高兴得太早,因为我们只完成了js,还有python代码没完成

利用python代码执行js

安装python模块PyExecjs

pip install PyExecJS

js文件:

function n(t, e) {
    for (var n = 0; n < e.length - 2; n += 3) {
        var r = e.charAt(n + 2);
        r = "a" <= r ? r.charCodeAt(0) - 87 : Number(r),
            r = "+" === e.charAt(n + 1) ? t >>> r : t << r,
            t = "+" === e.charAt(n) ? t + r & 4294967295 : t ^ r
    }
    return t
}
function arr(t) {
    var o, i = t.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
    if (null === i) {
        var a = t.length;
        a > 30 && (t = "".concat(t.substr(0, 10)).concat(t.substr(Math.floor(a / 2) - 5, 10)).concat(t.substr(-10, 10)))
    } else {
        for (var s = t.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), c = 0, l = s.length, u = []; c < l; c++)
            "" !== s[c] && u.push.apply(u, function(t) {
                if (Array.isArray(t))
                    return e(t)
            }(o = s[c].split("")) || function(t) {
                if ("undefined" != typeof Symbol && null != t[Symbol.iterator] || null != t["@@iterator"])
                    return Array.from(t)
            }(o) || function(t, n) {
                if (t) {
                    if ("string" == typeof t)
                        return e(t, n);
                    var r = Object.prototype.toString.call(t).slice(8, -1);
                    return "Object" === r && t.constructor && (r = t.constructor.name),
                        "Map" === r || "Set" === r ? Array.from(t) : "Arguments" === r || /^(?:Ui|I)nt(?:8|16|32)(?:Clamped)?Array$/.test(r) ? e(t, n) : void 0
                }
            }(o) || function() {
                throw new TypeError("Invalid attempt to spread non-iterable instance.\nIn order to be iterable, non-array objects must have a [Symbol.iterator]() method.")
            }()),
            c !== l - 1 && u.push(i[c]);
        var p = u.length;
        p > 30 && (t = u.slice(0, 10).join("") + u.slice(Math.floor(p / 2) - 5, Math.floor(p / 2) + 5).join("") + u.slice(-10).join(""))
    }
    r='320305.131321201'
    for (var d = "".concat(String.fromCharCode(103)).concat(String.fromCharCode(116)).concat(String.fromCharCode(107)), h = (null !== r ? r : (r = window[d] || "") || "").split("."), f = Number(h[0]) || 0, m = Number(h[1]) || 0, g = [], y = 0, v = 0; v < t.length; v++) {
        var _ = t.charCodeAt(v);
        _ < 128 ? g[y++] = _ : (_ < 2048 ? g[y++] = _ >> 6 | 192 : (55296 == (64512 & _) && v + 1 < t.length && 56320 == (64512 & t.charCodeAt(v + 1)) ? (_ = 65536 + ((1023 & _) << 10) + (1023 & t.charCodeAt(++v)),
            g[y++] = _ >> 18 | 240,
            g[y++] = _ >> 12 & 63 | 128) : g[y++] = _ >> 12 | 224,
            g[y++] = _ >> 6 & 63 | 128),
            g[y++] = 63 & _ | 128)
    }
    for (var b = f, w = "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(97)) + "".concat(String.fromCharCode(94)).concat(String.fromCharCode(43)).concat(String.fromCharCode(54)), k = "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(51)) + "".concat(String.fromCharCode(94)).concat(String.fromCharCode(43)).concat(String.fromCharCode(98)) + "".concat(String.fromCharCode(43)).concat(String.fromCharCode(45)).concat(String.fromCharCode(102)), x = 0; x < g.length; x++)
        b = n(b += g[x], w);
    return b = n(b, k),
    (b ^= m) < 0 && (b = 2147483648 + (2147483647 & b)),
        "".concat((b %= 1e6).toString(), ".").concat(b ^ f)
}

py文件:

ef get_js_function(js_path,js_function,js_args=None):
    with open(js_path,"r",encoding="utf-8")as f:
        js=f.read()
        #编译js文件
        ret=execjs.compile(js)
        #执行js中的函数
        dem=ret.call(js_function,js_args)
        print(dem)
    return dem

# get_js_function("./demo.js","arr","你好")

execjs.compile(js)可以理解为创建一个对象

call(js的函数名,传入js函数的参数)

下面我再来一个例子:

https://ggzyfw.fujian.gov.cn/business/list/

由于前面我已经讲过了,小可爱可以套用,我们直接来到js加密

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 可以看出来这里加密的不是sign,而是response返回的数据进行了加密,

如果细心的小可爱也发现了,

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 这两个不一样,会造成我们访问失败,所以我们在遇见有Data的时候,post 请求就用data来接收,遇见Request就用json接收例如:requests.post(url,headers=header,json=data)

下面我写了一些代码爬取加密文件的:

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 请求头加密了python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

返回结果加密了

思路:加密发送请求头,解密获取数据

python文件:

import requests
import execjs
import time
from jsonpath import jsonpath



def main():
    """主要的业务逻辑"""

    # url
    url="https://ggzyfw.fujian.gov.cn/FwPortalApi/Trade/TradeInfo"

    data={
        'AREACODE':"",
        'BeginTime':"2022-12-07 00:00:00",
        'EndTime':"2023-06-07 23:59:59",
       'GGTYPE':"1",
        'KIND':"GCJS",
        'M_PROJECT_TYPE':"",
        'PROTYPE':"",
        'createTime':[],
        'pageNo':3,
        'pageSize':20,
        'timeType':"6",
        'total':3537,
        'ts':int(time.time()*1000)
    }


    def js_parth(js_path, js_function, js_args=None):
        with open(js_path, "r", encoding="utf-8")as f:
            js = f.read()
            # 编译js文件
            js_pa = execjs.compile(js,cwd=r"C:\Users\32288\WebstormProjects\untitled\node_modules\crypto-js")
            # 运行js的函数
            resuit = js_pa.call(js_function, js_args)
        return resuit

    ps = js_parth("./02.js", "d", data)
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36",
        "Host": "ggzyfw.fujian.gov.cn",
        "Origin": "https://ggzyfw.fujian.gov.cn",
        "Referer": "https://ggzyfw.fujian.gov.cn/business/list/",
        "Portal-Sign":ps,
        "Content-Type": "application/json;charset=UTF-8",
        "Accept": "application/json, text/plain, */*"

    }
    response=requests.post(url,headers=header,json=data)
    # print(response.json())

    # 创建一个json对象
    path=jsonpath(response.json(),"$..Data")[0]
    print(path)
    data_html=js_parth("./jiemi.js","b",path)
    print(data_html)
    # 发送请求获取响应
    # 数据的提取
    # 保存

if __name__ == '__main__':
    main()

js文件(加密版):

//导入
const CrypyoJS=require("crypto-js");
// import CryptoJS from "crypto-js";





data={
    'AREACODE':"",
    'BeginTime':"2022-12-07 00:00:00",
    'EndTime':"2023-06-07 23:59:59",
    'GGTYPE':"1",
    'KIND':"GCJS",
    'M_PROJECT_TYPE':"",
    'PROTYPE':"",
    'createTime':[],
    'pageNo':3,
    'pageSize':20,
    'timeType':"6",
    'total':3537,
    'ts':new Date().getTime()//时间戳
}
//57e776a8c23455410734cca06cd62a38
//0f3aa7843dfec2c0ac67e2c66d1d6418
//4ff85b173651722cc354ce032b2de64d
// 7ca9c7f6af67a6c3585984c61c49b0a1
function u(t, e) {
    return t.toString().toUpperCase() > e.toString().toUpperCase() ? 1 : t.toString().toUpperCase() == e.toString().toUpperCase() ? 0 : -1
}

function l(t) {
    for (var e = Object.keys(t).sort(u), n = "", a = 0; a < e.length; a++)
        if (void 0 !== t[e[a]])
            if (t[e[a]] && t[e[a]]instanceof Object || t[e[a]]instanceof Array) {
                var i = JSON.stringify(t[e[a]]);
                n += e[a] + i
            } else
                n += e[a] + t[e[a]];
    return n
}

function d(t) {
    for (var e in t)
        "" !== t[e] && void 0 !== t[e] || delete t[e];
    var n = '3637CB36B2E54A72A7002978D0506CDF'+ l(t);
    return CrypyoJS.MD5(n).toString()
}
// console.log(d(data))

js解密版:


const CryptoJS=require("crypto-js")

function b(t) {
    var e = CryptoJS.enc.Utf8.parse('BE45D593014E4A4EB4449737660876CE')
        , n =CryptoJS.enc.Utf8.parse('A8909931867B0425')
        , a = CryptoJS.AES.decrypt(t, e, {
        iv: n,
        mode:CryptoJS.mode.CBC,
        padding: CryptoJS.pad.Pkcs7
    });
    return a.toString(CryptoJS.enc.Utf8)
}

运行最终结果:

python---js逆向-----为了理想爬到想要的数据,我们怎能放过它

 下面我来讲解一下问题所在:

1.当我们发送请求时如果没有响应,一般都会增加发送请求头的数量,在python文件中可以看出加了许多的请求头

2.execjs.complied(js,cwd=js文件中导入的模块的下载的文件路径)

3.要学会打断点

4.要知道页面的js文件有AES等字眼的一般都是加密算法,需要我们寻找对应的加密和解密

5.js的导入为:const CrypyoJS=require("crypto-js"); // import CryptoJS from "crypto-js";

这两个的其中一个

6.js时间戳的写法:

new Date().getTime()

7.还有一个python文件执行的js的老问题就是编码问题

以上就是我的介绍js逆向的内容了,文章来源地址https://www.toymoban.com/news/detail-477035.html

总结:我们懂得JS逆向的思路,js执行js代码进行加密和解密(这个过程需要我们一步步找问题,解决问题,),利用python代码运行js文件,利用返回的结果进行发送请求或者提取数据进行保存

到了这里,关于python---js逆向-----为了理想爬到想要的数据,我们怎能放过它的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 简单的用Python实现一下JS逆向解密,采集空气质量数据

    最近天气降温厉害,咱们用 Python 来分析一下空气质量如何~ 话不多说,我们直接开始上手。 环境使用 Python 3.8 Pycharm nodejs 模块使用 import requests import execjs import json requests 和 execjs 都是第三方模块,需要手动安装,直接pip install 加上模块名字即可。 明确需求: 明确采集的网站

    2024年02月05日
    浏览(44)
  • SEO外包是为了省钱还是为了更好的效果呢?我们的探讨!

    SEO是指优化网站以获得更高的自然搜索引擎排名的一系列技术和方法,它可以提高网站的可见性、流量和收入。随着互联网的不断发展,越来越多的企业意识到了SEO的重要性,但是,由于技术难度和人力成本的限制,许多企业选择将SEO外包给专业的公司来完成。那么,SEO外包

    2024年02月04日
    浏览(44)
  • 抓取网络请求Network中的响应JSON数据,不用JS逆向和RPC,python selenium+browser-proxy

    显然上面的红框是加密数据。   下面正式开始 首先要检查电脑是否安装了JDK8,高版本的好像不行,如果没有安装,则需要进行安装。这里不介绍了。下面下载两个东西: (1)python包的安装:pip3 install browsermob-proxy (2)组件下载地址:https://github.com/lightbody/browsermob-proxy/r

    2024年02月15日
    浏览(37)
  • 为了做低代码平台,这些年我们对.NET的DataGridView做的那些扩展

    我们的低代码开发平台从一开始决定做的时候,就追求未来能够支持多种类型的客户端,目前支持Winform,Web,H5,FlutterAPP,当然了,未来也有可能会随着实际的需要淘汰掉一些客户端的。 为了系统更易于维护,减少其对第三方的依赖风险,我们总是坚持着“能自己实现的一

    2024年02月02日
    浏览(32)
  • 为了降低个人股票投资者的决策误判概率,我们做了一款软件

    对于个人股票投资者而言,避免投资决策误判是最重要且最首要的,盈利多少都是次要的。 这是一个面向个人股票投资者的决策辅助工具【棱镜】,它旨在将你的分析决策逻辑转化为由文字和框架转化为算法,让计算机和算法辅助你共同决策,降低决策误判概率。网站:pr

    2024年02月04日
    浏览(39)
  • 为了辅助个人股票投资者的降低决策误判概率,我们做了一款软件

    对于个人股票投资者而言,避免投资决策误判是最重要且最首要的,盈利多少都是次要的。 这是一个面向个人股票投资者的决策辅助工具【棱镜】,它旨在将你的分析决策逻辑转化为由文字和框架转化为算法,让计算机和算法辅助你共同决策,降低决策误判概率。网站:pr

    2024年02月03日
    浏览(33)
  • Python JS逆向篇(四)

    逆向主题:某易云评论数据,请求时的加密参数。 (注:文章所涉及内容只做学习参考交流,不做除此之外的任何其它用途!!!) 我这里是通过全局搜索“ encSecKey ”,就直接找到了这里(运气好)。里面携带的四个参数,只要网站不改动,就只有第一个参数会变动

    2024年02月02日
    浏览(24)
  • TeamView: 为了进一步增强安全性,在发起连接之前,我们希望您先验证您的账户

    TeamViewPC端远程连接另外一台电脑 弹出窗口:为了进一步增强安全性,在发起连接之前,我们希望您先验证您的账户 电脑浏览器自动跳转到手机号验证页面,输入正确的手机号后,点击验证却一直提示 手机号无效、手机号未知等异常。 复制验证链接到手机 https://login.teamviewer.

    2024年02月14日
    浏览(50)
  • 【python】js逆向基础案例——有道翻译

    前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 课程亮点: 1、爬虫的基本流程 2、反爬的基本原理 3、nodejs的使用 4、抠代码基本思路 环境介绍: python 3.8 pycharm 2022专业版 免费使用教程文末名片获取 requests pip install requests nodejs 思路流程: apple 请求加密 我们传过去的 内容 经过

    2024年02月09日
    浏览(33)
  • python---js逆向------再接再励------案例

    这是我的gitee仓库:https://gitee.com/qin-laoda/python-exercises 有兴趣的小可爱们可以点进去看看, 常见的js加密算法 微信公众号的简单案例 ________________________________ 鉴于有一些小可爱对于js逆向的理解还有一些不解,下面我会再进一步的介绍js逆向,  1.线性散列的MD5算法 2.对称加密DES/

    2024年02月11日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包