字体反爬破解

这篇具有很好参考价值的文章主要介绍了字体反爬破解。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


这里以实习僧为具体案例

1、通过 f12 查看网页相关信息

① 搜索“python”相关岗位,想爬取下来作为分析,但是看到html源码为特殊字符,而不是页面上直观能看到的文字信息

字体反爬破解,Python爬虫,python
关闭对应的css样式可以看到,确实是做了字体反爬
字体反爬破解,Python爬虫,python

②点击对应的css样式查看css源码,通过源码解析字体加密过程

字体反爬破解,Python爬虫,python

字体反爬破解,Python爬虫,python

查看 font-family 是由 myFont 传值生成,继续找 myFont 变量
字体反爬破解,Python爬虫,python

2、通过 Domain+URI 获取到该字体文件

https://www.shixiseng.com/interns/iconfonts/file?rand=0.5135261623696619
字体反爬破解,Python爬虫,python

① 这里没有后缀,我们只能去试是那一种格式的

一般常见的为:ttf、eot、otf、woff、svg,可以使用在线工具去检验
字体反爬破解,Python爬虫,python
字体反爬破解,Python爬虫,python

② 直至试出来文件格式为woff

字体反爬破解,Python爬虫,python

字体反爬破解,Python爬虫,python

3、检验字体文件对应关系是否正确

字体反爬破解,Python爬虫,python
字体反爬破解,Python爬虫,python
这里判断正确无误,底层通过css转换就是这个文件的文字

4、使用 python 进行字体映射

pip3 install fontTools

① 将woff转换为xml查看逻辑

from fontTools.ttLib import TTFont

font = TTFont('./font-file.woff')
font.saveXML('sxsfont.xml')

字体反爬破解,Python爬虫,python

② 主要观察<cmap>里的对应关系

字体反爬破解,Python爬虫,python
例如 这里python工程师

字体反爬破解,Python爬虫,python

网页显示:&#xed53 &#xea63 &#xe4e5
xml中的code值:0xed53 0xea63 0xe4e5
xml中的name值:uni5DE5 uni7A0B uni5E08
通过观察可以得出:网页显示后四位与xml中的code值后四位一样,对应的name值看起来也是unicode编码,也是拿后四位去验证
字体反爬破解,Python爬虫,python

③ 使用字典完成映射关系

from fontTools.ttLib import TTFont

font = TTFont('./font-file.woff')
cmap = font.get('cmap').getBestCmap()
print(cmap)

finish_font = {}
for k,v in cmap.items():
    if v[3:]:
        values = '\\u00' + v[3:] if len(v[3:]) ==2 else '\\u' + v[3:]
        real_values = values.encode().decode('unicode-escape')
        real_keys = hex(k).replace('0x','&#x')
        print(real_keys ,real_values)
        finish_font[real_keys]= real_values
print(finish_font)

字体反爬破解,Python爬虫,python

5、根据映射对网页源码进行对应替换

for k, v in finish_font.items():
	html_text = html_text.replace(k, v)

字体反爬破解,Python爬虫,python文章来源地址https://www.toymoban.com/news/detail-579018.html

到了这里,关于字体反爬破解的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Python的B站(哔哩哔哩)视频评论采集,可破解反爬手段,想爬几条爬几条

    它通过输入Bilibili视频的av号、BV号或链接,然后使用指定的cookie和请求头信息发送HTTP请求来获取视频的评论数据。然后,它将评论数据解析为CSV格式,并保存到指定的文件中。 具体实现过程如下: 导入所需的库:requests用于发送HTTP请求,os用于操作文件路径,time用于处理时

    2024年01月18日
    浏览(56)
  • python爬虫-seleniumwire模拟浏览器反爬获取参数

    在进行数据爬取时,有时候遇到一些比较复杂的js逆向。在不考虑访问效率的情况下,使用selenium模拟浏览器的方法可以大大减少反反爬逆向工作量。但普通的selenium库是无法获取到类似set-cookie等参数的,这时候需要用到selenium-wire库。其用法类似selenium 首先安装selenium-wire库

    2024年02月03日
    浏览(40)
  • Python如何用爬虫破解滑动验证码?这五步简单易用

    在使用python爬虫抓取数据的时候经常会遇到网站为了防止机器人登录而设置了验证,除了最基本的字符验证之外还有滑块验证、图片验证、顺序验证等等验证方式。那我们今天就来讲一下python如何用爬虫破解滑动验证码,一起来看看吧。 1.读取图片:在命令行控制台输入pip

    2024年02月14日
    浏览(57)
  • python爬虫 scrapy+selenium+webdriver实现鼠标滑动破解阿里云盾快验证

    在爬取jianshu文章的时候发现,jianshu竟然买了阿里云的盾块验证!!!很是头疼,虽然说没有其他图片匹配的那么麻烦,但是阿里云的人机验证和算法真的是顶尖的,查阅了多个资料最后没办法,才实现用webdriver模拟鼠标去通过验证 首先我们需要安装webdriver驱动和Google Chrom

    2024年02月03日
    浏览(58)
  • 字体反爬积累知识

    目录 一、什么是字体反扒 二、Unicode编码 三、利用font包获取映射关系 一、什么是字体反扒 字体反爬是一种常见的反爬虫技术,它通过将网页中的文本内容转换为特殊的字体格式来防止爬虫程序直接获取和解析文本信息。字体反爬的原理是将常规的字符映射到特殊的字体图标

    2024年04月17日
    浏览(41)
  • Selenium Wire编辑header破解反爬机制和访问限制

    介绍 Selenium Wire扩展了Selenium的Python绑定,使您能够访问浏览器发出的底层请求。您已使用Selenium相同的方式编写代码,但是您获得了额外的api,用于检查请求和响应,并动态地对它们进行更改。(注:意思是这个不仅包含了selenium的功能,还额外增加了新的扩展功能,引用s

    2024年02月16日
    浏览(39)
  • 爬虫入门基础-Selenium反爬

    在网络时代,爬虫作为一种强大的数据采集工具,被广泛应用于各行各业。然而,许多网站为了防止被恶意爬取数据,采取了各种反爬虫机制。为了能够成功地绕过这些机制,Selenium成为了爬虫领域的一把利器。本文将为你介绍爬虫入门基础,并重点探讨如何使用Selenium应对反

    2024年02月08日
    浏览(46)
  • python解决JA3 TLS指纹反爬几种方案

    curl_cffi: 支持原生模拟浏览器 TLS/JA3 指纹的 Python 库 Pyhttpx: https://github.com/zero3301/pyhttpx 修改urllib3 ssl_源码的DEFAULT_CIPHERS里的加密算法 requests版本 scrapy版本

    2024年02月12日
    浏览(44)
  • selenium爬虫反爬-修改window.navigator.webdriver的值

    使用selenium写爬虫的时候 window.navigator.webdriver 的值是 true ,容易被识别,需要隐藏起来,都说这个 execute_cdp_cmd 的方法有效,但是都是 python 版本的, java 尝试了发现没效果。我的版本是 Chrome/106.0.5249.119 经过在Bd的知识海洋中捞针,在 https://blog.csdn.net/qq_40178216/article/details/1

    2024年02月11日
    浏览(38)
  • 【爬虫】7.3. CSS位置偏移反爬案例分析与实战

    上一节学习了Selenium这个自动化测试工具,但这个工具不是万能的,不容易爬取的数据依然存在,例如网页利用CSS控制文字的偏移位置,或者通过一些特殊的方式隐藏关键信息,这都会对数据爬取造成干扰。可以看这一部分代码: 以上是这一段代码的部分输出结果,可以看出

    2024年02月09日
    浏览(34)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包