字体反爬破解-Toy模板网

这篇具有很好参考价值的文章主要介绍了字体反爬破解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

这里以实习僧为具体案例

1、通过 f12 查看网页相关信息

① 搜索“python”相关岗位，想爬取下来作为分析，但是看到html源码为特殊字符，而不是页面上直观能看到的文字信息

字体反爬破解,Python爬虫,python
关闭对应的css样式可以看到，确实是做了字体反爬

②点击对应的css样式查看css源码，通过源码解析字体加密过程

字体反爬破解,Python爬虫,python

查看 font-family 是由 myFont 传值生成，继续找 myFont 变量
字体反爬破解,Python爬虫,python

2、通过 Domain+URI 获取到该字体文件

https://www.shixiseng.com/interns/iconfonts/file?rand=0.5135261623696619
字体反爬破解,Python爬虫,python

① 这里没有后缀，我们只能去试是那一种格式的

一般常见的为：ttf、eot、otf、woff、svg，可以使用在线工具去检验
字体反爬破解,Python爬虫,python

② 直至试出来文件格式为woff

字体反爬破解,Python爬虫,python

3、检验字体文件对应关系是否正确

字体反爬破解,Python爬虫,python

这里判断正确无误，底层通过css转换就是这个文件的文字

4、使用 python 进行字体映射

pip3 install fontTools

① 将woff转换为xml查看逻辑

from fontTools.ttLib import TTFont

font = TTFont('./font-file.woff')
font.saveXML('sxsfont.xml')

字体反爬破解,Python爬虫,python

② 主要观察<cmap>里的对应关系

字体反爬破解,Python爬虫,python
例如这里python工程师

网页显示：&#xed53 &#xea63 &#xe4e5
xml中的code值：0xed53 0xea63 0xe4e5
xml中的name值：uni5DE5 uni7A0B uni5E08
通过观察可以得出：网页显示后四位与xml中的code值后四位一样，对应的name值看起来也是unicode编码，也是拿后四位去验证
字体反爬破解,Python爬虫,python

③ 使用字典完成映射关系

from fontTools.ttLib import TTFont

font = TTFont('./font-file.woff')
cmap = font.get('cmap').getBestCmap()
print(cmap)

finish_font = {}
for k,v in cmap.items():
    if v[3:]:
        values = '\\u00' + v[3:] if len(v[3:]) ==2 else '\\u' + v[3:]
        real_values = values.encode().decode('unicode-escape')
        real_keys = hex(k).replace('0x','&#x')
        print(real_keys ,real_values)
        finish_font[real_keys]= real_values
print(finish_font)

字体反爬破解,Python爬虫,python

5、根据映射对网页源码进行对应替换

for k, v in finish_font.items():
	html_text = html_text.replace(k, v)

字体反爬破解,Python爬虫,python 文章来源地址https://www.toymoban.com/news/detail-579018.html

到了这里，关于字体反爬破解的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

字体反爬破解

1、通过 f12 查看网页相关信息

① 搜索“python”相关岗位，想爬取下来作为分析，但是看到html源码为特殊字符，而不是页面上直观能看到的文字信息

②点击对应的css样式查看css源码，通过源码解析字体加密过程

2、通过 Domain+URI 获取到该字体文件

① 这里没有后缀，我们只能去试是那一种格式的

② 直至试出来文件格式为woff

3、检验字体文件对应关系是否正确

4、使用 python 进行字体映射

① 将woff转换为xml查看逻辑

② 主要观察<cmap>里的对应关系

③ 使用字典完成映射关系

5、根据映射对网页源码进行对应替换

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2