16.网络爬虫—字体反爬(实战演示)

这篇具有很好参考价值的文章主要介绍了16.网络爬虫—字体反爬(实战演示)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前言
🏘️🏘️个人简介:以山河作礼。
🎖️🎖️:Python领域新星创作者,CSDN实力新星认证
📝​📝第一篇文章《1.认识网络爬虫》获得全站热榜第一,python领域热榜第一
🧾 🧾第四篇文章《4.网络爬虫—Post请求(实战演示)》全站热榜第八
🧾 🧾第八篇文章《8.网络爬虫—正则表达式RE实战》全站热榜第十二
🧾 🧾第十篇文章《10.网络爬虫—MongoDB详讲与实战》全站热榜第八,领域热榜第二
🧾 🧾第十三篇文章《13.网络爬虫—多进程详讲(实战演示)》全站热榜第十二
🧾 🧾第十四篇文章《14.网络爬虫—selenium详讲》测试领域热榜第二十
🎁🎁《Python网络爬虫》专栏累计发表十五篇文章,上榜六篇。欢迎免费订阅!欢迎大家一起学习,一起成长!!
💕💕悲索之人烈焰加身,堕落者不可饶恕。永恒燃烧的羽翼,带我脱离凡间的沉沦。


一·字体反爬原理

🧾 🧾 Python字体反爬原理是指爬虫在爬取网站数据时,遇到了基于字体反爬的防护措施。这种反爬措施是通过将网站的文字转换成特定的字体文件,然后在页面上引用该字体文件来显示文字,使得爬虫无法直接获取文字内容。

🧾 具体原理如下:

  1. 网站将需要显示的文字转换成特定的字体文件,通常是TrueTypeOpenType格式的字体文件。

  2. 网站在页面上引用该字体文件,并使用CSS样式将需要显示的文字的字体设置为该字体文件。

  3. 爬虫在获取页面源代码时,无法直接获取到需要显示的文字内容,只能获取到字体文件的引用地址。

  4. 爬虫可以通过下载字体文件并解析其中的映射关系,将字体文件中的编码与对应的文字内容进行匹配,从而获取到需要显示的文字内容。

  5. 为了增加反爬难度,网站通常会对字体文件进行加密或混淆,使得爬虫无法直接解析。

🧾 为了应对这种反爬措施,爬虫可以采用以下方法:

  1. 下载字体文件并解析映射关系,从而获取需要显示的文字内容。

  2. 使用OCR技术对图片中的文字进行识别,从而获取需要显示的文字内容。

  3. 使用第三方库或工具对字体文件进行解密或混淆,从而获取需要显示的文字内容。

🔔🔔需要注意的是,字体反爬技术是一种比较高级的反爬措施,需要爬虫具备一定的技术水平才能应对。此外,爬虫在使用字体反爬技术时也需要注意遵守相关法律法规和网站的使用规定。

二·字体反爬模块Fonttools

安装Fonttools

pip install fonttools

如图所示,表示安装完成!
16.网络爬虫—字体反爬(实战演示)

FontTools是一个开源的Python库,用于处理和转换字体文件。它可以读取和写入OpenType(OTF)TrueType(TTF)字体文件,以及其他各种字体格式。FontTools可以用于许多用途。
例如:

  1. 字体编辑:可以使用FontTools来修改字体文件中的字形、轮廓、度量等属性。

  2. 字体转换:可以将字体文件从一种格式转换为另一种格式,例如将TTF文件转换为OTF文件。

  3. 字体分析:可以使用FontTools来分析字体文件中的元数据、字符集、度量等属性,以便于字体设计和排版。

TTF文件

🧾 🧾TTF文件是TrueType字体文件,是一种字体文件格式,通常用于在计算机和打印机上显示文本。它是一种可缩放的字体,可以在不失真的情况下进行缩放。TTF文件通常具有.ttf文件扩展名,可以在Windows、Mac和Linux等操作系统中使用

三·FontCreator 14.0.0.2790

🧾 🧾 FontCreator 14.0.0.2790是一款专业的字体设计软件,由高级字体编辑器、字形插值器、字体转换器等多个工具组成。

  • 它可以帮助用户创建自定义的字体,包括TrueType、OpenType、Web字体等多种格式。
  • FontCreator14.0.0.2790提供了一个友好的用户界面,使得用户能够轻松地创建、编辑和修复字形、设置字符间距、调整字体度量等。
  • 还支持多语言字体设计,用户可以添加和修改各种字符集。
  • FontCreator 14.0.0.2790还可以进行字体转换,将不同格式的字体文件相互转换,方便用户在不同场景下使用。

FontCreatorPortable下载与安装

16.网络爬虫—字体反爬(实战演示)

🎁🎁点击FontCreator 14.0.0.2790进入即可下载
提取码:a3e8

下载完成后是这样的:
16.网络爬虫—字体反爬(实战演示)
打开需要查看的ttf文件
如图所示,被编码的文字

16.网络爬虫—字体反爬(实战演示)
每一个编码对应一个图,对,下面这些0,1,2,3,4,5,6,7,这些对不是字体,而是一张图,所以在后续解码操作中,我们需要手动输入这些数据。
16.网络爬虫—字体反爬(实战演示)
16.网络爬虫—字体反爬(实战演示)

四·实战演示

🎯🎯本次实战以某招聘网站为目标,获取其中数据,并对字体加密进行破解操作
如图所示:
16.网络爬虫—字体反爬(实战演示)
🎯我们想要爬取的数据被加密,我们来一步一步对其进行破解。
先按正常方式将数据获取到本地

16.网络爬虫—字体反爬(实战演示)

# coding = utf-8
import crawles

url = 'https://www.shixiseng.com/app/interns/search/v2'

cookies = {
    'RANGERS_WEB_ID': '7222273943993026082',
    'RANGERS_SAMPLE': '0.797004667731563',
    'adCloseOpen': 'true',
    'utm_source_first': 'PC',
    'Hm_lvt_03465902f492a43ee3eb3543d81eba55': '1681566719,1681626579',
    'adClose': 'true',
    'SXS_XSESSION_ID': '\"2|1:0|10:1681626608|15:SXS_XSESSION_ID|48:ZmIzNDc2MDgtM2MxOS00ZGMzLTg1OWYtZjZmZjliODI3ODBm|e0c74e6e5b304e78720e68feddc1ebc596b09b541b03cab0ad8f542aa7782cf4\"',
    'SXS_XSESSION_ID_EXP': '\"2|1:0|10:1681626608|19:SXS_XSESSION_ID_EXP|16:MTY4MTcxMzAwOA==|f0de0b3a4d7235bb497a86fab85289c792654792ec9114ede5cd4e213074f3ab\"',
    'position': 'pc_search_syss',
    'utm_source': 'PC',
    'utm_campaign': 'PC',
    'Hm_lpvt_03465902f492a43ee3eb3543d81eba55': '1681640297',
}

headers = {
    'authority': 'www.shixiseng.com',
    'accept': 'application/json, text/plain, */*',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cache-control': 'no-cache',
    'content-type': 'application/x-www-form-urlencoded',
    'pragma': 'no-cache',
    'referer': 'https://www.shixiseng.com/interns?page=2&type=intern&keyword=%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98&area&months&days&degree&official&enterprise&salary=-0&publishTime&sortType&city=%E5%85%A8%E5%9B%BD&internExtend',
    'sec-ch-ua': '\"Chromium\";v=\"112\", \"Google Chrome\";v=\"112\", \"Not:A-Brand\";v=\"99\"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '\"Windows\"',
    'sec-fetch-dest': 'empty',
    'sec-fetch-mode': 'cors',
    'sec-fetch-site': 'same-origin',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36',
}

params = {
    'build_time': '1681640300905',
    'page': '1',
    'type': 'intern',
    'keyword': '数据挖掘',
    'area': '',
    'months': '',
    'days': '',
    'degree': '',
    'official': '',
    'enterprise': '',
    'salary': '-0',
    'publishTime': '',
    'sortType': '',
    'city': '全国',
    'internExtend': '',
}

response = crawles.get(url, headers=headers, params=params, cookies=cookies)
response = crawles.get(url, headers=headers, params=params, cookies=cookies)
print(response.text)
for i in response.json['msg']['data']:
    print(i)

🎯这是我们通过代码获取到本地的数据:
16.网络爬虫—字体反爬(实战演示)
🎯接下来我们需要找到解密用的文件,在这里面找关于font的文件:
16.网络爬虫—字体反爬(实战演示)

 @font-face {    font-family: myFont;    src: url(/interns/iconfonts/file?rand=0.7027418610803815);}

🎯对获取的链接发起请求(获取字体文件,帮助我们对加密文件进行解码)

# font字体文件
# 1,查找相关链接,或者文本
# 2.获取文件(url) @font-face {    font-family: myFont;    src: url(/interns/iconfonts/file?rand=0.7027418610803815);}
# 3.对获取的链接发起请求(获取字体文件,帮助我们对加密文件进行解码)

# &#xee6f&#xe159&#xe159
import requests

# 将请求到的数据存放到内存中,以便其他地方直接使用

import io
from fontTools.ttLib import TTFont

font_file_uel = 'https://www.shixiseng.com/interns/iconfonts/file'
# 将请求到的数据存放到内存中,以便其他地方直接使用
ttf = TTFont(io.BytesIO(requests.get(font_file_uel).content))  # 将获取的数据保存到ttf文件中

ttf.save('sxs.ttf')

🎯然后我们得到一个ttf文件,我们使用上面安装的软件对该文件进行查看。
16.网络爬虫—字体反爬(实战演示)
🎯我们将上述数据换成xml来查看,方便我们对其解码操作:

# font字体文件
# 1,查找相关链接,或者文本
# 2.获取文件(url) @font-face {    font-family: myFont;    src: url(/interns/iconfonts/file?rand=0.7027418610803815);}
# 3.对获取的链接发起请求(获取字体文件,帮助我们对加密文件进行解码)

# &#xee6f&#xe159&#xe159
import requests

# 将请求到的数据存放到内存中,以便其他地方直接使用

import io
from fontTools.ttLib import TTFont

font_file_uel = 'https://www.shixiseng.com/interns/iconfonts/file'
# 将请求到的数据存放到内存中,以便其他地方直接使用
ttf = TTFont(io.BytesIO(requests.get(font_file_uel).content))  # 将获取的数据保存到ttf文件中

# ttf.save('sxs.ttf')

ttf.saveXML('sxs.xml')

16.网络爬虫—字体反爬(实战演示)
16.网络爬虫—字体反爬(实战演示)
16.网络爬虫—字体反爬(实战演示)

🎯我们的思路如下,将加密字体一步一步转成我们需要的字体,然后再获取出来:
&#xe283 -> 0xe283 -> uni30 -> 数据索引 -> 文字
&#xe714 -> 0xe714 -> uni35 -> 7 -> 5

import re

f = open('sxs.xml', 'r', encoding='utf-8')  # 将数据读取出来
file_data = f.read()
f.close()

x = re.findall('<map code="0x(.*?)" name="(.*?)"/>', file_data)
glyph = re.findall('<GlyphID id="(.*?)" name="(.*?)"/>', file_data)

glyph_dict = {k: v for v, k in glyph}

str_data = '0123456789一师x会四计财场DHLPT聘招工d周L端p年hx设程二五天tXG前KO网SWcgkosw广市月个BF告NRVZ作bfjnrvz三互生人政AJEI件M行QUYaeim软qu银y联'
str_list = [' ', ''] + [i for i in str_data]

x_dict = {f'&#x{k}': str_list[int(glyph_dict[v])] for k, v in x}
print(x_dict)

16.网络爬虫—字体反爬(实战演示)
16.网络爬虫—字体反爬(实战演示)
🎯如上图所示,我们解密了一部分字体来展示如何操作,现在对整个网页的加密数据进行字体解密操作,解密后的数据如图所示,我们对有用的数据进行整理:
16.网络爬虫—字体反爬(实战演示)
🎯整理后的数据如下
16.网络爬虫—字体反爬(实战演示)

🎁🎁完整代码:

import crawles
import json
import re
import requests
import io
from fontTools.ttLib import TTFont  # pip install fonttools

url = 'https://www.shixiseng.com/app/interns/search/v2'

cookies = {
    'RANGERS_WEB_ID': '7222273943993026082',
    'RANGERS_SAMPLE': '0.797004667731563',
    'adCloseOpen': 'true',
    'utm_source_first': 'PC',
    'Hm_lvt_03465902f492a43ee3eb3543d81eba55': '1681566719,1681626579',
    'adClose': 'true',
    'SXS_XSESSION_ID': '\"2|1:0|10:1681626608|15:SXS_XSESSION_ID|48:ZmIzNDc2MDgtM2MxOS00ZGMzLTg1OWYtZjZmZjliODI3ODBm|e0c74e6e5b304e78720e68feddc1ebc596b09b541b03cab0ad8f542aa7782cf4\"',
    'SXS_XSESSION_ID_EXP': '\"2|1:0|10:1681626608|19:SXS_XSESSION_ID_EXP|16:MTY4MTcxMzAwOA==|f0de0b3a4d7235bb497a86fab85289c792654792ec9114ede5cd4e213074f3ab\"',
    'position': 'pc_search_syss',
    'utm_source': 'PC',
    'utm_campaign': 'PC',
    'Hm_lpvt_03465902f492a43ee3eb3543d81eba55': '1681640297',
}

headers = {
    'authority': 'www.shixiseng.com',
    'accept': 'application/json, text/plain, */*',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cache-control': 'no-cache',
    'content-type': 'application/x-www-form-urlencoded',
    'pragma': 'no-cache',
    'referer': 'https://www.shixiseng.com/interns?page=2&type=intern&keyword=%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98&area&months&days&degree&official&enterprise&salary=-0&publishTime&sortType&city=%E5%85%A8%E5%9B%BD&internExtend',
    'sec-ch-ua': '\"Chromium\";v=\"112\", \"Google Chrome\";v=\"112\", \"Not:A-Brand\";v=\"99\"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '\"Windows\"',
    'sec-fetch-dest': 'empty',
    'sec-fetch-mode': 'cors',
    'sec-fetch-site': 'same-origin',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36',
}

params = {
    'build_time': '1681640300905',
    'page': '1',
    'type': 'intern',
    'keyword': '数据挖掘',
    'area': '',
    'months': '',
    'days': '',
    'degree': '',
    'official': '',
    'enterprise': '',
    'salary': '-0',
    'publishTime': '',
    'sortType': '',
    'city': '全国',
    'internExtend': '',
}

response = crawles.get(url, headers=headers, params=params, cookies=cookies)
text = response.text
# 存储ttf文件 用于分析和后续操作
font_file_uel = 'https://www.shixiseng.com/interns/iconfonts/file'
# 将请求到的数据存放到内存中,以便其他地方直接使用
ttf = TTFont(io.BytesIO(requests.get(font_file_uel).content))
# ttf.save('sxs.ttf')
ttf.saveXML('sxs.xml')

# 读取xml文件
f = open('sxs.xml', 'r', encoding='utf-8')
file_data = f.read()
f.close()

x = re.findall('<map code="0x(.*?)" name="(.*?)"/>', file_data)

glyph = re.findall('<GlyphID id="(.*?)" name="(.*?)"/>', file_data)
glyph_dict = {k: v for v, k in glyph}

str_data = '0123456789一师x会四计财场DHLPT聘招工d周L端p年hx设程二五天tXG前KO网SWcgkosw广市月个BF告NRVZ作bfjnrvz三互生人政AJEI件M行QUYaeim软qu银y联'
str_list = [' ', ''] + [i for i in str_data]

x_dict = {f'&#x{k}': str_list[int(glyph_dict[v])] for k, v in x}
# print(x_dict)


# 对整个文本数据进行替换解码操作
for k, v in x_dict.items():
    text = text.replace(k, v)

# 将数据转化回方便使用的格式
text_1 = json.loads(text)

for item in text_1['msg']['data']:
    max_salary = item['maxsal'] + '元/天'  # 最高薪资
    min_salary = item['minsal'] + '元/天'  # 最低薪资
    city = item['city']  # 所在城市
    scale = item['scale']  # 公司规模
    degree = item['degree']  # 学历要求
    c_tags = item['c_tags']  # 公司标签
    i_tags = item['i_tags']  # 实习标签
    name = item['name']  # 职位名称
    industry = item['industry']  # 所属行业

    print('最高薪资:', max_salary)
    print('最低薪资:', min_salary)
    print('所在城市:', city)
    print('公司规模:', scale)
    print('学历要求:', degree)
    print('公司标签:', c_tags)
    print('实习标签:', i_tags)
    print('职位名称:', name)
    print('所属行业:', industry)

print(text_1)

五·后记

👉👉本专栏所有文章是博主学习笔记,仅供学习使用,爬虫只是一种技术,希望学习过的人能正确使用它。
博主也会定时一周三更爬虫相关技术更大家系统学习,如有问题,可以私信我,没有回,那我可能在上课或者睡觉,写作不易,感谢大家的支持!!🌹🌹🌹
文章来源地址https://www.toymoban.com/news/detail-425817.html

到了这里,关于16.网络爬虫—字体反爬(实战演示)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【爬虫】7.3. CSS位置偏移反爬案例分析与实战

    上一节学习了Selenium这个自动化测试工具,但这个工具不是万能的,不容易爬取的数据依然存在,例如网页利用CSS控制文字的偏移位置,或者通过一些特殊的方式隐藏关键信息,这都会对数据爬取造成干扰。可以看这一部分代码: 以上是这一段代码的部分输出结果,可以看出

    2024年02月09日
    浏览(34)
  • 爬虫进阶-反爬破解1(反爬技术简介、HTTP网络基础知识、搭建代理服务)

    目录 一、反爬技术简介 二、HTTP网络基础知识 三、搭建代理服务 (一)破解Web端反爬技术 1.常见的反爬策略方向:同一时间的请求数量、请求的身份信息、浏览器和爬虫的区别 2.浏览器和爬虫的不同:异步数据加载、前端的渲染技术、逆向分析JS函数代码、浏览器调度和调试

    2024年02月10日
    浏览(97)
  • 字体反爬破解

    这里以实习僧为具体案例 ① 搜索“python”相关岗位,想爬取下来作为分析,但是看到html源码为特殊字符,而不是页面上直观能看到的文字信息 关闭对应的css样式可以看到,确实是做了字体反爬 ②点击对应的css样式查看css源码,通过源码解析字体加密过程 查看 font-family 是由

    2024年02月16日
    浏览(38)
  • 字体反爬积累知识

    目录 一、什么是字体反扒 二、Unicode编码 三、利用font包获取映射关系 一、什么是字体反扒 字体反爬是一种常见的反爬虫技术,它通过将网页中的文本内容转换为特殊的字体格式来防止爬虫程序直接获取和解析文本信息。字体反爬的原理是将常规的字符映射到特殊的字体图标

    2024年04月17日
    浏览(41)
  • 爬虫入门基础-Selenium反爬

    在网络时代,爬虫作为一种强大的数据采集工具,被广泛应用于各行各业。然而,许多网站为了防止被恶意爬取数据,采取了各种反爬虫机制。为了能够成功地绕过这些机制,Selenium成为了爬虫领域的一把利器。本文将为你介绍爬虫入门基础,并重点探讨如何使用Selenium应对反

    2024年02月08日
    浏览(46)
  • python基础爬虫&反爬破解

    简单来说:代替人去模拟浏览器进行网页操作。 爬虫是一种自动地获取网页数据并存储到本地的程序。它的主要作用是获取网站上的数据,这些数据可以用于分析、研究、开发等多种目的。爬虫可以帮助我们获取网站上的数据,而不需要人工浏览和抓取。爬虫的分类主要有通

    2024年02月09日
    浏览(42)
  • selenium爬虫反爬-修改window.navigator.webdriver的值

    使用selenium写爬虫的时候 window.navigator.webdriver 的值是 true ,容易被识别,需要隐藏起来,都说这个 execute_cdp_cmd 的方法有效,但是都是 python 版本的, java 尝试了发现没效果。我的版本是 Chrome/106.0.5249.119 经过在Bd的知识海洋中捞针,在 https://blog.csdn.net/qq_40178216/article/details/1

    2024年02月11日
    浏览(38)
  • 解密长短时记忆网络(LSTM):从理论到PyTorch实战演示

    本文深入探讨了长短时记忆网络(LSTM)的核心概念、结构与数学原理,对LSTM与GRU的差异进行了对比,并通过逻辑分析阐述了LSTM的工作原理。文章还详细演示了如何使用PyTorch构建和训练LSTM模型,并突出了LSTM在实际应用中的优势。 关注TechLead,分享AI与云服务技术的全维度知

    2024年02月11日
    浏览(35)
  • python爬虫-seleniumwire模拟浏览器反爬获取参数

    在进行数据爬取时,有时候遇到一些比较复杂的js逆向。在不考虑访问效率的情况下,使用selenium模拟浏览器的方法可以大大减少反反爬逆向工作量。但普通的selenium库是无法获取到类似set-cookie等参数的,这时候需要用到selenium-wire库。其用法类似selenium 首先安装selenium-wire库

    2024年02月03日
    浏览(40)
  • 【爬虫GUI】YouTube评论采集软件,突破反爬,可无限爬取!

    目录 一、背景介绍 1.1 软件说明 1.2 效果演示 二、科普知识 2.1 关于视频id 2.2 关于评论时间 三、爬虫代码 3.1 界面模块 3.2 爬虫模块 3.3 日志模块 四、获取源码及软件 你好,我是@马哥python说 ,一名10年程序猿。 最近我用python开发了一个GUI桌面软件,作用是爬取YouTube指定视频

    2024年02月11日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包