您现在的位置是：首页 >

当前栏目

⛳️ 黄页字体反爬实战场景

实战场景字体反爬

2023-06-13 09:11:39 时间

⛳️ 黄页字体反爬实战场景

本次采集的目标站点为 https://huangye88.com ，首页截图如下所示。

在官网找到【企业黄页】选项卡，然后得到如下界面，其中涉及的信息如下，随机找到一个企业公开数据。

在公司黄页详情页可以查看到联系人和联系号码。

这里明显看到手机字体与其它字体有所差异，通过开发者工具进行验证之后，确定存在字体反爬。

保存字体文件，得到下述字体矢量图。

结果字体的编码是固定的英文，那这字体反爬的难度就变的极低了。

⛳️ 实战编码

通过开发者工具可以找到字体文件在网页源码中，所以我们编写一下相关提取代码。

import re

import requests
import base64
from fontTools.ttLib import TTFont

url = 'https://b2b.huangye88.com/qiye1edkfp0964c7/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36'
}

res_text = requests.get(url=url, headers=headers).text
ba64 = re.findall('base64,(.*?)\"\)', res_text)[0]
# print(ba64)

data = base64.b64decode(ba64)
with open('./fonts/519.woff', 'wb') as f:
    f.write(data)
font = TTFont('./fonts/519.woff')
font.saveXML('./fonts/519.xml')

得到字体之后，保存的 XML 文档如下所示。

本案例已经结束。

猜你喜欢

JS小知识，如何将 CSV 转换为 JSON 字符串
pandas（五）处理缺失数据和层次化索引详解大数据
脑电信号分析
如何看待Redis解析一个快速数据库（如何看redis）
Golang Project: Tic Tac Toe
技术盛宴来袭，黑客马拉松开赛，这场专注算法与创新的技术盛宴邀你来看！
追随老男孩学习Linux之旅（跟老男孩学习linux）
Mastering Linux Speed Up Your Workflow with CtrlD Shortcut（linuxctrld）
Linux下建立账号的快速指南（linux建立账号）
SPI协议代码
win764位系统配置php最新版开发环境（php+Apache+mysql）
解决Oracle中常见错误的实践技巧（oracle 错误处理）
ORA-09759: osnsbt: bad message received. ORACLE 报错故障修复远程处理

zl程序教程

当前栏目

⛳️ 黄页字体反爬实战场景

⛳️ 黄页字体反爬实战场景

⛳️ 实战编码

相关文章

当前栏目

⛳️ 黄页 字体反爬 实战场景

⛳️ 黄页 字体反爬 实战场景

⛳️ 实战编码

相关文章

⛳️ 黄页字体反爬实战场景

⛳️ 黄页字体反爬实战场景