您现在的位置是：首页 > 其他

当前栏目

抖音sign值生成失效分析(2020-03)

2023-03-15 22:06:04 时间

这两天发现抖音分享页面用户视频数据获取不到了

目前用户信息还是可以

之前的sign生成方法：抖音视频分享页面_signature

我简单检查了一遍发现是sign值错误。

一开始我以为是抖音更新了sign的生成方法，经过检查和与之前的代码对比，生成方法还是与之前一样。

于是我猜测应该是我的程序被识别出来，导致被ban掉。

我用selenium打开了链接：https://www.iesdouyin.com/share/user/102064772608

一经对比果然发现是selenium被识别到了。 (右图为正常浏览)

查看下接口。返回的数据是空的，这说明我们该驱动生成的sign值不正确。

为了进一步追踪导致生成错误的原因，我选择了一个固定的抖音ID下的 tac 和 dytk，放到了本地执行生成sign的代码。

经过对比，发现在相同的可见参数下，生成的sign值其中只有9位是不一样的。我们接下来就可以一个一个排除干扰因素。

这样大致就有了方向，我查看了下两个浏览器的 navigator。

除了基本的 webdriver = True 之外，还有 languages 不大相同 (其他的指纹信息太难对比了)。

按照以往的经验，直接给了一个开发者模式的options，访问之后，webdriver还是为True。在网上搜索后，发现是谷歌浏览器自 79.0.3945.36版本开始，修复了非无头模式下“自动化” navigator.webdriver是未定义的问题。 这里有几个解决方法：

1 将Chrome回滚一个版本，ChromeDriver回滚对应Chrome的版本即可。(pass,对于我来说在服务器调试太过繁琐)
2 启用mitmproxy拦截请求，在请求发送到服务端之前修改js文件，来掩盖webdriver指纹信息。(pass,目前并无法判断服务短是否只根据navigator.webdriver来进行ban选)

3: 最新检索出来的结果，也是目前我正在使用的方法，可以在linux 运行。使用 driver.execute_cdp_cmd 命令。代码如下：

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
        "source": """
        Object.defineProperty(navigator, 'webdriver', {
          get: () => undefined
        })
                    """ })

接下来我们启动一个使用execute_cdp_cmd命令的界面。

虽然navigator.webdriver 已经变成未定义了，但是可以看到接口返回的数据还是为空。

不要着急。我再次选择一个固定的抖音ID下的 tac 和 dytk，放到了本地执行生成sign的代码。

好像距离真相又近了一步，这已经可以发现，我们目前模拟生成的sign值只和真实的值在ASCII上差了1位。

我没有继续去查询还有哪些driver指纹被识别出来，实在太劳民伤财了。

这里经过我大约有200多次的测试。我组合出来所有字符的变换规则，基本上是固定的。

# less_list：如果我们生成的sign值 倒数第二位字符(X)在该列表中，那么真实的值需要用值(X)的ASCII减去1。比如m要换成l。 
less_list = ['d','V','J','t','m','L','R','l','X','b','Z','B','r','3','v','N','D','P','9','1','H','7','T','z','j','f','x','p','h','5','F','.']
# add_list： 和less相反，真实值需要用假X的ASCII+1，比如假值为M，真值则为n。
add_list = ['a','K','W','M','u','Q','S','A','e','U','O','Y','I','0','k','E','y','c','w','2','s','8','4','6','C','o','g','q','-','i','G','n',]

这样就解决问题了，可以正常的去抓取数据。

通过ASCII - sign值切换代码：

sig = '我们初次生成出来的值'
less_list = ['d','V','J','t','m','L','R','l','X','b','Z','B','r','3','v','N','D','P','9','1','H','7','T','z','j','f','x','p','h','5','F','.']
add_list = ['a','K','W','M','u','Q','S','A','e','U','O','Y','I','0','k','E','y','c','w','2','s','8','4','6','C','o','g','q','-','i','G','n',]
if sig[-2] in less_list:
    flag = '-1'
    sig = sig[:-2] + chr(ord(sig[-2])-1) + sig[-1:]
elif sig[-2] in add_list:
    flag = '+1'
    sig = sig[:-2] + chr(ord(sig[-2])+1) + sig[-1:]
else:
    print("新字符:",sig)   # 可能会出现新字符， 新字符默认取 ASCII +1
    sig = sig[:-2] + chr(ord(sig[-2])+1) + sig[-1:]

访问更多内容可查看专栏：爬虫案例合集

猜你喜欢

OpenHarmony 源码解析之账号子系统
OpenHarmony-v3.0-LTS Camera相机驱动框架(L2)解析1_初始化
英特尔正准备为 Linux 提供 Windows 用户所没有的 “超能力”
刘寿永：openEuler将着力四大应用场景构建数字经济生态底座
微软 Windows 11 全新记事本已向 Beta 预览版用户推送：圆角云母UI 现代设计，黑暗模式
Linux 下如何设置防火墙，你会吗
Linux 系统中 Sleep 和 Wait 命令的使用方式
Windows 11更新“个性化”版本：带你在桌面上看世界、使用语音访问PC
Pinta 2.0 发布，移植到 GTK 3，改进了 HiDPI 支持
搭建DevEco Device Tool V3.0 Beta2 Windows平台一站式开发环境
Windows 11又一重磅软件发布！新媒体播放器现可下载
微软为Windows 10企业版发布计划外更新修复远程桌面问题
Chrome 再次引入争议 API，遭同行抵制
Chrome 浏览器的「无痕模式」，被告上法庭了
想在 Ubuntu 上使用深度桌面？UbuntuDDE Remix 21.10 来了！
五张图带你搞懂容器网络的工作原理
微软全新 Windows 11 Media Player 已向部分正式版用户推出
面向团队的嵌入式 Linux
Windows 11今年迎来大版本更新！值得期待的新玩意
Windows 11 风格，疑似微软 Windows CoreOS 11 Build 22570 安装 / 试玩视频泄露

zl程序教程

当前栏目

抖音sign值生成失效分析(2020-03)

相关文章