您现在的位置是：首页 > APP

当前栏目

APP数据爬取

App 数据

2023-04-18 12:29:06 时间

准备

爬取时间：2021/02/02

系统环境：Windows 10

所用工具：Jupyter NotebookPython 3.0Fiddler雷神模拟器

涉及的库：requestsjson

获取基础数据

小提示undefined ①模拟器不要用Android 7.0以上的内核，可能会导致抓包失败。undefined ②因为url签名会定期刷新，所以抓包后需尽快执行代码，不然url会失效。undefined 参考资料
使用fiddler+模拟器进行APP抓包

获取url

蛋肥想法：

原本计划是利用Fiddler+雷神模拟器去完成数据抓包，找到数据的url规律，但实际操作发现，url里带sign，百度了下sign的处理方法，感觉暂时超出了蛋肥的知识范围，所以这次利用雷神模拟器自带的“操作录制”功能，将论美区的页面自动下滑至底部，将Fiddler抓取的所有相关url地址导出，然后再去python里处理url。

#处理Fiddler里导出的url

file=open(r"C:UsersArcherDesktopurl.txt","r",encoding='utf-8')

url_list=file.read().split("
")

Fiddler抓取的部分url

获取cover地址

蛋肥想法： 通过url请求json，观察json结构发现“cover”对应封面照片的地址，可用之获取照片。

import requests

import json

#获取cover地址

def getpic(url):

    piclink=[]

    for each in url:

        link=each

        headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0"}

        r=requests.get(link,headers=headers,timeout=10)

        json_string=r.text

        json_data=json.loads(json_string)

        coverlist=json_data["data"]["list"]

        for each in coverlist:

            #因某些list里没有cover，做一个判断

            if "cover" in each:

                p=each["cover"]

                piclink.append(p)

    return(piclink)

#执行函数

a=getpic(url_list)

#为了获取原图去掉url里的resize

b=[x[:x.find("?")] for x in a]

#去掉列表里的空值

c=[x for x in b if x != ""]

获取照片

#获取照片

def downloadpic(link):

    for i in range(len(link)):

        print(link[i])

        piclink=link[i]

        pic=requests.get(piclink)

        with open(r'C:UsersArcherDesktop论美区照片img'+str(i)+'.png', 'wb') as f:

            f.write(pic.content)

#执行函数

downloadpic(c)

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程