您现在的位置是：首页 > 数据库

当前栏目

分享一次实用的爬虫经验

数据

2023-03-20 15:41:52 时间

前言

前几天铂金群有个叫【艾米】的粉丝在问了一道关于Python网络爬虫的问题，如下图所示。

不得不说这个粉丝的提问很详细，也十分的用心，给他点赞，如果大家日后提问都可以这样的话，想必可以节约很多沟通时间成本。

其实他抓取的网站是爱企查，类似企查查那种。

一、思路

一开始我以为很简单，我照着他给的网站，然后一顿抓包操作，到头来竟然没有找到响应数据，不论是在ALL还是XHR里边都没有找到任何符合要求的数据，真是纳闷。讲到这里，【杯酒】大佬一开始也放大招，吓得我不敢说话。

其实是想复杂了，一会儿你就知道了。

怀着一颗学习的心，我看了杯酒的代码，发现他构造的URL中有下图这个：

然后我再去网页中去找这个URL，可是这个URL在原网页中根本就找不到？？？这就离谱了，总不能空穴来风吧，事出必有因！

二、分析

原来这里有个小技巧，有图有真相。

之后根据抓包情况，就可以看到数据了。

在里边可以看到数据：

这里【杯酒】大佬查询的关键词是：数据，所以得到了好几页数据，而我和【艾米】都是直接查的：上海手术器械厂，这个只有一页，不太好观察规律，所以一直卡住了。

之后将得到的代码中的URL的关键词，改为：上海手术器械厂，就可以顺利的得到数据，是不是很神奇呢？

三、代码

下面就奉上本次爬虫的代码，欢迎大家积极尝试。

# -*- coding: utf-8 -*-
import requests
import user_agent
from urllib import parse


def search(key_word):
    for page_num in range(1, 2):
        url = f'https://aiqicha.baidu.com/s/advanceFilterAjax?q={parse.quote(key_word)}&t=&p={str(page_num)}&s=10&o=0&f=%7B%7D'
        headers = {
            'User-Agent': user_agent.generate_user_agent(),
            'Referer': 'https://aiqicha.baidu.com/s?q=%E6%95%B0%E6%8D%AE&t=0',
        }
        print(url)
        response = requests.get(url=url, headers=headers)
        print(requests)
        print(response.json())
        # break


if __name__ == '__main__':
    search('上海手术器械厂')

只需要将关键词换成你自己想要搜索的就可以了。

下图是运行的结果：

下图是原网页的截图，可以看到数据可以对的上：

四、总结

我是Python进阶者。本文基于粉丝提问，针对一次有趣的爬虫经历，分享一个实用的爬虫经验给大家。下次再遇到类似这种首页无法抓取的网页，或者看不到包的网页，不妨试试看文中的“以退为进，投机取巧”方法，说不定有妙用噢！

猜你喜欢

实战！聊聊如何解决MySQL深分页问题
2020征文-TV「续3.1.1 文本组件」不需要背景图，自定义绘制会更好
用三国杀讲分布式算法，舒适了吧？
华为云GaussDB(for MySQL)2.0全新升级，三大技术大揭秘
帮你精通Shell脚本编程：构筑程序基石的7项基本元素
MongoDB Change Streams性能优化实践
从0学ARM-汇编伪指令、LDS详解
MySQL的三条JOIN子句使用指南
一篇文章带你了解SVG <clippath>剪切路径
扬帆大数据时代，英特尔携手星环打造全闪存分布式数据库
超全面 Redis 分布式高可用方案：哨兵机制
非Spring管理Bean如何添加AOP呢？
偶数获近2亿元 B+轮投资，引领云数仓赛道
RPC 用着好好的？为什么还需要使用 MQ？
并发编程之ThreadLocal深入理解
时间序列数据如何助力酿酒和BBQ?
一日一技：Pandas 中，如何分组再取 N项？
Linux 下如何实现 MySQL 数据库每天自动备份定时备份
如何用 rpm-ostree 数据库检查更新信息和更新日志
基于Vue的前端架构，我总结15点经验

zl程序教程