您现在的位置是：首页 > 后端

当前栏目

Python爬虫之续Urllib&&Jsonpath库的使用

Python amp 爬虫 urllib 使用 jsonpath

2023-09-11 14:19:57 时间

请添加图片描述

@作者 : SYFStrive

@博客首页 : HomePage

🥧 Urllib使用传送门

📌：个人社区（欢迎大佬们加入） 👉：社区链接🔗

📌：如果觉得文章对你有帮助可以点点关注 👉：专栏连接🔗

💃：程序员每天坚持锻炼💪

🔗：阅读文章

📋目录

简介🐊
最后

简介🐊

JSONPath是一种信息抽取类库，是从JSON文档中抽取指定信息的工具，提供多种语言实现版本，包括：Javascript, Python，PHP 和 Java，JsonPath 对于 JSON 来说，相当于 XPath 对于 XML。

爬虫步骤🐯

想要爬什么？ 👉 数据类型 👉 找接口 👉爬取数据

在这里插入图片描述

JsonPath与Xpath语法对比 ⚖

Json结构清晰，比 XML 简洁得多，可读性高，复杂度低，非常容易匹配，可以很直观地了解存的是什么内容，如👇图所示。

XPath	JSONPath	描述
/	$	根对象/元素
.	@	当前对象/元素
/	. or []	孩子操作符
…	n/a	父亲操作符
//	…	递归下降。JSONPath从E4X借用了这个语法。
*	*	通配符。所有对象/元素，不管它们的名称。
@	n/a	属性的访问。JSON结构没有属性。
[]	[]	下标操作符。XPath使用它来遍历元素集合和谓词。在Javascript和JSON中，它是原生数组操作符。
I	[,]	XPath中的联合运算符会生成节点集的组合。JSONPath允许替换名称或数组索引集。
n/a	[start🔚step]	从ES4借用的数组切片操作符。
[]	?()	应用筛选器(脚本)表达式。
n/a	()	脚本表达式，使用底层脚本引擎。
()	n/a	分组在Xpath

官网：https://goessner.net/articles/JsonPath/

续Urllib的相关使用

Python之Urllib爬取前后端分离Json格式的后端数据_Ajaxget(以🌴为例（其他类似）)

注意⚠：open方法默认情况下载的是gbk的编码，如果我们要下载保存汗字，那么需要在open方法中指定编码格式💭

Ⅰ爬取json数据格式化数据ctrl + alt +L

Ⅱ下载数据到本地的两种方法：

方法1、 fs=open(保存的文件名，’类型‘，’等‘）
fs.write(要写入或要读取数据)

方法2、 with open（保存的文件名，’类型‘，‘等’) as fs:
fs.write(要写入或要读取数据)

步骤

查看数据是不是我们想要的

在这里插入图片描述

复制接口

在这里插入图片描述
3. 找到接口就可以爬了

📰代码演示：

在这里插入图片描述

如下图（爬取成功🆗）：

在这里插入图片描述

快跟我爬起来吧😀

在这里插入图片描述

Python之Urllib爬取前后端分离Json格式的后端数据_Ajaxget动态爬取多少页(以🌴为例（其他类似）)

步骤：找页码规律

当我往下滑的时候会发现不断更新数据（利用Axios技术）
在这里插入图片描述
同时我们获取刷新数据的接口如👇

https://movie.douban.com/j/sort=U&range=0,10&tags=&start=0&genres=%E5%8A%A8%E4%BD%9C
https://movie.douban.com/j/sort=U&range=0,10&tags=&start=20&genres=%E5%8A%A8%E4%BD%9C
https://movie.douban.com/j/sort=U&range=0,10&tags=&start=40&genres=%E5%8A%A8%E4%BD%9C

我们可以发现如👇（所以从这里入手）

start=0
start=20
start=40

📰代码演示：

在这里插入图片描述

如下图（爬取成功🆗）：

在这里插入图片描述

快跟我爬起来吧😀

在这里插入图片描述

Python之Urllib爬取🍔餐厅的信息_Ajaxpost动态爬取多少页

步骤：找页码规律

当我点击下一页的时候会发现随之数据页发生变化
在这里插入图片描述

同时我们获取刷新数据的接口如👇

http://www.kfc.com.cn/GetStoreList.ashx?op=cname
cname: 汕头
pid:
pageIndex: 1
pageSize: 10
http://www.kfc.com.cn/GetStoreList.ashx?op=cname
cname: 汕头
pid:
pageIndex: 2
pageSize: 10

我们可以发现如👇（所以从这里入手）

pageIndex: 1
pageIndex: 2

在这里插入图片描述

📰代码演示：

在这里插入图片描述

如下图（爬取成功🆗）：

请添加图片描述
在这里插入图片描述

在这里插入图片描述

Python之Jsonpath简单使用🐗

安装：pip intsall jsonpath（由于库很小可以不使用镜像）

推荐一篇不错的文章：点击跳转

📰JsonPath要爬的数据

在这里插入图片描述

📰代码演示：

在这里插入图片描述

如下图（获取想要的数据🆗）：

在这里插入图片描述

Python之Jsonpath爬取淘🎫🎫数据然后使用Jsonpath获取想要的数据🐗

在这里插入图片描述

📰代码演示：

在这里插入图片描述

如下图（获取数据成功🆗）：

在这里插入图片描述

最后

本文章到这里就结束了，觉得不错的请给我专栏点点订阅，你的支持是我们更新的动力，感谢大家的支持，希望这篇文章能帮到大家

点击跳转到我的Python专栏

在这里插入图片描述

下篇文章再见ヾ(￣▽￣)Bye_Bye

请添加图片描述

猜你喜欢

Android 10.0 手势导航自定义左右手势滑动返回样式UI布局
2021九月你好励志说说句子写什么?可用便签记录
MFC Windows 程序设计[150]之上报列表图标全集
java实现历届试题蓝桥杯打印十字图
子域名的信息收集
C# .NET Framework4.0环境下使用async/await语法,以及其中的需要注意的地方。
javascript案例19——if判断范围并执行操作
flask中重定向所涉及的反推：由视图函数反推url
习题 5.11 有一行电文，已按下面规律译成密码：A-Z a-z即第一个字母变成第26个字母，第i个字母变成第（26-i+1）个字母。非字母字符不变。要求编程序将密码译回原文，并输出密码和原文。
[Javascript] Combine Objects with Object.assign and Lodash merge
Spark实战(五)spark streaming + flume(Python版)
【QML 动态对象】使用JS中的语句动态创建和销毁组件
Docker和宿主机操作系统文件目录互相隔离的实现原理
Java Web 学习路线
[synergy]两台机器公用键盘鼠标
数学建模算法总结 -算法应用场景和算法代码实现（1）
linux ifconfig命令参数及用法详解--linux查看配置网卡命令
关于C++ const 的全面总结
[AWS] EC2 - Auto Scaling Group
数据库 SQLite ORM框架 LitePal [MD]

相关主题

Python 切片
Python爬虫基础1
Python中cPickle
python view()
python内置方法
1.python的变量

zl程序教程

当前栏目

Python爬虫之续Urllib&&Jsonpath库的使用

📋目录

简介🐊

爬虫步骤🐯

JsonPath与Xpath语法对比 ⚖

续Urllib的相关使用

Python之Urllib爬取前后端分离Json格式的后端数据_Ajaxget(以🌴为例（其他类似）)

Python之Urllib爬取前后端分离Json格式的后端数据_Ajaxget动态爬取多少页(以🌴为例（其他类似）)

Python之Urllib爬取🍔餐厅的信息_Ajaxpost动态爬取多少页

Python之Jsonpath简单使用🐗

Python之Jsonpath爬取淘🎫🎫数据然后使用Jsonpath获取想要的数据🐗

最后

相关文章

当前栏目

Python爬虫之续Urllib&&Jsonpath库的使用

📋目录

简介🐊

爬虫步骤🐯

JsonPath与Xpath语法对比 ⚖

续Urllib的相关使用

Python之Urllib爬取前后端分离Json格式的后端数据Ajaxget(以🌴为例（其他类似）)

Python之Urllib爬取前后端分离Json格式的后端数据Ajaxget动态爬取多少页(以🌴为例（其他类似）)

Python之Urllib爬取🍔餐厅的信息Ajaxpost动态爬取多少页

Python之Jsonpath简单使用🐗

Python之Jsonpath爬取淘🎫🎫数据然后使用Jsonpath获取想要的数据🐗

最后

相关文章

Python之Urllib爬取前后端分离Json格式的后端数据_Ajaxget(以🌴为例（其他类似）)

Python之Urllib爬取前后端分离Json格式的后端数据_Ajaxget动态爬取多少页(以🌴为例（其他类似）)

Python之Urllib爬取🍔餐厅的信息_Ajaxpost动态爬取多少页