爬虫数据解析
2023-04-18 14:48:45 时间
Python中常见的解析技术:正则、xpath、BeautifullSoup、json模块、jsonpath
正则:从任意的字符串中查找需要数据
Ⅹpath, BeautifullSoup都是用于处理有层次结构的数据,比如:html,xmlisQn模块与 nonpath:专门用于处理json数据
性能
正则:最快,使用难度高,无需安装,内置re模块
Xpath:是通过c语言实现,速度比较快,使用比较简单,安装比较简单
BeautifullSoup:通过 python实现,速度比较慢,使用简单,安装比较简单
json模块:速度一般,使用非常简单,通过内置的json模块
jsonpath:速度一般,使用简单,安装比较简单
正则表达式(爬虫中常用的两种)
方法 功能 参数说明 返回值类型
import re
# 从“你好,hello,世界”从字符串中提取中文 text = '你好,hello,世界'
# 通过正则表达式,生成一个pattern对象(只用于匹配中文) pattern = re.compile(r'[u4e00-u9fa5]+') # 检索字符串,将匹配的中文存入列表 result = pattern.findall(text) print(result)
xpath语法
1.选取节点
2、谓语(补充说明节点)
3、选取未知节点
相关文章
- 直接在代码里面对list集合进行分页
- .NET Framework 4.5新特性详解
- 大数据的简要介绍
- 大数据的由来
- 高斯混合模型的自然梯度变量推理
- timing-wheel 仿Kafka实现的时间轮算法
- 使用Navicat软件连接自建数据库(Linux系统)
- 那一天,我被Redis主从架构支配的恐惧
- Redis 深入了解键的过期时间
- C#使用委托调用实现用户端等待闪屏
- 基于流计算 Oceanus 和 Elasticsearch Service 构建百亿级实时监控系统
- GRAND | 转录调控网络预测数据库
- JFreeChart API中文文档
- 临床相关突变查询数据库
- TIGER | 人类胰岛基因变化查询数据库
- 视频边缘计算网关EasyNVR在视频整体监控解决方案中的应用分析
- Apache Arrow - 大数据在数据湖后的下一个风向标
- 常见的电商数据指标体系
- AKShare-艺人数据-艺人流量价值
- MySQL中多表联合查询与子查询的这些区别,你可能不知道!