爬虫方法论(数据解析方法汇总)
2023-04-18 14:48:31 时间
数据解析分类:
- 正则表达式
- bs4
- xpath (最常用且最便捷高效的一种解析方式)
数据解析原理概述:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储
步骤:进行指定标签的定位;标签或者标签对应的属性中存储的数据值进行提取
正则表达式(待更新)
bs4进行数据解析步骤:
- bs4解析原理:
- 实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
- 通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
- 环境安装:
– pip install bs4
– pip install lxml #一种解析器
xpath进行数据解析步骤:
- xpath解析原理:
- 实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。
- 调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。
- 环境安装:
– pip install lxml - 如何实例化一个etree对象
- 将本地的html文档中的源码数据加载到etree对象中:
etree.parse(filePath) - 可以将从互联网上获取的源码数据加载到该对象汇总
etree.HTML(‘page_text’) - xpath(’ xpath表达式 ')
- 将本地的html文档中的源码数据加载到etree对象中:
后续工作:将针对三种方法,进行实例化讲解。
补充:
- request中解决编解码的方法:
– response.content.decode() #默认为utf-8 – response.content.decode('gbk') – response.text
- 判断请求是否成功:
assert response.status_code==200
相关文章
- 直接在代码里面对list集合进行分页
- .NET Framework 4.5新特性详解
- 大数据的简要介绍
- 大数据的由来
- 高斯混合模型的自然梯度变量推理
- timing-wheel 仿Kafka实现的时间轮算法
- 使用Navicat软件连接自建数据库(Linux系统)
- 那一天,我被Redis主从架构支配的恐惧
- Redis 深入了解键的过期时间
- C#使用委托调用实现用户端等待闪屏
- 基于流计算 Oceanus 和 Elasticsearch Service 构建百亿级实时监控系统
- GRAND | 转录调控网络预测数据库
- JFreeChart API中文文档
- 临床相关突变查询数据库
- TIGER | 人类胰岛基因变化查询数据库
- 视频边缘计算网关EasyNVR在视频整体监控解决方案中的应用分析
- Apache Arrow - 大数据在数据湖后的下一个风向标
- 常见的电商数据指标体系
- AKShare-艺人数据-艺人流量价值
- MySQL中多表联合查询与子查询的这些区别,你可能不知道!