您现在的位置是：首页 > .Net

当前栏目

爬虫（5） - 网页数据解析(1) | XPath在爬虫中的应用

2023-02-18 15:49:50 时间

什么是XPath

XPath即为XML路径语言(XML Path Language)
XPath可以用于定位XML文本的节点
实际上，XPath也适用于定位HTML中的节点

节点及节点间的关系

在HTML中，节点就是一个个HTML标签
分析节点间的关系也就是要清楚HTML文档中各标签间的关系
理清这些关系对于书写XPath路径表达式来说非常重要

节点分类

先辈节点
父节点
兄弟节点
子节点
兄弟节点

XPath路径表达式

XPath使用路径表达式来选取XML文档(或是HTML文档)中的节点或节点集;在节点后加上带有数字的方括号，可以根据兄弟节点在文档中出现的先后次序选择元素（数字1为第一个以此类推）

通过在节点后加上带有属性名-值对的方括号，可以筛选出需要的节点

属性值的写法为：@属性名=“属性值”

路径表达式	描述
/div /span	从根节点开始选取div节点从根节点开始选取span节点
//a	选取文档中所有a节点而不考虑其位置
@class	选取名为class的属性
.	选取当前节点
..	选取当前节点的父节点
/div/a	从根节点开始选取div节点下的a节点
/div/a[2]/img	从根节点开始选取div节点下的第二个a节点下的img节点
//div[@class='header-wrapper']	选取所有属性class的值为header-wrapper的div节点
//*	选取文档中所有元素
//@*	选取文档中所有带属性的元素
/div/p/text()	选取p节点的文本内容
//div[contains(@class,"post")]	选取带有class属性且包含“post”的所有div节点取反//div[not(contains(@class,"post"))]
/div/p[last()-1]	选取div下倒数第二个p节点
/div/p[position()>1]	选取div下第二个p节点后的所有兄弟节点
/div/a\|div/p	选取div下的a节点和div下的p节点

猜你喜欢

Linux 多种方式实现文件共享
JavaScript 前端知识点总结
MySQL 数据库读写分离
前端ECharts框架绘制各种图形
C/C++ Qt 命令行版网络通信
C/C++ Qt 基本文件读写方法
Django 前端BootCSS 实现分页
Django Ajax 实现历史图形查询
爱心代码文字升级版
Django Ajax 实现Web命令行执行
Django Ajax动态图形监控
软件测试|Junit5基本使用
Django 实现统计网站访问状态
Django Admin后台定制简单监控页
2022年测试行业的新变化
Python MySSH 实现剧本执行器
C/C++ Qt QThread 线程组件应用
Python 实现 WebSocket 通信
C/C++ Qt QChart 绘图组件应用
比羊了个羊还火的ChatGPT，玩法全攻略讲解

zl程序教程

当前栏目

爬虫（5） - 网页数据解析(1) | XPath在爬虫中的应用

什么是XPath

XPath路径表达式

相关文章