Python HTML页面解析大全之如何使用xpath从页面提取信息wwdc2022并输出为markdown和excel
2023-09-11 14:18:32 时间
很多时候我们需要从网页中提取信息,本文将以wwdc2022年页面中提取核心信息为例,为大家展示如何使用python提取信息并输出为markdown或excel。文章底部有完整代码和测试文件
python读取html文件
import codecs
f=codecs.open("wwdc2022.html", 'r')
h = f.read()
也可以使用with方式
with open("test.html", "r", encoding='utf-8') as f:
text= f.read()
使用xpath提取数据
引入库
from lxml import html
import requests
将html文件专为html
tree = html.fromstring(h)
提取文件
# Get element using XPath
sessions = tree.xpath('//*[@id="sessions"]/section[2]')
print(sessions)
多数据提取
获取多少个section
sectionLen = len(tree.xpath('//*[@id="sess
相关文章
- Python中的Pexpect模块的简单使用
- python 传入任意多个参数(方法调用可传参或不传参)
- python使用openpyxl库按 行/列 合并/拆分 Excel表格
- Python中collections.defaultdict()使用
- Python基础之:struct和格式化字符
- Html Table用JS导出excel格式问题 导出EXCEL后单元格里的000412341234会变成412341234 7-14 会变成 2018-7-14(7月14) 自定义格式 web利用table表格生成excel格式问题 js导出excel增加表头、mso-number-format定义数据格式 数字输出格式转换 mso-number-format:"@"
- Python+Requests+PyTest+Excel+Allure 接口自动化测试实战
- 【华为OD机试真题 python】最差产品奖【2023 Q1 | 200分】
- 零基础教你快速入门Python怎么学python入门?python新手学习路线
- python文件操作(open()、write()、writelines()、read()、readline()、readlines()、seek()、os)
- python强大之处在哪里?为什么那么多人喜欢Python?
- Python的灵活-允许嵌套定义函数并在内层函数的层级上直接调用内层函数
- Python中print()使用格式示例收集
- windows python flask读取文件数据并返回表格
- C#,入门教程(40)——主流编程语言C,C++,C#,Java, Go,Python的对比与建议
- 总结的太到位:python 多线程系列详解
- Python 操作 Excel,如何又快又好?
- python处理excel函数xlrd、xlwt
- 【Python】【Xmind】解析工具 xmind用例转为excel用例(不限级数 多少级都可以)
- 《从Excel到Python——数据分析进阶指南》一第1章 生成数据表
- 『迷你教程』机器学习的Bootstrap及Python实现
- 5 个用于复古图像着色的开源 Python 工具
- Python Excel自动化之 Openpyx如何Python程序读取和修改 Excel电子表格文件
- Python 实现被动收入教程之我如何使用 python 制作我的第一个高级telegram机器人
- Python代码库OpenCV之03读取和显示图片(含代码)
- Excel VLOOKUP实用教程之 07 vlookup如何解决肉眼看完全匹配,但是就是返回N/A错误(教程含数据excel)
- 基于C#语言利用Microsoft.office.introp.excel操作Excel总结
- Python Excel教程之如何将多个 excel 文件合并为一个文件(教程含源码)
- Excel自动化教程之通过python将Excel与Word集成无缝生成自动报告
- python 设计模式之 单例模式
- 2.1 The Python Interpreter(python解释器)
- 记录python接口自动化测试--根据excel中的期望输出是否存在请求返回的响应来判断用例是否执行成功(第八目)
- 记录python接口自动化测试--从excel中读取params参数传入requests请求不生效问题的解决过程(第七目)
- 个人 圈外同学 Python下载文章里面的ppt图片