您现在的位置是：首页 > 后端

当前栏目

Python HTML页面解析大全之如何使用xpath从页面提取信息wwdc2022并输出为markdown和excel

Python Excel 输出 HTML 如何解析信息页面

2023-09-11 14:18:32 时间

很多时候我们需要从网页中提取信息，本文将以wwdc2022年页面中提取核心信息为例，为大家展示如何使用python提取信息并输出为markdown或excel。文章底部有完整代码和测试文件

python读取html文件

import codecs
f=codecs.open("wwdc2022.html", 'r')
h = f.read()

也可以使用with方式

with open("test.html", "r", encoding='utf-8') as f:
    text= f.read()

使用xpath提取数据

引入库

from lxml import html
import requests

将html文件专为html

tree = html.fromstring(h)

提取文件

# Get element using XPath
sessions = tree.xpath('//*[@id="sessions"]/section[2]')
print(sessions)

多数据提取

获取多少个section

sectionLen = len(tree.xpath('//*[@id="sess

猜你喜欢

【转】带约束的多目标优化进化算法综述
机械CAD中如何快速绘制对刀塞尺？
VS CODE jQuery/easyui代码片段
js获取屏幕大小
Cordova
plsql developer中,清除登录历史
Grafana 汉化
unity之子弹发射
gdb调试解决找不到源代码的问题
ant-design表单处理和常用方法及自定义验证
Hadoop伪分布式搭建
修改 commit 历史
翟起滨：信息安全还需政府与设备厂商共同发力
数据库系列课程（23）-MongoDB 索引
C# 调用【榛子云】短信接口
android linphone中opengl显示的实现
美国推出网络安全态势感知计划
IT行业常用的软件汇总及使用说明
PyBullet：一种用 Python 构建的开源 3D 物理模拟工具(教程含源码)
iOS 购物车动画
练习 1-24 编写一个程序，查找C语言程序中的基本语法错误，如圆括号、方括号、花括号不配对等。
[LeetCode] 1253. Reconstruct a 2-Row Binary Matrix 重构 2 行二进制矩阵
liunx 7.5版本系统阵列部署方法
多云如此火爆，但这些挑战你都了解吗？

相关主题

python学习
python读写excel
Python Excel 去重
python图像分割
python excel 操作
python之datetime

zl程序教程