您现在的位置是：首页 > 前端

当前栏目

lxml中etree.HTML()和etree.tostring()用法[通俗易懂]

HTML 通俗易懂用法 toString lxml

2023-06-13 09:14:31 时间

etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。 etree.tostring()：输出修正后的结果，类型是bytes 可参考以下代码：

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))

这里首先导入lxml库的etree模块，然后声明了一段HTML文本，调用HTML类进行初始化，这样就成功构造了一个XPath解析对象。这里需要注意的是，HTML文本中的最后一个li节点是没有闭合的，但是etree.HTML模块可以自动修正HTML文本。这里我们调用tostring()方法即可输出修正后的HTML代码，但是结果是bytes类型。这里利用decode()方法将其转成str类型，结果如下

<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </li></ul>
 </div>
</body></html>

可以看到，经过处理之后，li节点标签被补全，并且还自动添加了body、html节点。

参考：崔庆才的Python3网络爬虫开发实战

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/201349.html原文链接：https://javaforall.cn

猜你喜欢

一天搞定：Flutter + ChatGPT，打造智能聊天机器人
省市区数据存储Redis实现优化（省市区数据存redis）
高效办公神器：在Linux下体验优秀的桌面环境（linux下桌面）
SQLServer数据库自动执行管理任务
使用Redis实现远程批量删除（redis远程批量删除）
Oracle中小于运算符的应用（oracle中小于）
谈谈云计算数据中心 DevSecOps 运维模式中的安全性
Linux之旅：探索分支的奥秘（linux的分支）
测试Redis链接最佳实践（怎么测试链接redis）
ECS（Entitas） For Unity #1
java使用计算md5校验码方式比较两个文件是否相同
java类详解（深入浅出 Date Math System BigInteger等）
JsonNode、JsonObject常用方法[通俗易懂]
消息队列：第四章：延迟检查队列
深入Linux：检测和设置的指南（linux的检测设置）
打印机使用方法_手机使用惠普打印机扫描
Oracle公司开创新纪元构建领先的数据库技术（oracle公司的数据库）
Spss怎么使用？专业数据统计分析软件SPSS中文版，SPSS软件安装
ClickHouse 源码解析（三）：SQL 的一生（下）
jquery动态添加删除一行数据示例
【Linux 内核】编译 Linux 内核 ⑥ ( 安装 OpenSSL | 安装其它依赖库 | 内核编译完成 )

zl程序教程

当前栏目

lxml中etree.HTML()和etree.tostring()用法[通俗易懂]

相关文章