lxml中etree.HTML()和etree.tostring()用法[通俗易懂]
HTML 通俗易懂 用法 toString lxml
2023-06-13 09:14:31 时间
etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。 etree.tostring():输出修正后的结果,类型是bytes 可参考以下代码:
from lxml import etree
text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''
html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))
这里首先导入lxml库的etree模块,然后声明了一段HTML文本,调用HTML类进行初始化,这样就成功构造了一个XPath解析对象。这里需要注意的是,HTML文本中的最后一个li节点是没有闭合的,但是etree.HTML模块可以自动修正HTML文本。
这里我们调用tostring()
方法即可输出修正后的HTML代码,但是结果是bytes类型。这里利用decode()
方法将其转成str类型,结果如下
<html><body><div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</li></ul>
</div>
</body></html>
可以看到,经过处理之后,li节点标签被补全,并且还自动添加了body、html节点。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/201349.html原文链接:https://javaforall.cn
相关文章
- html获取contextpath,JavaScript中${pageContext.request.contextPath}取值问题及解决方案[通俗易懂]
- HTML+CSS实现导航条及下拉菜单[通俗易懂]
- 用html做简单的日记,学习HTML日记[通俗易懂]
- 如何是HTML页面中的表单居中显示[通俗易懂]
- 在菜鸟教程学 HTML(一)[通俗易懂]
- 2套后台模板HTML+整套Easyui皮肤组件-后台管理系统模板
- 『知识巩固#1』Html、Css基础整理
- 【黑马程序员pinik名师讲html】HTML很容易忘记?有它我不慌的
- pytest学习和使用16-HTML报告如何生成?(pytest-html)
- ORA-51703: Missing tag from HTML ORACLE 报错 故障修复 远程处理
- 简单构建HTML页面,连接MySQL数据库(html连接mysql)
- 文件MySQL数据库存储HTML文件.(mysql存html)
- 文件Linux查看HTML文件的简单方法(linux查看html)
- 使用HTML实现MySQL资料读取(html读取mysql)
- HTML 颜色
- HTML <style> 标签
- HTML 操作 Oracle 数据库的实现(html调用oracle)
- HTML与Oracle开启精彩的互联网之旅(html和oracle)
- WEB标准网页布局中尽量不要使用的HTML标签
- php下清空字符串中的HTML标签的代码
- js简单实现HTML标签Select联动带跳转
- crawler4j抓取页面使用jsoup解析html时的解决方法
- 使用C#获取网页HTML源码的例子