您现在的位置是：首页 > 后端

当前栏目

爬虫之lxml模块中etree.tostring函数的使用

爬虫模块函数 toString lxml 使用

2023-09-11 14:15:15 时间

爬虫之lxml模块中etree.tostring函数的使用

运行下边的代码，观察对比html的原字符串和打印输出的结果

from lxml import etree
html_str = ''' <div> <ul> 
        <li class="item-1"><a href="link1.html">first item</a></li> 
        <li class="item-1"><a href="link2.html">second item</a></li> 
        <li class="item-inactive"><a href="link3.html">third item</a></li> 
        <li class="item-1"><a href="link4.html">fourth item</a></li> 
        <li class="item-0"><a href="link5.html">fifth item</a> 
        </ul> </div> 
        '''

html = etree.HTML(html_str)
print(html)

handeled_html_str = etree.tostring(html).decode()
# handeled_html_str = etree.tostring(html)
print(handeled_html_str)

运行效果：

1.1 现象和结论

打印结果和原来相比：

自动补全原本缺失的li标签
自动补全html等标签

<html><body><div> <ul> 
<li class="item-1"><a href="link1.html">first item</a></li> 
<li class="item-1"><a href="link2.html">second item</a></li> 
<li class="item-inactive"><a href="link3.html">third item</a></li> 
<li class="item-1"><a href="link4.html">fourth item</a></li> 
<li class="item-0"><a href="link5.html">fifth item</a> 
</li></ul> </div> </body></html>

结论：

lxml.etree.HTML(html_str)可以自动补全标签
lxml.etree.tostring函数可以将转换为Element对象再转换回html字符串
爬虫如果使用lxml来提取数据，应该以lxml.etree.tostring的返回结果作为提取数据的依据

猜你喜欢

Oracle表空间名称是区分大小写
用结构体实现链表操作
Android学习笔记（十三）——碎片（一）
【精通C语言】C99伸缩型数组成员（Flexible array member）
一个Java实现的工具,能下载Github issue里包含的图片到本地
Scala入门到精通——第二十五节提取器（Extractor）
基于常规DNS隧道进行的tcp端口转发dns2tcp的使用
论文投稿指南——中文核心期刊推荐（农业工程）
一步步将 SAP Commerce Mock 应用部署到 SAP BTP Kyma Runtime
同步和Java内存模型（五）Volatile
Atitit 各有所长原则 Thinker和Doer之争。 Doer Influencer relater thinker 目录 1. Doer Influencer relater thinke
大数据开发笔记（四）：Hive分区详解
C# - 集合差集计算
【图像处理】基于 MATLAB 和蚁群算法的图像边缘检测
[Javascript] Stop writing For loops. Start using underscore
vTaskDelete(NULL)使用注意事项
spring boot 使用 mybatis 开启事务回滚的总结
数学建模暑期集训22：图论最短路径问题——Dijkstra算法和Floyd算法
SAP 电商云 Spartacus UI product 明细页面的路由配置
macOS+python3+selenium+chromedriver

相关主题

python3爬虫
爬虫学习
网络爬虫
第一个爬虫
Python爬虫四

zl程序教程

当前栏目

爬虫之lxml模块中etree.tostring函数的使用

爬虫之lxml模块中etree.tostring函数的使用

1.1 现象和结论

相关文章