您现在的位置是：首页 > 后端

当前栏目

Python爬虫：scrapy利用html5lib解析不规范的html文本

Python 爬虫 scrapy HTML 解析利用文本规范

2023-09-14 09:07:14 时间

问题

当爬取表格(table) 的内容时，发现用 xpath helper 获取正常，程序却解析不到

在chrome、火狐测试都有这个情况。出现这种原因是因为浏览器会对html文本进行一定的规范化

scrapy 使用的解析器是 lxml ，下面使用lxml解析，只是函数表达不一样，xpath和css选择器的语法一样

安装解析器

pip install beautifulsoup4 lxml html5lib

下面例子中html文本<tr>标签只有闭合标签，没有起始标签

# -*- coding: utf-8 -*-

from lxml import etree

text = """
<table>
    <td>姓名</td><td>年龄</td></tr>
    <td>龙泽啦啦</td><td>23</td></tr>
    <td>餐巾空</td><td>25</td></tr>
</table>
"""

html = etree.HTML(text)
name = html.xpath("//table/tr[1]/td[1]/text()")
print(name)
# []

看到输出结果为空列表，lxml无法正确解析出不规范的标签

解决

思路：

利用 BeautifulSoup 和 html5lib 先将不规范的html文本转为规范的文本再进行解析
这里写图片描述


from bs4 import BeautifulSoup

soup = BeautifulSoup(text, "html5lib")
print(soup.prettify())
"""
<html><head></head><body><table>
<tbody>
    <tr><td>姓名</td><td>年龄</td></tr>
    <tr><td>龙泽啦啦</td><td>23</td></tr>
    <tr><td>餐巾空</td><td>25</td></tr>
</tbody>
</table></body></html>
"""

html = etree.HTML(soup.prettify())
name = html.xpath("//tbody/tr[1]/td[1]/text()")
print(name)
# ['\n      姓名\n     ']

看到被 html5lib 解析后的html文本变得规范了，自动补全了标签。最后再解析就没问题了

说明：

参考：

scrapy关于tbody标签的问题
Beautiful Soup 4.2.0 文档
prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出

猜你喜欢

【Codeforces 372A】Counting Kangaroos is Fun
C/C++，windows下编译报错：error C3861: “snprintf”: 找不到标识符
Python视觉深度学习系列教程第三卷第3章准备ImageNet（2）
源代码方式调试Mycat
世界杯winner只属于你——MESSI
【ctfshow】 web29 10
SQL Server实现 LeetCode 177 第N高的薪水
centos添加环境变量
对称加密算法-AES算法（高级数据加密标准）
【转载】Linux下tar.xz格式文件的解压方法
记录：禁用你的元素 bootstrap
【智能算法】蚁群算法及Matlab实现 —— TSP问题
获取文件状态
《将博客搬至CSDN》
数据挖掘算法R语言实现之决策树
tensorflow提示：No module named ''tensorflow.python.eager".
要求将变量的值互换
Angular 开发中的 Source Map

相关主题

python 匿名函数
Python爬虫原理
python爬虫入门
Python-Socket通信
Python网络爬虫
Python爬虫开发
Python爬虫示例
python 获取IP

zl程序教程

当前栏目

Python爬虫：scrapy利用html5lib解析不规范的html文本

问题

解决

相关文章