您现在的位置是：首页 > Python

当前栏目

HTMLParser

2023-02-18 15:28:51 时间

如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。

假设第一步已经完成了，第二步应该如何解析HTML呢？

HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。

好在Python提供了HTMLParser来非常方便地解析HTML，只需简单几行代码：

from html.parser import HTMLParser
from html.entities import name2codepoint

class MyHTMLParser(HTMLParser):

    def handle_starttag(self, tag, attrs):
        print('<%s>' % tag)

    def handle_endtag(self, tag):
        print('</%s>' % tag)

    def handle_startendtag(self, tag, attrs):
        print('<%s/>' % tag)

    def handle_data(self, data):
        print(data)

    def handle_comment(self, data):
        print('<!--', data, '-->')

    def handle_entityref(self, name):
        print('&%s;' % name)

    def handle_charref(self, name):
        print('&#%s;' % name)

parser = MyHTMLParser()
parser.feed('''<html>
<head></head>
<body>
<!-- test html parser -->
    <p>Some <a href=\"#\">html</a> HTML&nbsp;tutorial...<br>END</p>
</body></html>''')

feed()方法可以多次调用，也就是不一定一次把整个HTML字符串都塞进去，可以一部分一部分塞进去。

特殊字符有两种，一种是英文表示的 ，一种是数字表示的Ӓ，这两种字符都可以通过Parser解析出来。

小结

利用HTMLParser，可以把网页中的文本、图像等解析出来。

练习

找一个网页，例如https://www.python.org/events/python-events/，用浏览器查看源码并复制，然后尝试解析一下HTML，输出Python官网发布的会议时间、名称和地点。

参考源码

use_htmlparser.py

猜你喜欢

[composer] composer dump-autoload 的加载优化
[MySQL] innoDB引擎的主键与聚簇索引
[PHP] 解决hyperf出现404问题
[docker] win10 docker桌面版镜像源
[PHP] 检测文件是否有病毒的实现逻辑
[docker]解决：docker桌面版报错error during connect: This error may indicate that the docker daemon is not running
[项目] 企业邮箱读信接口的缓存改造过程
[GIT] git打标签tag和分支branch的区别
[PHP] 使用xdebug查看php的性能损耗
[PHP] laravel中的api路由前缀
[MySQL] B+树索引为什么比B树的好
[PHP] 服务容器绑定接口测试
[MySQL] 查看explain中的key_len判断究竟使用了哪个索引
[mysql] join查询没有走索引的原因
[MySQL] BLOB, TEXT, GEOMETRY or JSON column 'body' can't have a default value错误
[mysql] left join 和 join 和right join的区别
[HTTP] http中的502 , 504 , 499 500都是啥
[PHP] 理解依赖注入容器-自动注入
[PHP] GET参数加密签名保证安全防止篡改
[PHP] 理解依赖注入容器

zl程序教程

当前栏目

HTMLParser

小结

练习

参考源码

相关文章