zl程序教程

您现在的位置是:首页 >  后端

当前栏目

Python爬虫:处理html实体编码

Python编码爬虫HTML 处理 实体
2023-09-14 09:07:13 时间

Python处理HTML实体编码

python2

import HTMLParser  

char = r"〹"  
http_parser = HTMLParser.HTMLParser();  
uChar = http_parser.unescape(char);  

python3

from html import unescape

s = u'position.php?&amp;start=10#a" id="next">下一页</a>'

print(s)

print(unescape(s))

"""
position.php?&amp;start=10#a" id="next">下一页</a>
position.php?&start=10#a" id="next">下一页</a> 
"""

参考: Python处理HTML实体编码