Python的XML SAX解析简明教程
2023-02-18 15:28:49 时间
在Python中使用SAX解析XML非常简洁,通常我们关心的事件是start element,end element和char data,准备好这3个函数,就可以解析xml了:
import logging
from xml.parsers.expat import ParserCreate
class DefaultSaxHandler(object):
def start_element(self, name, attrs):
logging.info('sax:start_element: %s, attrs: %s' % (name, str(attrs)))
def end_element(self, name):
logging.info('sax:end_element: %s' % name)
def char_data(self, text):
logging.info('sax:char_data: %s' % text)
xml = load_xml_data()
handler = DefaultSaxHandler()
parser = ParserCreate()
parser.returns_unicode = True
parser.StartElementHandler = handler.start_element
parser.EndElementHandler = handler.end_element
parser.CharacterDataHandler = handler.char_data
parser.Parse(xml)
当设置returns_unicode为True时,返回的所有element名称和char_data都是unicode,处理国际化更方便。
需要注意的是读取一大段字符串时CharacterDataHandler可能被多次调用,所以需要自己保存起来,在EndElementHandler里面再合并。
相关文章
- 痞子衡嵌入式:语音处理工具pzh-speech诞生记(1)- 环境搭建(Python2.7.14 + PyAudio0.2.11 + Matplotlib2.2.3 + SpeechRecognition3.8.1 + pyttsx3 2.7)
- 痞子衡嵌入式:极易上手的可视化wxPython GUI构建工具(wxFormBuilder)
- 痞子衡嵌入式:串口调试工具pzh-com诞生记(1)- 环境搭建(Python2.7.14 + pySerial3.4 + wxPython4.0.3)
- 0901-安装Python3.8
- 新Python项目:替换式密码
- Python格式化输出
- PHP+Python,轻量维护超轻松
- Python免杀过360
- Python开发Brup插件检测SSRF漏洞和URL跳转
- python写一个能变身电光耗子的贪吃蛇
- Python分布式爬虫框架Scrapy 打造搜索引擎(四) - 爬取博客网站
- 万能调试|Python Scrapy框架HTTP代理的配置与调试
- 【好书推荐】《Python黑魔法指南》-附高清PDF版
- C、C++、Java到Python,编程入门学习什么语言好?
- Python 安装
- Python 3.11正式版来了,比3.10快10-60%,官方:这或许是最好的版本
- 基于Python的OpenCV关于色彩空间与通道的操作
- 2023PyCharm激活,码上使用,最新可用,Python快速使用
- 独家 | 使用python马尔科夫链方法建模星巴克等待时长
- 解放双手,python实现自动刷抖音短视频