您现在的位置是：首页 > 后端

当前栏目

关于Python中中文文本文件使用二进制方式读取后的解码UnicodeDecodeError问题

Python 中文二进制方式关于读取解码文本文件

2023-09-27 14:26:59 时间

最近老猿在进行文件操作的验证测试，发现对于中文文本文件如果使用二进制方式打开，返回的类型是bytes，如果要转换成可读的字符串信息需要进行解码。可是老猿使用decode()或decode(“UTF-8”)解码后报错：
Traceback (most recent call last):
File “<pyshell#24>”, line 3, in
print(“line.decode():”,line.decode())
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xb3 in position 0: invalid start byte
在网上查了一下，发现给出的解决方法复杂还不容易理解。老猿认为这就是个字符集编码的问题，但以前老猿没有学习过字符集编码的相关知识，于是在网上查了相关的资料，具体请见老猿转载的几篇文章：
1、《转：使用DOS命令chcp查看windows操作系统的默认编码以及编码和语言的对应关系》；
2、转：浅析windows下字符集和文件编码存储/utf8/gbk
3、《转1：Python字符编码详解》
4、《转2：Python字符编码详解》
5、《转：Python常见字符编码及其之间的转换》

通过以上几篇文章的学习，老猿确认了是由于操作系统默认字符集是’GBK’而不是’UTF-8’导致的，因此文件存储后的编码也是GBK，则解码时调用decode(‘GBK’)或decode(‘GB2312’)就可以解决。
案例：

>>> fp = open(r"c:\temp\test.txt","rb")
>>> for line in fp:
	print("line:",line)
	try:print("line.decode():",line.decode())
	except:print("line.decode() error")
	try:print("line.decode('UTF-8'):",line.decode())
	except:print("line.decode('UTF-8') error")
	print("line.decode('gbk'):",line.decode('GBK'))
	print("line.decode('gb2312'):",line.decode('GB2312'))

	
line: b'\xb3\xfc\xd6\xdd\xce\xf7\xbd\xa7\r\n'
line.decode() error
line.decode('UTF-8') error
line.decode('gbk'): 滁州西涧


line.decode('gb2312'): 滁州西涧


line: b'[\xcc\xc6] \xce\xa4\xd3\xa6\xce\xef\r\n'
line.decode() error
line.decode('UTF-8') error
line.decode('gbk'): [唐] 韦应物


line.decode('gb2312'): [唐] 韦应物


line: b'\xb6\xc0\xc1\xaf\xd3\xc4\xb2\xdd\xbd\xa7\xb1\xdf\xc9\xfa\xa3\xac\xc9\xcf\xd3\xd0\xbb\xc6\xf0\xbf\xc9\xee\xca\xf7\xc3\xf9\xa1\xa3\r\n'
line.decode() error
line.decode('UTF-8') error
line.decode('gbk'): 独怜幽草涧边生，上有黄鹂深树鸣。


line.decode('gb2312'): 独怜幽草涧边生，上有黄鹂深树鸣。


line: b'\xb4\xba\xb3\xb1\xb4\xf8\xd3\xea\xcd\xed\xc0\xb4\xbc\xb1\xa3\xac\xd2\xb0\xb6\xc9\xce\xde\xc8\xcb\xd6\xdb\xd7\xd4\xba\xe1\xa1\xa3'
line.decode() error
line.decode('UTF-8') error
line.decode('gbk'): 春潮带雨晚来急，野渡无人舟自横。
line.decode('gb2312'): 春潮带雨晚来急，野渡无人舟自横。
>>>

老猿Python，跟老猿学Python!
博客地址：https://blog.csdn.net/LaoYuanPython
请大家多多支持，点赞、评论和加关注！谢谢！

猜你喜欢

漫画：为什么C语言永不过时？
一个基于正交扩展的移动-移动衰落信道模拟器
JSON 格式介绍
ECharts 3 -- gauge表盘的配置项
iOS －封装自己的slider
[转] getBoundingClientRect判断元素是否可见
Spring StringUtils#cleanPath method 浅析
解决：npm中下载速度慢和（无法将“nrm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路径正确，然后再试一次）。
SwiftUI 问题解决大全之处理 Xcode 中的“Failed to prepare device for development”错误消息
Golang 环境配置建议（Atom）
How and Why Unsafe is Used in Java---reference
（翻译）OpenDocument and Open XML security (OpenOffice.org and MS Office 2007)
浅析SpringMVC请求参数注解@RequestParam/@RequestBody传递FormData的问题
java界面编程(9) ------ 列表框
prometheus-operator监控Kubernetes
串级PID为什么外环输出时内环的期望值
macOS Monterey 如何安装Sqlite加密库 sqlcipher 和pysqlcipher3
微信小程序中常见的typeof cb == “function” && cb(that.globalData.userInfo)

相关主题

Python 哈希表
Python中的元组
h5 Python_python做h5网站
python 批量修改文件名
python实例二

zl程序教程

当前栏目

关于Python中中文文本文件使用二进制方式读取后的解码UnicodeDecodeError问题

相关文章