学习、工作中的经验,仅做参考,欢迎讨论

读取TXT

1、Python导入TXT中的中文,报错【‘gbk’ codec can’t decode byte 0xa3 in position 29: illegal multibyte sequence】
解决:
在语句open(self.disease_path) 中,增加encoding=‘UTF-8’,如下:
open(self.disease_path,encoding=‘utf-8’)
原因:
Unicode的解码(Decode)出现错误(Error)了,以gbk编码的方式去解码(该字符串变成Unicode),但是此处通过gbk的方式,却无法解码(can’t decode )。“illegal multibyte sequence”意思是非法的多字节序列,即没法(解码)了。
此种错误,可能是要处理的字符串本身不是gbk编码,但是却以gbk编码去解码 。比如,字符串本身是utf-8的,但是却用gbk去解码utf-8的字符串,所以结果不用说,则必然出错。
相似问题:
【UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xbc in position 2: invalid start byte】

参考:
Python中读取txt文本出现“ ‘gbk’ codec can’t decode byte 0xbf in position 2: illegal multibyte sequence”的解决办法

本文地址:https://blog.csdn.net/m0_38064529/article/details/110439017