python基础:字符编码问题三个不可见的字符(0xEF 0xBB 0xBF,即BOM),0xef0xbb,一、用utf-8格式
python基础:字符编码问题三个不可见的字符(0xEF 0xBB 0xBF,即BOM),0xef0xbb,一、用utf-8格式
一、用utf-8格式保存的txt文件等,如何去掉BOM头
Windows系统的txt文件在使用utf-8编码保存时会默认在文件开头插入三个不可见的字符(0xEF 0xBB 0xBF)称为BOM头,这个BOM头在python的codecs库中已经定义为常量(codecs.BOM_UTF8)
方法一:utf8temp.txt保存时选择utf-8保存
1 import codecs2 data=open("utf8temp.txt",‘r‘,encoding=‘utf-8‘).read()3 data=data.encode(encoding=‘utf-8‘)4 print(data)5 #print("中文".encode(encoding=‘utf-8‘))6 print(len(data))7 if data[:3]==codecs.BOM_UTF8:8 data=data[3:]9 print(data.decode(encoding=‘utf-8‘))
输出如下:
b‘\xef\xbb\xbf\xe4\xb8\xad\xe6\x96\x87‘
9
中文
方法二:
1 with open("./temp.txt","r",encoding=‘utf-8‘) as f:2 flag=13 for line in f:4 if flag==1:5 line=line[1:]#去掉txt格式为utf-8会在文件第一行开头插入6 # 三个不可见的字符(0xEF 0xBB 0xBF)--(‘.’) 7 flag=08 print(line)
方法三:直接用第三方软件去掉BOM头,用notepad++打开txt文件,选择编码...without BOM,点击保存
python基础:字符编码问题三个不可见的字符(0xEF 0xBB 0xBF,即BOM)
相关内容
- Python爬取中国天气网天气,python爬中国天气,Python爬取中
- 【selenium+Python unittest】之发送邮箱时报错:smtplib.SMT
- Python安装cx_Oracle模块遇到的问题(32bit),pythoncx_oracle,环
- Python创建dict的几种方法,pythondict,声明:转自CSDN
- python进阶之内置函数和语法糖触发魔法方法,python进阶
- python openpyxl安装,pythonopenpyxl,windows下:1
- windows下python自带的pip安装速度过慢解决方案,pythonpi
- python对离散数据进行编码,python离散编码,机器学习中会
- Python——rrdtool模块的安装,pythonrrdtool模块,安装rrdtoo
- win10安装最新的python3解释器,win10python3解释器,第1步,
评论关闭