python笔记,,字符编码与encod


字符编码与encode、decode的问题:

用8个开关表示世界万物

ASCII : American Standard Code for Information Interchange,美国信息互换标准代码,只用了前7位,127个状态

GB2312:是对ASCII的中文扩展(前127不变,大于127的+后边另一个大于127的表示中文)两个字节表示一个汉字

GBK:包括了GB2312 的所有内容,增加了近20000个新的汉字(包括繁体字)和符号

GB18030:加了几千个新的少数民族的字,GBK的扩展

以上的汉字编码标准叫做“DBCS“(Double Byte Character Set 双字节字符集)

Universal Multiple-Octet Coded Character Set”,简称 UCS, 俗称 “unicode“。unicode中“字节”表示8位的物理存储单元,“字符”表示文化符号,一个汉字是一个字符,占两个字节;

byte(字节流)——>str:decode()方法;读取网页上的信息a=urllib.request.urlopen(url);a是一个“<class ‘http.client.HTTPResponse‘>”,a.read()读取网页上的内容,读取的内容是bytes字节流

python笔记

评论关闭