Python爬虫返回unicode字符串如何得到汉字呢,pythonunicode,我用scrapy写了一个


我用scrapy写了一个爬取网站的代码,但是返回的是unicode的字符串,怎样获得原来的中文呢??

可以参考这篇文章:scrapy中文编码问题

其实,如果你将爬下来的内容保存为.json格式的话,再用json解析工具解析一下就好了,当然我也是scrapy初学者,建议仅供参考。:)

首先:
第一个概念:unicode:这个是python的内建函数,位于unicode类。
unicode(string [, encoding[, errors]]) -> object,这个函数的作用是将string按照encoding的格式编码成为unicode对象。省略参数将用python默认的ASCII来解码
第二个概念:在python中,编码:unicode-->str;解码str-->unicode.既然是编码,那么就和密码领域一样,编码和解码自然涉及到编码/解码方案(对应加密或者解密算法),unicode相当于明文。在python中,编码函数是encode(),解码函数是decode()。
所以假设你要转换成gbk的话,gbkstring=unicodestring.encode("gbk") ,其他的类似。

编橙之家文章,

评论关闭