网页编码gb2312和gbk的pyquery中文乱码问题，gb2312pyquery,生成的网页打卡乱码，但是

文章由Byrx.net分享于2019-03-23 07:03:38评论（64）

网页编码gb2312和gbk的pyquery中文乱码问题，gb2312pyquery,生成的网页打卡乱码，但是

生成的网页打卡乱码，但是url若换成www.baidu.com则正常，查看后发现贴吧编码是gbk,百度首页编码是gb2312。不知道是什么原因？

# -*- coding:utf-8 -*-from pyquery import PyQuery as pqimport codecsd = pq(url'http://tieba.baidu.com/f?kw=宋时行')sep = d('body').html()file = codecs.open('new.html', 'w', 'utf-8')file.write(sep)file.close()

第一，url里面汉字你使用urllib2.quote()转码下
d = pq(url'http://tieba.baidu.com/f?kw=' + urllib2.quote('宋时行'))
第二,load下来的页面要从gbk转到unicode码在转为utf-8
sep = d('body').html().decode('gbk').encode('utf-8')
你可以试试这，我用urllib2就是这样写的，没用过pyquery,所以具体不清楚

编橙之家文章，

热门文章：

网页编码gb2312和gbk的pyquery中文乱码问题，gb2312pyquery,生成的网页打卡乱码，但是

网页编码gb2312和gbk的pyquery中文乱码问题，gb2312pyquery,生成的网页打卡乱码，但是

相关内容

最新python问答

python~HOT