网页编码gb2312和gbk的pyquery中文乱码问题,gb2312pyquery,生成的网页打卡乱码,但是
网页编码gb2312和gbk的pyquery中文乱码问题,gb2312pyquery,生成的网页打卡乱码,但是
生成的网页打卡乱码,但是url若换成www.baidu.com则正常,查看后发现贴吧编码是gbk,百度首页编码是gb2312。不知道是什么原因?
# -*- coding:utf-8 -*-from pyquery import PyQuery as pqimport codecsd = pq(url'http://tieba.baidu.com/f?kw=宋时行')sep = d('body').html()file = codecs.open('new.html', 'w', 'utf-8')file.write(sep)file.close()
第一,url里面汉字你使用urllib2.quote()转码下
d = pq(url'http://tieba.baidu.com/f?kw=' + urllib2.quote('宋时行'))
第二,load下来的页面要从gbk转到unicode码在转为utf-8
sep = d('body').html().decode('gbk').encode('utf-8')
你可以试试这,我用urllib2就是这样写的,没用过pyquery,所以具体不清楚
编橙之家文章,
相关内容
- Python测试HTTP客户端程序实例怎么写,python客户端程序
- errorclass errorvalue是什么情况,mysqldb连接mysql时的报错信息
- 编译安装Python 2.7.6版本后,上下左右退格就变成乱码如何
- Python语言能获取到APP中的data吗?要怎么写这个源码,
- 有API可以获取facebook专页时间线的数据吗,facebook专页
- SQL里面一个表的转换问题,SQL转换问题,表结构如下:
- 求Python可以用的单元测试框架,python单元测试框架,Ja
- Python文件存储服务器IOError: [Errno 32] Broken pipe错误,,#
- Python计算斐波那契数列用lambda方法与def实现效率哪个高
- python正则匹配的方法,求高手帮我修改下源码,python源码
评论关闭