Python 捉虫unicode及utf-8转中文问题求解,pythonunicode,我爬的网页源码顶端写的是
Python 捉虫unicode及utf-8转中文问题求解,pythonunicode,我爬的网页源码顶端写的是
我爬的网页源码顶端写的是 <meta charset="utf-8">
我在浏览器打开源码看到我想要的信息也是中文,
不过在urllib2.urlopen(url).read()输出来的却是类似于
陈颖
这种unicode编码
然后我使用 .encode('utf-8')也没有效果。。
请问该怎么转成中文?
(我的python程序是coding:utf-8)
&#开头都是HTTP转义的,可以用HTTPParser解码啊
import HTMLParser h = HTMLParser.HTMLParser() print h.unescape("陈颖").encode("utf-8") 陈颖
那可以试试这样:
>>> h = HTMLParser.HTMLParser()>>> import HTMLParser>>> h = HTMLParser.HTMLParser()>>> print h.unescape('陈颖')陈颖
编橙之家文章,
相关内容
- 求助关于python装饰器返回值语法问题,python返回值,为什
- Python数据库语句查询生成与占位符使用技巧的不解之处
- Java程序调用python脚本,脚本日志如何输入到日志文件中
- Python正则表达生成器问题,python表达生成器,为什么/s
- Jinja2可以把None值显示为空字符串吗?,jinja2none,如果在
- Python 修改裁剪图片尺寸形状用什么方法,,如题,我修
- Python django + gevent应用是否要保证C++代码线程安全问题,
- python类成员函数参数类型的问题,python成员函数参数
- Python字符串切片问题求助,,关于Python的字符串
- python类对象 赋值后的分别变化,及删除后为什么还有,
评论关闭