BeautifulSoup中文乱码问题解决,beautifulsoup乱码,BeautifulSou


BeautifulSoup在解析utf-8编码的网页时,如果不指定fromEncoding或者将fromEncoding指定为utf-8会出现中文乱码的现象。

解决此问题的方法是将Beautifulsoup构造函数中的fromEncoding参数的值指定为:gb18030

import urllib2from BeautifulSoup import BeautifulSouppage = urllib2.urlopen('http://byrx.net/');soup = BeautifulSoup(page,fromEncoding="gb18030")print soup.originalEncodingprint soup.prettify()

评论关闭