Python中获取网页状态码的两个方法,python网页
Python中获取网页状态码的两个方法,python网页
第一种是用urllib模块,下面是例示代码:
复制代码 代码如下:
import urllib
status=urllib.urlopen("http://www.bkjia.com").code
print status
第二章是用requests模块,下面是例示代码:
复制代码 代码如下:
import requests
code=requests.get("http://www.bkjia.com").status_code
print code
你好
首先,浏览器显示给用户的内容完全是根据html源码来的、所以,你想获取的一切浏览器显示的内容,都是在html文件中存在的内容
统计页面上的单词,必然是要读html源文件的
可以使用urllib2库,以及re库来进行匹配查找,代码如下:
import urllib2import reword = '你想查找的单词'urlfile = urllib2.urlopen('你要打开的网址内容,记住要带上协议前缀,比如http') #以文件的形式打开一个网页html = urlfile.read() #从网页文件中读htmlwordList = re.findall(re.compile(word), html) #正则findall 查找所有的单词print len(wordList) #个数re模块记不太清,没试验、试试看,不行再追问
非200的不一定会有源码。你可以参看RFC2616的说明,比如302、301你就去再请求header中Location的url,5xx你就可以放弃,等等……
评论关闭