Python中获取网页状态码的两个方法,python网页


第一种是用urllib模块,下面是例示代码:

复制代码 代码如下:

import urllib
status=urllib.urlopen("http://www.bkjia.com").code
print status

第二章是用requests模块,下面是例示代码:

复制代码 代码如下:

import requests
code=requests.get("http://www.bkjia.com").status_code
print code


Python中怎获取一网页上的内容?我想通过python读取网页上的各个不同的单词与分别出现的次数

你好
首先,浏览器显示给用户的内容完全是根据html源码来的、所以,你想获取的一切浏览器显示的内容,都是在html文件中存在的内容
统计页面上的单词,必然是要读html源文件的
可以使用urllib2库,以及re库来进行匹配查找,代码如下:
import urllib2import reword = '你想查找的单词'urlfile = urllib2.urlopen('你要打开的网址内容,记住要带上协议前缀,比如http') #以文件的形式打开一个网页html = urlfile.read() #从网页文件中读htmlwordList = re.findall(re.compile(word), html) #正则findall 查找所有的单词print len(wordList) #个数re模块记不太清,没试验、试试看,不行再追问

 

python里,怎获取返回码非200的网页源码?

非200的不一定会有源码。你可以参看RFC2616的说明,比如302、301你就去再请求header中Location的url,5xx你就可以放弃,等等……
 

评论关闭