Python中获取网页状态码的两个方法，python网页

文章由Byrx.net分享于2019-03-22 05:03:18评论（526）

Python中获取网页状态码的两个方法，python网页

第一种是用urllib模块,下面是例示代码：

复制代码代码如下:

import urllib
status=urllib.urlopen("http://www.bkjia.com").code
print status

第二章是用requests模块,下面是例示代码：

复制代码代码如下:

import requests
code=requests.get("http://www.bkjia.com").status_code
print code

Python中怎获取一网页上的内容？我想通过python读取网页上的各个不同的单词与分别出现的次数

你好
首先，浏览器显示给用户的内容完全是根据html源码来的、所以，你想获取的一切浏览器显示的内容，都是在html文件中存在的内容
统计页面上的单词，必然是要读html源文件的
可以使用urllib2库，以及re库来进行匹配查找，代码如下：
import urllib2import reword = '你想查找的单词'urlfile = urllib2.urlopen('你要打开的网址内容，记住要带上协议前缀，比如http') #以文件的形式打开一个网页html = urlfile.read() #从网页文件中读htmlwordList = re.findall(re.compile(word), html) #正则findall 查找所有的单词print len(wordList) #个数re模块记不太清，没试验、试试看，不行再追问

python里，怎获取返回码非200的网页源码？

非200的不一定会有源码。你可以参看RFC2616的说明，比如302、301你就去再请求header中Location的url，5xx你就可以放弃,等等……

热门文章：

Python中获取网页状态码的两个方法，python网页