Python使用urllib2模块抓取HTML页面资源的实例分享,pythonurllib2
Python使用urllib2模块抓取HTML页面资源的实例分享,pythonurllib2
先把要抓取的网络地址列在单独的list文件中
http://www.bkjia.com/article/83440.html http://www.bkjia.com/article/83437.html http://www.bkjia.com/article/83430.html http://www.bkjia.com/article/83449.html
然后我们来看程序操作,代码如下:
#!/usr/bin/python import os import sys import urllib2 import re def Cdown_data(fileurl, fpath, dpath): if not os.path.exists(dpath): os.makedirs(dpath) try: getfile = urllib2.urlopen(fileurl) data = getfile.read() f = open(fpath, 'w') f.write(data) f.close() except: print with open('u1.list') as lines: for line in lines: URI = line.strip() if '?' and '%' in URI: continue elif URI.count('/') == 2: continue elif URI.count('/') > 2: #print URI,URI.count('/') try: dirpath = URI.rpartition('/')[0].split('//')[1] #filepath = URI.split('//')[1].split('/')[1] filepath = URI.split('//')[1] if filepath: print URI,filepath,dirpath Cdown_data(URI, filepath, dirpath) except: print URI,'error'原文网址为:http://www.diyoms.com/python/1806.html
相关内容
- 解析Mac OS下部署Pyhton的Django框架项目的过程,pyhtondja
- Python中函数参数设置及使用的学习笔记,python学习笔记
- Python中使用插入排序算法的简单分析与代码示例,pyt
- 浅谈插入排序算法在Python程序中的实现及简单改进,浅
- 图文讲解选择排序算法的原理及在Python中的实现,
- Python手机号码归属地查询代码,手机号码归属地查询
- Python编程中归并排序算法的实现步骤详解,python归并
- 使用Python判断质数(素数)的简单方法讲解,python质数
- Python环境下搭建属于自己的pip源的教程,pythonpip
- Python使用Paramiko模块编写脚本进行远程服务器操作,p
评论关闭