Python 基础学习 网络小爬虫


#
# 百度贴吧图片网络小爬虫
#


import re
import urllib
 
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html
 
def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = imgre.findall(html)
    x = 0
    l=len(imglist)
    print "总共有%d张图片"%(l)
    print "-------------------"
    for imgurl in imglist:
        print "第%d张图片" %(x+1)
        urllib.urlretrieve(imgurl,'E:\\Pythoncode\\picture\\%s.jpg' % x)
        x = x + 1       
    
html = getHtml("http://tieba.baidu.com/p/3093487131")
getImg(html)
总共有38张图片
-------------------
第1张图片
第2张图片
第3张图片
第4张图片
第5张图片
第6张图片
第7张图片
第8张图片
第9张图片
第10张图片
第11张图片
第12张图片
第13张图片
第14张图片
第15张图片
第16张图片
第17张图片
第18张图片
第19张图片
第20张图片
第21张图片
第22张图片
第23张图片
第24张图片
第25张图片
第26张图片
第27张图片
第28张图片
第29张图片
第30张图片
第31张图片
第32张图片
第33张图片
第34张图片
第35张图片
第36张图片
第37张图片
第38张图片


						

评论关闭