HTMLParser笔记,,[Python]代码#-


[Python]代码

#-*- encoding: gb2312 -*-import HTMLParser,urllib2class MyParser(HTMLParser.HTMLParser):    def __init__(self):        HTMLParser.HTMLParser.__init__(self)                self.urls = []    def handle_starttag(self, tag, attrs):        # 这里重新定义了处理开始标签的函数        if tag == 'a':            # 判断标签<a>的属性            for name,value in attrs:                if name == 'href':                    print value                    self.urls.append(value)    def get_urls(self):        return self.urlsif __name__ == '__main__':#    a = '<html><head><title>test</title><body><a href="http://www.163.com">链接到163</a></body></html>'    responce = urllib2.urlopen('http://baidu.com/').read()#   page = responce.read()#    print page    my = MyParser()    # 传入要分析的数据,是html的。    my.feed(responce)    '''    url = my.get_urls()    for a in url:        print a    '''

评论关闭