HTMLParser笔记，,HTMLParser笔记

文章由Byrx.net分享于2019-03-23 08:03:35评论（261）

HTMLParser笔记，,HTMLParser笔记

HTMLParser笔记获取链接 href

#-*- encoding: gb2312 -*-import HTMLParser,urllib2class MyParser(HTMLParser.HTMLParser):    def __init__(self):        HTMLParser.HTMLParser.__init__(self)                self.urls = []    def handle_starttag(self, tag, attrs):        # 这里重新定义了处理开始标签的函数        if tag == 'a':            # 判断标签<a>的属性            for name,value in attrs:                if name == 'href':                    print value                    self.urls.append(value)    def get_urls(self):        return self.urlsif __name__ == '__main__':#    a = '<html><head><title>test</title><body><a href="http://www.163.com">链接到163</a></body></html>'    responce = urllib2.urlopen('http://baidu.com/').read()#   page = responce.read()#    print page    my = MyParser()    # 传入要分析的数据，是html的。    my.feed(responce)    '''    url = my.get_urls()    for a in url:        print a    '''#该片段来自于http://byrx.net

热门文章：

HTMLParser笔记，,HTMLParser笔记

HTMLParser笔记，,HTMLParser笔记

相关内容

最新python源码实例

python~HOT