HTMLParser笔记，,[Python]代码#-

文章由Byrx.net分享于2019-03-23 08:03:33评论（339）

HTMLParser笔记，,[Python]代码#-

[Python]代码

#-*- encoding: gb2312 -*-import HTMLParser,urllib2class MyParser(HTMLParser.HTMLParser):    def __init__(self):        HTMLParser.HTMLParser.__init__(self)                self.urls = []    def handle_starttag(self, tag, attrs):        # 这里重新定义了处理开始标签的函数        if tag == 'a':            # 判断标签&lt;a&gt;的属性            for name,value in attrs:                if name == 'href':                    print value                    self.urls.append(value)    def get_urls(self):        return self.urlsif __name__ == '__main__':#    a = '&lt;html&gt;&lt;head&gt;&lt;title&gt;test&lt;/title&gt;&lt;body&gt;&lt;a href="http://www.163.com"&gt;链接到163&lt;/a&gt;&lt;/body&gt;&lt;/html&gt;'    responce = urllib2.urlopen('http://baidu.com/').read()#   page = responce.read()#    print page    my = MyParser()    # 传入要分析的数据，是html的。    my.feed(responce)    '''    url = my.get_urls()    for a in url:        print a    '''

热门文章：

HTMLParser笔记，,[Python]代码#-

HTMLParser笔记，,[Python]代码#-

相关内容

最新python源码实例

python~HOT