HTMLParser笔记,,[Python]代码#-
HTMLParser笔记,,[Python]代码#-
[Python]代码
#-*- encoding: gb2312 -*-import HTMLParser,urllib2class MyParser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) self.urls = [] def handle_starttag(self, tag, attrs): # 这里重新定义了处理开始标签的函数 if tag == 'a': # 判断标签<a>的属性 for name,value in attrs: if name == 'href': print value self.urls.append(value) def get_urls(self): return self.urlsif __name__ == '__main__':# a = '<html><head><title>test</title><body><a href="http://www.163.com">链接到163</a></body></html>' responce = urllib2.urlopen('http://baidu.com/').read()# page = responce.read()# print page my = MyParser() # 传入要分析的数据,是html的。 my.feed(responce) ''' url = my.get_urls() for a in url: print a '''
相关内容
- Learn Python By Practice — 文件读写,,import sysim
- Learn Python By Practice — dict,pythondict,def dictTest
- Learn Python By Practice — list,pythonpractice,import sysde
- Learn Python By Practice — string,pythonpractice,import sys#
- 定时关机神器,定时关机神,[Python]代码im
- 文本搜索 矩阵重建,文本矩阵重建,简述:一个含有如
- 一个简单的二叉树实现,简单二叉树实现,[Python]代码
- Python unicode码转utf8,pythonutf8,[Python]代码de
- 一个非常高效的提取内容关键词的python代码,提取关键
- python使用连分数计算常数e,python分数常数e,# Calculatin
评论关闭