HTMLParser笔记,,HTMLParser笔记
HTMLParser笔记,,HTMLParser笔记
HTMLParser笔记获取 链接 href
#-*- encoding: gb2312 -*-import HTMLParser,urllib2class MyParser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) self.urls = [] def handle_starttag(self, tag, attrs): # 这里重新定义了处理开始标签的函数 if tag == 'a': # 判断标签<a>的属性 for name,value in attrs: if name == 'href': print value self.urls.append(value) def get_urls(self): return self.urlsif __name__ == '__main__':# a = '<html><head><title>test</title><body><a href="http://www.163.com">链接到163</a></body></html>' responce = urllib2.urlopen('http://baidu.com/').read()# page = responce.read()# print page my = MyParser() # 传入要分析的数据,是html的。 my.feed(responce) ''' url = my.get_urls() for a in url: print a '''#该片段来自于http://byrx.net
相关内容
- Python Generators 用法,pythongenerators,def fact():
- python生成不重复的随机数代码,python随机数代码,impor
- 比较一个文件夹与另一同名文件夹多出哪些文件,并复制
- 比系统自带的更加友好的makedir函数,自带makedir函数,
- Python 读取mp3 ID3信息,python读取mp3id3,from mutagen
- 批量转换Linux文件权限,批量转换linux权限,使用窗口管
- python使用自定义的user-agent抓取网页,pythonuser-agent,imp
- python根据ip地址反向查找主机名称,pythonip查找主机,i
- python获取当前时间的前一天,前一周,前一个月。,
- 只需按一下,py2exe打包生成器,py2exe打包,易中天在先秦
评论关闭