python通过HTMLParser抓取网页上的全部链接,pythonhtmlparser,Python HTMLP
python通过HTMLParser抓取网页上的全部链接,pythonhtmlparser,Python HTMLP
Python HTMLParser使用示例代码:
import HTMLParser, urllibclass linkParser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) self.links = [] def handle_starttag(self, tag, attrs): if tag=='a': self.links.append(dict(attrs)['href'])htmlSource = urllib.urlopen("http://www.sharejs.com").read(200000)p = linkParser()p.feed(htmlSource)for link in p.links: print link
相关内容
- python压缩和读取.tar.bz2格式的压缩包,python.tar.bz2,#压缩
- webpy输出json例子代码,webpy输出json,webpy中可以方便的输
- python的反射:动态获得模块,类,python模块,python的反射
- python使用urllib2抓取网页时的错误处理,pythonurllib2,try
- python计算代码执行时间,python计算代码,import times
- python使用xmlproc验证xml格式是否符合DTD定义,xmlprocdtd,
- python线程池实现,python线程池,python原生包中没有
- python的SIGIO handler,sigiohandler,On Linux, us
- python写的一个骰子程序,python写骰子程序,import rando
- python中RGB和HSL的相互转换,pythonrgbhsl,def HSL_to_R
评论关闭