Python删除html页面文字只留html标签用如何实现,python标签,由于想比较同一个网页中某
Python删除html页面文字只留html标签用如何实现,python标签,由于想比较同一个网页中某
由于想比较同一个网页中某个标签下的子节点的的相似度。
操作对象只是html标签,所以想先删除html中标签之外的文字,以排除干扰。
请问,有什么比较高效快捷的解决方法吗?
注:目前只想到使用正则来解决
HTMLParser 够用了
#!/usr/bin/env python# -*- coding: utf-8 -*-import HTMLParserdef get_tags(html, l=None): if l is None: l = [] class MyHTMLParser(HTMLParser.HTMLParser): def handle_starttag(self, tag, attrs): l.append(tag) def handle_endtag(self, tag): pass parser = MyHTMLParser() parser.feed(html) return l # 或者 return ' '.join(l) 直接比较字符串if __name__ == '__main__': html = """<div id="footer"> <div class="container"> <ul> <li><a>链接一</a></li> <li><a>链接二</a></li> </ul> <p>文字段落</p> <img src="usr/img.png"/> </div> </div>""" print get_tags(html) # 输出的是开始标签 ['div', 'div', 'ul', 'li', 'a', 'li', 'a', 'p', 'img']
http://snipplr.com/view/50835/stripremove-html-tags-django-utils/
# import the strip_tagsfrom django.utils.html import strip_tags# simple string with html inside.html = '<p>paragraph</p>'print html # will produce: <p>paragraph</p>stripped = strip_tags(html)print stripped # will produce: paragraph
HTMLParser 够用了
#!/usr/bin/env python# -*- coding: utf-8 -*-import HTMLParserdef get_tags(html, l=None): if l is None: l = [] class MyHTMLParser(HTMLParser.HTMLParser): def handle_starttag(self, tag, attrs): l.append(tag) def handle_endtag(self, tag): pass parser = MyHTMLParser() parser.feed(html) return l # 或者 return ' '.join(l) 直接比较字符串if __name__ == '__main__': html = """<div id="footer"> <div class="container"> <ul> <li><a>链接一</a></li> <li><a>链接二</a></li> </ul> <p>文字段落</p> <img src="usr/img.png"/> </div> </div>""" print get_tags(html) # 输出的是开始标签 ['div', 'div', 'ul', 'li', 'a', 'li', 'a', 'p', 'img']
编橙之家文章,
相关内容
- Python2.7.6输出流重定向无效何解,python2.7.6输出流,还正
- 关于python编码检测与chardet模块应用的一些小问题,py
- Linux执行python时间怎么优化高效,linux执行python,这是一
- 《flask web开发》这本书,数据库中多对多关系怎么用?
- logger相同数据输出两条没实现效果,python源码没找到问题
- 安装pywin32提示:python 3.6版本-32需要在注册表中没有找到
- python hibernate 启动报错hibernate.properties not found,,hibern
- django auth模块login方法没有pk属性是什么问题,djangoaut
- 新手对python-sdk demo.py环境变量问题,python-sdkdemo.py,官方
- 解Python练习题源码,求大神看看有什么问题没,python练
评论关闭