Python html标签剔除功能,pythonhtml标签剔除,例如【11月25日 AF
Python html标签剔除功能,pythonhtml标签剔除,例如【11月25日 AF
例如
【11月25日 AFP】バラク・オバマ(<a href=\"http://www.afpbb.com/search?fulltext=Barack%20Obama&category%5B%5D=AFPBB>%E8%A8%98%E4%BA%8B&category%5B%5D=%E3%83%AF%E3%83%BC%E3%83%AB%E3%83%89%E3%82%AB%E3%83%83%E3%83%97&category%5B%5D=%E4%BA%94%E8%BC%AA\">Barack Obama</a>)米大統領は24日
期待抽取结果是:AFP】バラク・オバマ(Barack Obama)米大統領は24日
_EXTRA_HTML_TAGS_RE = re.compile(r'<(\/)?(a|b).*?>', re.IGNORECASE)text = = _EXTRA_HTML_TAGS_RE.sub('', text)
实际结果为:AFP】バラク・オバマ(%E8%A8%98%E4%BA%8B&category%5B%5D=%E3%83%AF%E3%83%BC%E3%83%AB%E3%83%89%E3%82%AB%E3%83%83%E3%83%97&category%5B%5D=%E4%BA%94%E8%BC%AA">Barack Obama)米大統
链接里的>影响了正则匹配,如何写这个正则才能达到预期输出结果,同时,又满足之前的功能
preg = re.compile(r'<(.+?) .*>(.+?)<\/\1>', re.IGNORECASE)preg.sub(r'\2', text)
不过推荐还是用专门的HTML解析工具去做这件事,随便搜到一个就顺手推荐一下叻:http://old.zope.org/Members/chrisw/StripOGram/readme/
编橙之家文章,
相关内容
- 求Python搭建局域网报表系统思路,python搭建,现在在做报
- 在Python循环中随机产生变量名操作怎么实现,python变量
- 怎么确保在网页中插入含有html标签内容,页面还能正常
- Python里面有Java中那种 @NotNull 吗?,python@notnull,2017/2/6描
- Python model列相等查找django需要怎么处理,pythondjango,数据
- 请问Djang设置ID字段自增项初始化值应该怎么设置,dj
- Python应用部署到SAE上报错,无法找到flask.ext.admin是何原
- python指纹机认证有这方面相关库吗?,python指纹,指纹机
- bottlepy用mod_wsgi权限错误如何解决,bottlepymod_wsgi,Traceb
- python如何将无限分类结构的数据,转换成json格式数据。
评论关闭