Python re正则可以匹配中文词组吗,pythonre中文词组,情景如下,网页中有一段:
Python re正则可以匹配中文词组吗,pythonre中文词组,情景如下,网页中有一段:
情景如下,网页中有一段:
<tr> <td class="whitetext">此书刊没有复本</td></tr><tr> <td bgcolor="#FFFFFF" class="whitetext"><font color="red"> 此书刊可能正在订购中或者处理中 </font></td></tr>
用 BeautifulSoup4 和 Requests 抓取一段网页内容,如果匹配到有“没有复本” 字样,就抛出异常。
如何实现用正则匹配特定的中文词组呢?
(PS 问:如何在 BeautifulSoup4 中搜索特定的文本内容?不限中文 ~ )
代码
#! /usr/bin/env python# -*- coding: utf-8 -*-content = """<tr> <td class="whitetext">此书刊没有复本</td></tr><tr> <td bgcolor="#FFFFFF" class="whitetext"><font color="red"> 此书刊可能正在订购中或者处理中 </font></td></tr"""from bs4 import BeautifulSoupimport retag_soup = BeautifulSoup(content)tag_content = tag_soup.get_text().encode("utf-8")print re.search(r"没有复本", tag_content)
get_text()从标签中获取所有文字内容,不过是unicode编码,将其用utf-8编码之后,就可以直接用正则表达式搜索。
编橙之家文章,
相关内容
- 请高手看下sql查询转换成sqlalchemy语句可行性大不大,
- Python微信回复消息unicode问题求助,pythonunicode,服务器搭
- 把Python3.3.5转成.exe文件如何实现,,RT,网上查了方法,
- python 解析网页不出来,python解析不出来,import urlli
- Django前后端分离操作,如何配置使用模版引擎方法,
- Python列表ZIP相邻元素代码的含义是什么,pythonzip,请问各
- Python分片赋值求详细讲解,,最近在看 http://
- 企业面试时遇到python括号匹配笔面问题求解,面试时
- 请教ACK扫描TCP端口RST报文TTL返回值的问题,ackrst,书上说
- Linux控制台终端进行自动处理Web认证方法,linuxweb,Debi
评论关闭