Python基础——windows自动化篇（九）-正则表达式

文章由Byrx.net分享于2019-03-22 02:03:03评论（339）

Python基础——windows自动化篇（九）-正则表达式

正则表达式在某种意义上可以算是字符串操作中的最高级别了，并不是因为它的语法的复杂，而是它的灵活。理解这一点就需要了解正则表达式的本质，无论多么复杂的正则表达式，它的本质就是字符串，目的就是用来记录其他字符串的规律。看似有些抽象，但是其实很容易理解，大多数人在使用dos命令的时候，会使用到通配符，比如在某个目录列出所有的pdf文档，方法就是dir *.pdf——这里的*表示统配，也就是可以代表任何字符串，这个命令也就是列出来所有符合以下命名的文件：任意字符串+”.pdf”后缀；doc和excel文档中的一些替换规则和格式化规则也涉及到这种简单的正则统配。我们所说的正则，其实就是类似的东西，更为复杂的字符串匹配规则——除非你需要匹配的字符串规则很容易。在Linux平台上，正则表达式是必须的，很多命令都基于正则表达式，如果没有这套高效的字符串匹配逻辑，那么对于使用者是很悲惨的。

讨论Python正则模块之前，必须要把正则表达式本身讨论清楚——事实上深刻理解了正则表达式，python中的使用就容易多了，不过不要妄想一次就可以把正则表达式都理解了，这是不可能的，就算是天才也需要实际的操作才能真正的学会。我不否定世界上有很多天才，但是我始终建议学习正则表达式，最少要学习3遍。完成这部分学习，并不是期望成为正则高手，这并不是这部分学习的目的，而且高手不是看教材就能学习出来的。这部分学习后，希望能够“入门”。遇到问题知道以一种什么样的思路进行思考，需要帮助的时候知道如何去查询相关的资料，这就足够了。我自己每次用到正则也是随查随用，很少做相关的事情，好在正则的相关资料网上多的出奇，足够一个菜鸟成为正则高手了。下面开始进入正则表达式的介绍和讨论。

在python中，正则表达式的模块是re，我们的讨论过程会使用这个模块举例子进行测试，另外，一些在线的正则表达式测试也可以进行测试，比如js的正则表达式测试网站：http://regexpal.com/。

字符

这里的字符和字符串中的字符是一样的，大多数字符匹配它本身，除了一些元字符，我们可以简单的认为元字符，就是正则语法中的一些关键字，它们有特殊的含义，有的表示特殊的匹配，有的表示其他的语法规则。简单的字符匹配如下：

Re的基本使用很简单，指定正则表达式匹配字符串，编译，匹配。Re.match方法如果匹配到，则返回一个匹配对象，如果没有匹配到，则返回空。我们可以看到，正则表达式’abc’可以匹配到它本身。事实上除了元字符，其他字符都是匹配它本身的。

元字符

正则中的元字符包括很多，具体可以见链接：http://msdn.microsoft.com/zh-cn/library/ae5bf541(v=vs.80).aspx。

元字符中的特殊字符包括：.^$*+?{[]\|()

在正则的语法中，它们有其他的含义和作用——一些是单独使用的，一些是组合使用的。我们先来看其中最常用的一个——[]，它表示字符的集合。

字符集

包含在[]中的字符集合，有两个作用，一个是用来匹配范围，这里的范围是指，匹配到属于这个范围的任意一个字符；另一个，是包含某些元字符——大部分元字符在[]中会失去本身的特殊含义，成为普通的字符，除了^[]\这四个字符，因为他们是字符集语法。

其中，^放在[]的开头，表示取反，表示和[]中的字符集都不匹配，放在[]中间，就和其他元字符一样了，表示匹配它本身。简单的例子，[^abcd]表示匹配除abcd以外的任何字符。

在字符集中，逐一枚举是这样的方式当然是有解决方案的，可以用-来表示范围，比如[0-9]匹配0到9的数字，[a-zA-Z]匹配所有的字符。

\在正则中有两个作用，第一个是转义，第二个是特殊匹配。

转义字符

像上面讨论过的，一些元字符并不匹配他们本身，那么如何匹配这些元字符呢？在它们前面加上\进行转义就可以了。这和字符串中的路径是一样的，需要用\转义。所有在正则表达式中的带有特殊含义的字符，都需要\进行转义去匹配它们本身。当然，就像之前路径中转义的\一样，我们同样可以在字符串前加一个r来表示原始字符串，不然如果想要匹配\本身，需要’\\\\’这样麻烦的正则表达式，但是可以直接使用r’\’来表示。

特殊匹配

特殊匹配包括一些用\表示的，和一些其他特殊的字符。常用的有下面这些：

******************************************************************************

x|y

匹配 x 或 y（分支语句）。例如，'z|food' 匹配“z”或“food”。'(z|f)ood' 匹配“zood”或“food”

匹配一个字边界(开始或结束)，例如，“er\b”匹配“never”中的“er”，但不匹配“verb”中的“er”， “\ber\b”匹配”er”

非字边界匹配，和\b相反。“er\B”匹配“verb”中的“er”，但不匹配“never”中的“er”。

数字字符匹配。等效于 [0-9]

非数字字符匹配。等效于 [^0-9]

换行符匹配。等效于 \x0a 和 \cJ

匹配任何空白字符，包括空格、制表符、换页符等。与 [ \f\n\r\t\v] 等效

匹配任何非空白字符。与 [^ \f\n\r\t\v] 等效

制表符匹配。与 \x09 和 \cI 等效

匹配任何字类字符，包括下划线。与“[A-Za-z0-9_]”等效

与任何非单词字符匹配。与“[^A-Za-z0-9_]”等效

匹配出换行\n之外的任何字符，等价于[^\n]

在字符集之外，匹配字符串的开始*

在字符集之外，匹配字符串的结束*

*：其中，^和$用于完全匹配的情况，各自匹配开始和结束，如果整体的完全匹配可以使用^pattern$的格式，如完全匹配123，写成^123$。

******************************************************************************

重复

到此为止，正则表达式中的基本元素几乎都已经简单讨论过了，基本的语法元素中，还有一个重要的部分，就是重复。既然正则表达式是用来记录字符串规则的，那么重复的规则，在字符串中简直是比比皆是。比如电话号码或者QQ号码，就是数字的重复，单词就是字母的重复，还有更多重复的组合等等。正则表达式中，重复的语法包括下面几种：

重复零次或者多次，次数不限

重复一次或者更多次

？

重复0次或者1次

{n}

重复n次

{n,}

重复n次或者更多次

{n,m}

重复n到m次

当此字符紧随任何其他限定符（*、+、?、{n}、{n,}、{n,m}）之后时，匹配模式是“非贪心的”。“非贪心的”模式匹配搜索到的、尽可能短的字符串，而默认的“贪心的”模式匹配搜索到的、尽可能长的字符串。

最后一个需要解释一下，正则表达式在默认情况下，有一种贪婪原则，也就是尽可能的去匹配长的字符串。比如，在字符串“aaaa”中，“a+?”只匹配单个“a”，而“a+”匹配所有“a”，也就是”aaaa”。这种情况出现在重复中，在重复的标识符后加上一个?，就代表了非贪婪匹配，匹配到最短的字符串。可以简单的写代码如下：

Re模块处理基本正则

基本的正则表达式语法都已经讨论过了，灵活运用这些语法，可以完成大部分一般的匹配操作。下面用一些简单的例子来讨论re模块的使用，并熟悉上面已经讨论过的这些基本的正则语法。之后，会讨论一些正则表达式的高级操作。

和之前讨论过的思路一样，re模块进行字符串匹配，大体还是3个步骤：

用re.compile得到一个编译过的pattern object，支持两个参数，一个是正则表达式，是必须的，第二个是flag，默认为0，其他支持的flag包括：

Re.S DOTALL 表示.匹配任意字符，不包括\n

Re.I IGNORECASE 表示忽略大小写

Re.L LOCALES 表示让\w,\W,\b,\B和当前locale一致

Re.M MULTILINE 表示多行匹配模式，只影响^和$

Re.X VERBOSE 表示verbose模式，增加正则表达式的可读性

使用pattern object的各种方法进行对匹配字符串的操作；

如果pattern object的方法返回match object对象，可以从中得到匹配字符串信息；

Parren object 常用的方法包括match,search,findall，其中match是从字符串开始处进行匹配，seach是扫描整体字符串找到第一个匹配，findall用来搜索字符串中所有匹配的内容，并以元组返回。

Parren object 常用的正则方法包括match,search,sub和findall(或finditer)，其中match是从字符串开始处进行匹配，seach是扫描整体字符串找到第一个匹配，findall用来搜索字符串中所有匹配的内容，并以元组返回。注意正则方法只是对parrent object而言，还有一种叫做匹配方法，是对已经匹配到的对象而言，即对match object而言。

下面是这些常用的正则方法的示例：

Match(str,[pos,[endpos]]): 匹配方法，给定匹配区间，注意正则的贪心问题，示例如下：

Search(str,[pos,[endpos]]): 搜索方法，给定匹配区间内返回到第一个搜到的值位置，使用方法和match相当，但是并不是从第一位开始，这点和match不同，示例如下：

sub(repl, string[, count = 0]) --> newstring：用来查找和替换，用指定的字符串替换被匹配到的字符串，subn将新的字符串和被替换的数量以元组方式返回，如下：

findall(string[, pos[, endpos]]) --> list：查找方法，给定匹配区间内查找所有匹配的集合并返回。如下：

Finditer返回一个interator来遍历所有的match object：

Match object 常用的方法包括start,end,span,group，分别用来表示匹配区域的开始位，结束位，区间和匹配字符串；常用属性有pos,endpos,string和re，分别表示pattern object的开始位，结束位，被匹配的字符串和匹配对象，即match(str,[pos,[endpos]])中的pos,endpos,string和patter object实例本身，它们的示例如下：

常用方法：

常用属性：

正则表达式高级

分组

分组的出现最早是为了解决正则中的重复问题，单个字符的重复可以直接在字符后加上限定，多字符的重复就需要分组了；当然一个正则中可以出现多个分组，我们可以将它称之为子表达式。分组在实际应用中作用比较大，网络上一个比较常用的示例就是IP地址的匹配，一个最粗糙的就是(\d{1,3}\.){3}\d{1,3}，匹配四个三位数字，中间用.分开，这就是分组的最简单的应用。当然IP地址的正则并不是这么去匹配和计算的，由于正则表达式本身不能去进行数字的计算，所以IP地址的匹配稍微麻烦一些，不过这种常用的很容易查到，((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

Python中处理分组使用match对象中的group()方法，一个简单的示例如下，取出一个简易的存货信息中的匹配字段：

分组情况下，group()，start()，end()，span()都可以通过传入索引来得到各自组对应的值，也就是每个组对应的其实位置结束位置，都是相互独立的——也就意味着对于子表达式的嵌套来说，匹配的原理一致。比如：

我们通常使用分组的方法对字符串进行特定格式的取值，一般情况下，对于元素比较多，顺序不确定的集合，更适合的方式是字典而不是列表，那么group能不能通过传入键值而不是索引进行取值呢？这个当然是可以的。正则的分组中提供了组名的机制，不只是最终取值方便，对于正则表达式内部的引用作用更大。还是刚才的存货的例子，重新写一下：

索引方式：

示例中，用?P<ID>.*代替了.*，这样分组后的匹配就可以支持关键字的方式进行取值。事实上，正则中的这种方法本质是给组命名，对于复杂的正则可能需要不断重复之前已经匹配到的东西，组名的方式就很清晰和方便了。另外，?P的写法是python中的扩展，大写的P代表python，一般其他的正则中写法不同，标准的正则中没有这个字母。

这种扩展源于perl的正则表达式的扩展，事实上从perl5.0以后对正则的支持，re模块大部分都支持。正则的扩展一般来说同样是使用元字符来标识，perf中使用?来标识，因为?即非转义，又可以直接用在(后进行标识。Python中采取同样的方法，在?后加上大写的P进行标识，省去转义的麻烦。

无捕获组

和分组以及组名比起来，无捕获组很容易。它的匹配方式和效率和分组没有任何区别，甚至也可以重复子表达式，通常当我们对匹配组的内容不感兴趣的时候，需要用到无捕获组。既然不去捕获，那么它的意义何在？一般来说，无捕获组的意义不在于它自己本身，而在于对其他分组的影响——类似于一个占位的作用。当表达式改变或者分组改变，可以很简单的修改表达式进行分组的匹配，python中用?:标识。看一个简单的无捕获组的示例：

向后引用

前面几个例子虽然都是使用分组来对字符串进行取值，但是之前提到了分组的根本原因是为了处理字符串的重复。向后引用用于重复匹配和搜索到前面已经匹配到的分组内容，同样的，索引和组名的方式都支持，但是最好还是使用组名的方式，虽然写起来稍微多一些，但是很清楚，不容易出问题，尤其是在正则这种看起来比较复杂的逻辑中。下面是一个经典的示例，匹配两个重复的单词：

分别用索引和组名完成了上面的匹配，注意组名向后引用的格式：(?P=name)

零宽断言

零宽断言，从字面上理解，就是一种断言。正则中的断言同样是一种标识，其实之前的^$\b这些标识位置的也都是一种断言。零宽断言的目的是为了匹配字符串的位置，而不是字符串和文本本身，基本上正则中的断言都是匹配位置的。通俗的讲，就是这种断言同样是为了寻找某个位置，这个位置满足一定的条件，这就是零宽断言。零宽断言按照匹配方向和是否肯定分为四种情况：

向前界定：

顺序肯定匹配(?=exp)，表示被匹配的文本右边要匹配exp表达式，示例如下：

向前否定界定：

顺序否定匹配(?!)，表示后面不匹配的exp，示例如下：

向后界定：

逆序肯定匹配(?<=exp)，表示左面匹配exp表达式，注意所有反向界定的匹配文本必须定长！，示例如下：

向后否定界定：

逆序否定匹配(?<)，表示左边不匹配exp，示例如下：

平衡组和递归

正则表达式中，平衡组和递归属于稍微复杂一点的东西，不过好像Python并不提供支持，我了解到的.net framework是提供这种正则的支持，其他语言有些不支持，有些语法不同，python中暂时还没有找到。他们在匹配html这样复杂的文本时用到的比较多，一般来说也都可以通过和组的组合来解决。这个属于稍微高级一点的东西，这里暂时不讨论。

热门文章：

Python基础——windows自动化篇（九）-正则表达式

Python基础——windows自动化篇（九）-正则表达式

相关内容

最新python教程

python~HOT