正则表达式之贪婪与非贪婪模式详解（概述）

作者：用户投稿来源：网络发布时间： 13/06/29

非贪婪模式的匹配过程。首先由第一个“"”取得控制权，匹配位置0位的“"”，匹配成功，控制权交给“.*?”。

“.*?”取得控制权后，由于“*?”是忽略优先量词，在可匹配可不匹配的情况下，优先尝试不匹配，由于“*”等价于“{0,}”，所以在忽略优先的情况下，可以不匹配任何内容。从位置1处尝试忽略匹配，也就是不匹配任何内容，将控制权交给正则表达式最后的“””。

“"”取得控制权后，从位置1处尝试匹配，由“"”匹配位置1处的“R”，匹配失败，向前查找可供回溯的状态，控制权交给“.*?”，由“.*?”吃进一个字符，匹配位置1处的“R”，再把控制权交给正则表达式最后的“"”。

“"”取得控制权后，从位置2处尝试匹配，由“"”匹配位置1处的“e”，匹配失败，向前查找可供回溯的状态，重复以上过程，直到由“.*?”匹配到“x”为止，再把控制权交给正则表达式最后的“"”。

“"”取得控制权后，从位置6处尝试匹配，由“"”匹配字符串最后的“"”，匹配成功。

此时整个正则表达式匹配成功，其中“.*?”匹配的内容为“Regex”，匹配过程中进行了五次回溯。

2.2.2 贪婪还是非贪婪——匹配效率的抉择
通过匹配原理的分析，可以看到，在匹配成功的情况下，贪婪模式进行了更少的回溯，而回溯的过程，需要进行控制权的交接，让出已匹配内容或匹配未匹配内容，并重新尝试匹配，在很大程度上降低匹配效率，所以贪婪模式与非贪婪模式相比，存在匹配效率上的优势。

但2.2.1中的例子，仅仅是一个简单的应用，读者看到这里时，是否会存在这样的疑问，贪婪模式就一定比非贪婪模式匹配效率高吗？答案是否定的。

举例：

需求：取得两个“"”中的子串，其中不能再包含“"”。

正则表达式一：".*"

正则表达式二：".*?"

情况一：当贪婪模式匹配到更多不需要的内容时，可能存在比非贪婪模式更多的回溯。比如源字符串为“The word "Regex" means regular expression.”。

情况二：贪婪模式无法满足需求。比如源字符串为“The phrase "regular expression" is called "Regex" for short.”。

对于情况一，正则表达式一采用的贪婪模式，“.*”会一直匹配到字符串结束位置，控制权交给最后的“””，匹配不成功后，再进行回溯，由于多匹配的内容“means regular expression.”远远超过需匹配内容本身，所以采用正则表达式一时，匹配效率会比使用正则表达式二的非贪婪模式低。

对于情况二，正则表达式一匹配到的是“"regular expression" is called "Regex"”，连需求都不满足，自然也谈不上什么匹配效率的高低了。

以上两种情况是普遍存在的，那么是不是为了满足需求，又兼顾效率，就只能使用非贪婪模式了呢？当然不是，根据实际情况，变更匹配优先量词修饰的子表达式，不但可以满足需求，还可以提高匹配效率。

源字符串："Regex"

给出正则表达式三："[^"]*"

看一下正则表达式三的匹配过程。
2-3

图2-3

首先由第一个“"”取得控制权，匹配位置0位的“"”，匹配成功，控制权交给“[^"]*”。

“[^"]*”取得控制权后，由于“*”是匹配优先量词，在可匹配可不匹配的情况下，优先尝试匹配。从位置1处的“R”开始尝试匹配，匹配成功，继续向右匹配，匹配位置2处的“e”，匹配成功，继续向右匹配，直到匹配到“x”，匹配成功，再匹配结尾的“””时，匹配失败，将控制权交给正则表达式最后的“"”。

“””取得控制权后，匹配字符串结尾处的“””，匹配成功。

此时整个正则表达式匹配成功，其中“[^"]*”匹配的内容为“Regex”，匹配过程中没有进行回溯。

将量词修饰的子表达式由范围较大的“.”，换成了排除型字符组“[^"]”，使用的仍是贪婪模式，很完美的解决了需求和效率问题。当然，由于这一匹配过程没有进行回溯，所以也不需要记录回溯状态，这样就可以使

上一页 1 2 3 4 5 6 7 8 下一页

上一篇资讯：正则表达式解二元方程式代码

下一篇资讯：正则基础之神奇的转义