正则表达式环视、断言与预查:精准匹配字符串开头和结尾
本文深入探讨正则表达式中环视(lookaround)、断言和预查的应用,尤其关注正向否定预查和反向否定预查在判断字符串开头和结尾时的差异以及最佳位置选择。
文章以判断不以"baidu"开头和不以"com"结尾的字符串为例,分别使用正向否定预查^(?!baidu).*$
和反向否定预查^.*?(?<!com)$
。 这引发了一个关键问题:既然正向预查可置于匹配字符串之前,反向预查的必要性何在?
核心在于对正向预查(向前预查)和反向预查(向后预查)的理解。^(?!baidu).*$
匹配的是“其后不为'baidu'的开头(实际上是开头的空字符串)”,然后匹配任意字符直到结尾。而^(?<!baidu).*$
匹配的是“一个开头”,然后匹配“不在'baidu'后面的任意字符”直到结尾。两者含义截然不同。
^(?<!baidu).*$
总是成立,因为字符串开头前不可能是"baidu"。因此,该表达式无实际意义。要判断不以"baidu"开头,.*$
部分可省略,使用^(?!baidu)
并结合部分匹配函数(例如JavaScript的.test()
方法)进行判断。
以下代码示例更清晰地展现了正向预查和反向预查的差异:
/^(?!baidu)/.test('baidu.com'); // false /^(?!baidu)/.test('www.baidu.com'); // true /^(?<!baidu)/.test('baidu.com'); // true (始终为真) /^www.(?=baidu).com$/.test('www.baidu.com'); // false /^www.(?<=baidu).com$/.test('www.baidu.com'); // false /^www.(?=baidu)baidu.com$/.test('www.baidu.com'); // true /^www.(?<=baidu)baidu.com$/.test('www.baidu.com'); // false /^www.baidu(?=baidu).com$/.test('www.baidu.com'); // false /^www.baidu(?<=baidu).com$/.test('www.baidu.com'); // true
这些例子阐明了正向预查和反向预查在匹配字符串中的位置和作用,以及它们与匹配字符串本身的交互方式。 只有深入理解这些差异,才能有效运用环视、断言和预查构建复杂的正则表达式。