正则表达式必知必会 - 反向引用

这篇具有很好参考价值的文章主要介绍了正则表达式必知必会 - 反向引用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、理解反向引用

二、反向引用匹配

三、替换操作

四、大小写转换


一、理解反向引用

        要想理解为什么需要反向引用,最好的方法是看一个例子。HTML 程序员使用标题标签 <h1> 到 <h6>,以及配对的结束标签来定义和排版 Web 页面里的标题文字。假设现在需要把某个 Web 页面里的所有标题文字全都查找出来,不管是几级标题。

mysql> set @s:='<body>
    '> <h1>Welcome to my Homepage</h1>
    '> Content is divided into two sections:<br/>
    '> <h2>SQL</h2>
    '> Information about SQL.
    '> <h2>RegEx</h2>
    '> Information about Regular Expressions.
    '> </body>';
Query OK, 0 rows affected (0.00 sec)

mysql> set @r:='<[hH][1-6]>.*?</[hH][1-6]>';
Query OK, 0 rows affected (0.00 sec)

mysql> select regexp_count(@s, @r, '') c, regexp_extract(@s, @r, '') s, regexp_extract_index(@s, @r, 0, '') i;
+------+-------------------------------------------------------------+----------+
| c    | s                                                           | i        |
+------+-------------------------------------------------------------+----------+
|    3 | <h1>Welcome to my Homepage</h1>,<h2>SQL</h2>,<h2>RegEx</h2> | 8,83,119 |
+------+-------------------------------------------------------------+----------+
1 row in set (0.00 sec)

        <[hH][1-6]> 匹配任意级别标题的开始标签,</[hH][1-6]> 匹配任意级别标题的结束标签。这里使用的是 .*? 懒惰型而不是 .* 贪婪型。所以模式 <[hH][1-6]>.*</[hH][1-6]> 可能会从第 2 行的起始 <h1> 标签开始,一直匹配到第 6 行的结束 </h2> 标签。使用懒惰型量词 .*? 可以解决这个问题。

        之所以说“可能”(could)而不是“就会”(would),是因为在这个特定的例子里,即便是使用了贪婪型量词也不一定会有问题。元字符 . 通常无法匹配换行符,而上例中的每个标题都各自占据一行。但在这里使用懒惰型元字符没有任何坏处,事前小心总比事后后悔好。现在没问题了吗?未必。看看下面这个例子。

mysql> set @s:='<body>
    '> <h1>Welcome to my Homepage</h1>
    '> Content is divided into two sections:<br/>
    '> <h2>SQL</h2>
    '> Information about SQL.
    '> <h2>RegEx</h2>
    '> Information about Regular Expressions.
    '> <h2>This is not valid HTML</h3>
    '> </body>';
Query OK, 0 rows affected (0.00 sec)

mysql> select regexp_count(@s, @r, '') c, regexp_extract(@s, @r, '') s, regexp_extract_index(@s, @r, 0, '') i;
+------+---------------------------------------------------------------------------------------------+--------------+
| c    | s                                                                                           | i            |
+------+---------------------------------------------------------------------------------------------+--------------+
|    4 | <h1>Welcome to my Homepage</h1>,<h2>SQL</h2>,<h2>RegEx</h2>,<h2>This is not valid HTML</h3> | 8,83,119,173 |
+------+---------------------------------------------------------------------------------------------+--------------+
1 row in set (0.00 sec)

        有一处标题的标签是以 <h2> 开头、以 </h3> 结束的,这显然是一个无效的标题,但也能和使用的模式匹配上。问题在于匹配的第二部分(用来匹配结束标签的那部分)对匹配的第一部分(用来匹配开始标签的那部分)一无所知。这正是反向引用大显身手的地方了。

二、反向引用匹配

        先来看一个比较简单的例子,这个问题如果不使用反向引用,根本无法解决。假设你有一段文本,想把这段文本里所有连续重复出现的单词找出来。显然,在搜索某个单词的第二次出现时,这个单词必须是已知的。反向引用允许正则表达式模式引用之前匹配的结果,具体到这个例子,就是前面匹配到的单词。理解反向引用的最好方法就是看看它的实际应用,下面这段文本中包含 3 组重复的单词。

mysql> set @s:='This is a block of of text,
    '> several words here are are
    '> repeated, and and they
    '> should not be.';
Query OK, 0 rows affected (0.00 sec)

mysql> set @r:='[ ]+(\\w+)[ ]+\\1';
Query OK, 0 rows affected (0.00 sec)

mysql> select regexp_count(@s, @r, '') c, regexp_extract(@s, @r, '') s, regexp_extract_index(@s, @r, 0, '') i;
+------+--------------------------+----------+
| c    | s                        | i        |
+------+--------------------------+----------+
|    3 |  of of, are are, and and | 16,47,65 |
+------+--------------------------+----------+
1 row in set (0.00 sec)

        该模式看起来奏效了。[ ]+ 匹配一个或多个空格,\w+ 匹配一个或多个字母数字字符,[ ]+ 匹配结尾的空格。注意,\w+ 是出现在括号里的,所以它是一个子表达式。该子表达式并不是用来进行重复匹配的,它只是对模式分组,将其标识出来以备后用。模式最后一部分是 \1,这是对前面那个子表达式的反向引用,\1 匹配的内容与第一个分组匹配的内容一样。因此,如果 (\w+) 匹配的是单词 of,那么 \1 也匹配单词 of;如果 (\w+) 匹配的是单词 and,那么 \1 也匹配单词 and。

        术语“反向引用”指的是这些实体引用的是先前的子表达式。\1 它匹配模式中所使用的第一个子表达式,\2 匹配第二个子表达式、\3 匹配第三个,以此类推。所以在上面那个例子中,[ ]+(\w+)[ ]+\1 匹配连续两次重复出现的单词。可以把反向引用想象成变量。

        看过反向引用的用法之后,再回到 HTML 标题的例子。利用反向引用,可以构造一个模式去匹配任何一级标题的开始标签以及相应的结束标签,忽略任何不配对的标签。

mysql> set @s:='<body>
    '> <h1>Welcome to my Homepage</h1>
    '> Content is divided into two sections:<br/>
    '> <h2>SQL</h2>
    '> Information about SQL.
    '> <h2>RegEx</h2>
    '> Information about Regular Expressions.
    '> <h2>This is not valid HTML</h3>
    '> </body>';
Query OK, 0 rows affected (0.00 sec)

mysql> set @r:='<[hH]([1-6])>.*?</[hH]\\1>';
Query OK, 0 rows affected (0.00 sec)

mysql> select regexp_count(@s, @r, '') c, regexp_extract(@s, @r, '') s, regexp_extract_index(@s, @r, 0, '') i;
+------+-------------------------------------------------------------+----------+
| c    | s                                                           | i        |
+------+-------------------------------------------------------------+----------+
|    3 | <h1>Welcome to my Homepage</h1>,<h2>SQL</h2>,<h2>RegEx</h2> | 8,83,119 |
+------+-------------------------------------------------------------+----------+
1 row in set (0.01 sec)

        又找到了 3 个匹配:1 个一级标题 <h1>...</h1> 和 2 个二级标题 <h2>...</h2>。<[hH]([1-6])> 匹配任意级别标题的开始标签,这次把 [1-6] 放进了 () 里,使它成为了一个子表达式。这样就可以在用来匹配标题结束标签的 </[hH]\1> 里用 \1 来引用这个子表达式了。子表达式 ([1-6]) 匹配数字 1~6,所以 \1 也只匹配与之相同的数字。<h2>This is not valid HTML</h3> 因而就不会被匹配到了。

        反向引用只能用来引用括号里的子表达式。反向引用匹配通常从 1 开始计数(\1、\2等)。在许多实现里,第 0 个匹配 \0 可以用来代表整个正则表达式。

        正如看到的那样,子表达式是按照其相对位置来引用的:\1 对应着第一个子表达式,\5 对应着第五个子表达式,等等。虽然受到普遍的支持,但这种语法存在着一个严重的不足:移动或编辑子表达式(子表达式的位置会因此改变)可能会使模式失效,删除或添加子表达式的后果甚至会更严重。为了弥补这一不足,一些比较新的正则表达式实现还支持“命名捕获”(named capture):给某个子表达式起一个唯一的名称,随后用该名称(而不是相对位置)来引用这个子表达式。

mysql> set @r:='<[hH](?<n>[1-6])>.*?</[hH]\\k<n>>';
Query OK, 0 rows affected (0.00 sec)

mysql> select regexp_count(@s, @r, '') c, regexp_extract(@s, @r, '') s, regexp_extract_index(@s, @r, 0, '') i;
+------+-------------------------------------------------------------+----------+
| c    | s                                                           | i        |
+------+-------------------------------------------------------------+----------+
|    3 | <h1>Welcome to my Homepage</h1>,<h2>SQL</h2>,<h2>RegEx</h2> | 8,83,119 |
+------+-------------------------------------------------------------+----------+
1 row in set (0.00 sec)

        用 (?<n>[1-6]) 对 [1-6] 的分组命名为 n ,然后可以用 \k<n> 再次使用该分组,MySQL 只支持 \k<分组名> 这一种重用捕获分组的语法。在一个正则表达式中不能使用 ${分组名} 进行引用。

三、替换操作

        搜索,也就是在一段文本里查找特定的内容,可能是正则表达式最常干的事,但并不是它的全部功能。正则表达式还可以用来完成各种强大的替换操作。简单的文本替换操作用不着正则表达式。比如说,把所有的CA替换成California,或把所有的MI替换成Michigan,用正则表达式来完成就未免大材小用了,事实上用普通的字符串处理功能反而会更容易(速度也更快)。当用到反向引用时,正则表达式的替换操作才会变得让人印象深刻。

        假设想把文本里的电子邮件地址全都转换为可点击的链接。在 HTML 文档里,需要使用 <a href="mailto:user@address.com">user@address.com</a> 这样的语法来创建一个可点击的电子邮件地址。使用反向引用能很容易地把一个电子邮件地址转换为这种可点击的地址格式。

mysql> set @s:='Hello, ben@forta.com is my email address.';
Query OK, 0 rows affected (0.00 sec)

mysql> set @r:='(\\w+[\\w\\.]*@[\\w\\.]+\\.\\w+)';
Query OK, 0 rows affected (0.00 sec)

mysql> select regexp_replace(@s, @r, '<a href="mailto:$1">$1</a>') c;
+------------------------------------------------------------------------------+
| c                                                                            |
+------------------------------------------------------------------------------+
| Hello, <a href="mailto:ben@forta.com">ben@forta.com</a> is my email address. |
+------------------------------------------------------------------------------+
1 row in set (0.00 sec)

        替换操作需要用到两个正则表达式:一个用来指定搜索模式,另一个用来指定替换模式。反向引用可以跨模式使用,在第一个模式里匹配的子表达式可以用在第二个模式里。这里使用的模式 (\w+[\w\.]*@[\w\.]+\.\w+) 写成了一个子表达式。这样一来,被匹配到的文本就可以用于替换模式了。<a href="mailto:$1">$1</a> 使用了两次已匹配的子表达式:一次是在 href 属性里用于指定mailto,另一次是作为可点击文本。

        正如上面这个例子里看到的那样,同一个子表达式可以被多次引用,只需在用到的地方写出其反向引用形式即可。再来看一个例子。在一个保存用户信息的数据库里,电话号码的保存格式为313-555-1234。现在需要把电话号码的格式重新调整为(313) 555-1234。

mysql> set @s='313-555-1234
    '> 248-555-9999
    '> 810-555-9000';
Query OK, 0 rows affected (0.00 sec)

mysql> set @r:='(\\d{3})(-)(\\d{3})(-)(\\d{4})';
Query OK, 0 rows affected (0.00 sec)

mysql> select regexp_replace(@s, @r, '($1) $3-$5') c;
+----------------------------------------------+
| c                                            |
+----------------------------------------------+
| (313) 555-1234
(248) 555-9999
(810) 555-9000 |
+----------------------------------------------+
1 row in set (0.00 sec)

        (\d{3})(-)(\d{3})(-)(\d{4}) 用来匹配一个电话号码,它被划分为彼此独立的 5 个子表达式:第一个子表达式 (\d{3}) 匹配前 3 位数字,第二个子表达式 (-) 匹配 - 字符,等等。最终的结果是一个电话号码被划分成了 5 个部分,每个部分对应着一个子表达式:区号、一个连字符、电话号码的前 3 位数字、又一个连字符、电话号码的后 4 位数字。这 5 个部分都可以单独拿出来使用,($1) $3-$5 只用到了其中 3 个子表达式就完成了格式调整,剩下的 2 个没有用到。

        在调整文本格式的时候,把文本分解成多个子表达式的做法往往非常有用,这样可以更精细地控制文本。

四、大小写转换

        需求是一级标签 <h1> 和 </h1> 的之间的字符串转为大写。

set @s:='<body>
<h1>Welcome to my Homepage</h1>
Content is divided into two sections:<br/>
<h2>SQL</h2>
Information about SQL.
<h2>RegEx</h2>
Information about Regular Expressions.
<h2>This is not valid HTML</h3>
</body>';
set @r:='(<[Hh]1>)(.*?)(</[Hh]1>)';

        模式 (<[Hh]1>)(.*?)(<\/[Hh]1>) 把一级标题分成了 3 个子表达式:开始标签、标题文字、结束标签。

        以下两种写法都不行。

mysql> select regexp_replace(@s, @r, '$1\\U$2\\E$3') c;
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| c                                                                                                                                                                                                                     |
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| <body>
<h1>UWelcome to my HomepageE</h1>
Content is divided into two sections:<br/>
<h2>SQL</h2>
Information about SQL.
<h2>RegEx</h2>
Information about Regular Expressions.
<h2>This is not valid HTML</h3>
</body> |
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

mysql> select regexp_replace(@s, @r, concat('$1',upper('$2'),'$3')) c;
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| c                                                                                                                                                                                                                   |
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| <body>
<h1>Welcome to my Homepage</h1>
Content is divided into two sections:<br/>
<h2>SQL</h2>
Information about SQL.
<h2>RegEx</h2>
Information about Regular Expressions.
<h2>This is not valid HTML</h3>
</body> |
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

        第一种写法试图用 $1\\U$2\\E$3 把文本重新组合起来:$1包含开始标签,\U$2\E把第二个子表达式(标题文字)转换为大写,$3包含结束标签。遗憾的是 MySQL 不支持 \U、\E 等元字符,结果是原样输出了这些字符。

        第二种写法失败的原因是,upper 函数是在正则表达式匹配之前执行,不会反向引用到子表达式的内容。输出结果是没有做任何替换。

        下面是一种可能的实现方式。

mysql> set @r:='(?<=<[Hh]1>).*(?=</[Hh]1>)';
Query OK, 0 rows affected (0.00 sec)

mysql> select replace(@s, regexp_substr(@s,@r), upper(regexp_substr(@s,@r)));
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| replace(@s, regexp_substr(@s,@r), upper(regexp_substr(@s,@r)))                                                                                                                                                      |
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| <body>
<h1>WELCOME TO MY HOMEPAGE</h1>
Content is divided into two sections:<br/>
<h2>SQL</h2>
Information about SQL.
<h2>RegEx</h2>
Information about Regular Expressions.
<h2>This is not valid HTML</h3>
</body> |
+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

        使用环视子表达式,捕获一级标签的内容。然后外层使用 replace 函数,将原字符串中的一级标签内容转为大写。文章来源地址https://www.toymoban.com/news/detail-467281.html

到了这里,关于正则表达式必知必会 - 反向引用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【正则表达式】正则表达式常见匹配模式

    模式 描述 w 匹配字母数字及下划线 W 匹配非字母数字下划线 s 匹配任意空白字符,等价于 [tnrf]. S 匹配任意非空字符 d 匹配任意数字,等价于 [0-9] D 匹配任意非数字 A 匹配字符串开始 Z 匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串 z 匹配字符串结

    2024年02月09日
    浏览(65)
  • 【SQL-正则】利用正则表达式进行过滤操作(常用正则表达式)

    1、由数字、26个英文字母或者下划线组成的字符串 2、非负整数(正整数 + 0 ) 3、正整数 4、非正整数(负整数 + 0) 5、负整数 6、整数 7、非负浮点数(正浮点数 + 0) 8、正浮点数 9、非正浮点数(负浮点数 + 0) 10、负浮点数 11、浮点数 12、由26个英文字母组成的字符串 13、

    2024年02月12日
    浏览(66)
  • Java 之正则表达式语法及常用正则表达式汇总

    正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为 regex、regexp 或 RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称

    2024年02月09日
    浏览(57)
  • Python正则表达式之学习正则表达式三步曲

            正则表达式描述了一种字符串匹配的模式,可以用来检查一个串的有无某子串,或者做子串匹配替换,取出子串等操作。也可以说正则表达式就是字符串的匹配规则,也可以理解为是一种模糊匹配,匹配满足正则条件的字符串。         1、数据验证(eg:表单验

    2024年02月15日
    浏览(49)
  • 老夫的正则表达式大成了,桀桀桀桀!!!【Python 正则表达式笔记】

    特殊字符 .^$?+*{}[]()| 为特殊字符,若想要使用字面值,必须使用 进行转义 字符类 [] [] 匹配包含在方括号中的任何字符。它也可以指定范围,例: [a-zA-Z0-9] 表示a到z,A到Z,0到9之间的任何一个字符 [u4e00-u9fa5] 匹配 Unicode 中文 [^x00-xff] 匹配双字节字符(包括中文) 在 [] 中

    2024年02月04日
    浏览(48)
  • 机器学习与数据科学-专题1 Python正则表达式-【正则表达式入门-1】

    为了完成本关任务,你需要掌握: 在 Python 中使用正则表达式; 最基础正则表达式; 正则匹配函数。 在 Python 中使用正则表达式 正可谓人生苦短,我用 Python。Python 有个特点就是库非常多,自然拥有正则匹配这种常见的库,并且此库已经嵌入在 Python 标准库中,使用起来非常

    2024年01月22日
    浏览(39)
  • 正则表达式 (用于灵活匹配文本的表达式)

    目录 . * 用于匹配任意单个字符,除了换行符。 例如使用正则表达式 a.b, 它可以匹配aab、acb、a#b 用于匹配前一个字符零次或多次。 例如,使用正则表达式 ab*c ,它可以匹配 \\\"ac\\\"、\\\"abc\\\"、\\\"abbc\\\",因为 b* 表示匹配零个或多个字符 \\\"b\\\"。所以,这个表达式可以匹配 \\\"ac\\\"(零个 \\\"b\\\"),

    2024年01月16日
    浏览(52)
  • 【编译原理】【词法分析】【正则表达式】【NFA】【DFA】【C++】正则表达式转DFA&NFA,判断字符串是否符合正则表达式的匹配算法

    显然,正则表达式、NFA、DFA的概念都很简单,所以直接上代码,注释应该解释地比较清楚, 没有万能头文件的自行替换需求库 ,如果有疑问的可以留言。 网盘链接 [自行补全]/s/1pbGT_wpB662TwFrnukXgGQ?pwd=TSIT 提取码:TSIT 原理可以参考这篇博客 传送门 本次程序由四个文件组成 文

    2024年02月11日
    浏览(73)
  • 利用正则表达式进行爬取数据以及正则表达式的一些使用方法

    Pattern:表示正则表达式 Matcher:文本匹配器,作用按照正则表达式的规则去读取字符串,从头开始读取。 在大串中去找符合匹配规则的子串。 代码示例: 需求: 把连接:https://m.sengzan.com/jiaoyu/29104.html?ivk sa=1025883i中所有的身份证号码都爬取出来。 代码示例: 需求: 把下面文

    2024年02月09日
    浏览(46)
  • 正则表达式、常用的正则

    正则表达式(Regular Expression,简称为Regex或RegExp)是用于匹配和搜索文本模式的工具。它是一个强大且灵活的字符串处理工具,可以用来检查一个字符串是否符合特定的模式,或者从一个文本中提取满足条件的部分。 在正则表达式中,可以使用不同的元字符和特殊符号来定义

    2024年02月14日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包