【Linux命令行与Shell脚本编程】第十九章 正则表达式

这篇具有很好参考价值的文章主要介绍了【Linux命令行与Shell脚本编程】第十九章 正则表达式。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Linux命令行与Shell脚本编程 第十九章 正则表达式



九.正则表达式

  • 正则表达式基础
  • 定义BRE模式
  • 扩展正则表达式

在sed和gawk中创建正则表达式,以得到所需的数据。

9.1.正则表达式基础

正则表达式是一种可供Linux工具过滤文本的自定义模板,使用元字符来描述数据流中的一个或多个字符.
Linux工具(比如sed或gawk)会在读取数据时使用正则表达式对数据进行模式匹配。如果数据匹配模式,它就会被接受并进行处理。
正则表达式包含文本和/或特殊字符.

9.1.1.正则表达式的类型

不同的应用程序可能使用不同类型的正则表达式。
编程语言(Java、Python)、Linux工具(sed、gawk和grep)以及主流应用程序(MySQL数据库服务器)。

正则表达式由正则表达式引擎实现。这种底层软件,负责解释正则表达式并用这些模式进行文本匹配。

Linux 中流行的两种:

  • POSIX基础正则表达式(basic regular expression,BRE)引擎。
  • POSIX扩展正则表达式(extended regular expression,ERE)引擎。

大多数Linux工具至少符合POSIX BRE引擎规范。但有些工具(比如sed)仅符合BRE引擎规范的一个子集。
(出于速度方面的考虑导致,sed希望尽可能快地处理数据流中的文本)

POSIX ERE引擎多见于依赖正则表达式过滤文本的编程语言中。为常见模式(比如数字、单词以及字母或数字字符)提供了高级模式符号和特殊符号。
gawk就是使用ERE引擎来处理正则表达式。

9.2.定义BRE模式

最基本的BRE模式是匹配数据流中的文本字符.

9.2.1.普通文本

正则表达式对大小写敏感.
正则表达式并不关心模式在数据流中出现的位置,也不在意模式出现了多少次。
只要能匹配文本字符串中任意位置的模式,正则表达式就会将该字符串传回Linux工具。

在正则表达式中,空格和其他的字符没有区别.如果在正则表达式中定义了空格,那么必须出现在数据流中。甚至可以创建匹配多个连续空格的正则表达式.

$ cat data1
This is a normal line of text.
This is  a line with too many spaces.
$ sed -n '/  /p' data1
This is  a line with too many spaces.
9.2.2.特殊字符

正则表达式中的一些字符具有特别的含义:

  • .
  • *
  • []
  • ^
  • $
  • {}
  • \
  • +
  • ?
  • |
  • ()

不能在匹配普通文本的模式中单独使用这些字符.
如果要将某个特殊字符视为普通字符,则必须将其转义.使用特殊转移字符反斜线(\)。

尽管正斜线 / 不属于正则表达式的特殊字符,但如果出现在sed或gawk的正则表达式中,就会出现错误,所以正斜线也需要进行转义.

9.2.3.锚点字符

默认情况下,当指定一个正则表达式模式时,只要模式出现在数据流中的任何地方,它就能匹配.有两个特殊字符可以用来将模式锁定在数据流中的行首或行尾。

锚定行首^

脱字符(^)可以指定位于数据流中文本行行首的模式。如果模式出现在行首之外的位置,则正则表达式无法匹配。
使用脱字符,就必须将其置于正则表达式之前

$ echo "The book store" | sed -n '/^book/p'
$
$ echo "Books are great" | sed -n '/^Book/p'
Books are great

如果将脱字符放到正则表达式开头之外的位置,那么就跟普通字符一样,没有特殊含义

$ echo "This ^ is a test" | sed -n '/s ^/p'
This ^ is a test

如果正则表达式模式中只有脱字符,就不必用反斜线来转义。但如果在正则表达式中先指定脱字符,随后还有其他文本,就必须在脱字符前用转义字符.

$ echo "This is ^ a test" | sed -n '/^ a test/p'
$ echo "This is ^ a test" | sed -n '/\^ a test/p'
This is ^ a test
锚定行尾$

与在行首查找模式相反的情况是在行尾查找。特殊字符美元符号($)定义了行尾锚点。将这个特殊字符放在正则表达式之后则表示数据行必须以该模式结尾.

$ echo "This is a good book" | sed -n '/book$/p'
This is a good book
组合锚点

组合使用行首锚点和行尾锚点。

$ cat data4
this is a test of using both anchors
I said this is a test
this is a test
I'm sure this is a test.
$ sed -n '/^this is a test$/p' data4
this is a test

将这两个锚点直接组合,之间不加任何文本,可以过滤掉数据流中的空行。
组合 删除命令d就可以删除掉文本中的空行.

$ cat data5
This is one test line.

This is another test line.
$ sed '/^$/d' data5
This is one test line.
This is another test line.

9.2.4.点号字符.

点号字符可以匹配除换行符之外的任意单个字符。(空格也是字符,可以匹配)
点号字符必须匹配一个字符,如果在点号字符的位置没有可匹配的字符,那么模式不成立。

$ cat data6
This is a test of a line.
The cat is sleeping.
That is a very nice hat.
This test is at line four.
at ten o'clock we'll go home.
$ sed -n '/.at/p' data6
The cat is sleeping.
That is a very nice hat.
This test is at line four.

9.2.5.字符组[]

想要限定要匹配的具体字符使用字符组.
可以在正则表达式中定义用来匹配某个位置的一组字符。如果字符组中的某个字符出现在了数据流中,那就能匹配该模式。

方括号 [] 用于定义字符组。
在不太确定某个字符的大小写时非常适合使用字符组.

$ echo "Yes" | sed -n '/[Yy]es/p'
Yes
$ echo "yes" | sed -n '/[Yy]es/p'
yes

在一个正则表达式中可以使用多个字符组.
可以将多个字符组组合在一起,以检查数字是否具备正确的格式.

$ cat data8
60633
46201
223001
4353
22203
$ sed -n '
> /^[0123456789][0123456789][0123456789][0123456789][0123456789]$/p
> ' data8
60633
46201
22203

9.2.6.排除字符组

在正则表达式中,可以反转字符组的作用:匹配字符组中没有的字符。在字符组的开头添加脱字符^:

$ sed -n '/[^ch]at/p' data6
This test is at line four.

即使是排除型,字符组仍必须匹配一个字符,以at为起始的行还是不能匹配模式!!!

8.2.7.区间

可以用单连字符在字符组中表示字符区间。只需指定区间的第一个字符、连字符以及区间的最后一个字符。
根据Linux系统使用的字符集,字符组会包括在此区间内的任意字符。

$ sed -n '/^[0-9][0-9][0-9][0-9][0-9]$/p' data8
60633
46201
45902

同样的方法也适用于字母:

$ sed -n '/[c-h]at/p' data6
The cat is sleeping.
That is a very nice hat.

可以在单个字符组内指定多个不连续的区间:

$ sed -n '/[a-ch-m]at/p' data6
The cat is sleeping.
That is a very nice hat.

9.2.8.特殊字符组

BRE还提供了一些特殊的字符组,用来匹配特定类型的字符。

字符组 描述
[[:alpha:]] 匹配任意字母字符,无论大小写
[[:alnum:]] 匹配任意字母和数组字符,0-9、a-z、A-Z
[[:blank:]] 匹配空格和制表符
[[:digit:]] 匹配0-9的数字
[[:lower:]] 匹配a-z的字母
[[:upper:]] 匹配A-Z的字母
[[:print:]] 匹配任意可打印字符
[[:punct:]] 匹配标点符号
[[:space:]] 匹配任意空白字符:空格、制表符、换行符、分页符、垂直制表符、回车符

特殊字符组在正则表达式中的用法和普通字符组一样:

$ echo "abc" | sed -n '/[[:digit:]]/p'
$ echo "abc" | sed -n '/[[:alpha:]]/p'
abc
$ echo "abc123" | sed -n '/[[:digit:]]/p'
abc123
$ echo "This is a test" | sed -n '/[[:punct:]]/p'
$ echo "This is, a test" | sed -n '/[[:punct:]]/p'
This is, a test

9.2.9.星号*

在字符后面放置星号,表明该字符必须在匹配模式的文本中出现0次或多次.

$ echo "ik" | sed -n '/ie*k/p'
ik
$ echo "iek" | sed -n '/ie*k/p'
iek
$ echo "ieek" | sed -n '/ie*k/p'
ieek
$ echo "ieeek" | sed -n '/ie*k/p'
ieeek
$ echo "ieeeek" | sed -n '/ie*k/p'
ieeeek

某些单词在英美中不同,借助 星号可以匹配:

$ echo "I'm getting a color TV" | sed -n '/colou*r/p'
I'm getting a color TV
$ echo "I'm getting a colour TV" | sed -n '/colou*r/p'
I'm getting a colour TV
$

将点号字符和星号字符组合起来。这个组合能够匹配任意数量的任意字符:

$ echo "this is a regular pattern expression" | sed -n '
> /regular.*expression/p'
this is a regular pattern expression

星号用于字符组时,指定可能在文本中出现0次或多次的字符组或字符区间:

$ echo "bt" | sed -n '/b[ae]*t/p'
bt
baaeeet
$ echo "baeeaeeat" | sed -n '/b[ae]*t/p'
baeeaeeat
$ echo "baakeeet" | sed -n '/b[ae]*t/p'

9.3.扩展正则表达式

POSIX ERE模式提供了一些可供Linux应用程序和工具使用的额外符号。gawk支持ERE模式,sed不支持。

可用于gawk脚本中的常见ERE模式符号。

9.3.1.问号?

问号表明字符可以出现0次或1次,不会匹配多次出现的该字符.用法与星号类似,可以作用与字符组.

$ echo "bt" | gawk '/be?t/{print $0}'
bt
$ echo "bet" | gawk '/be?t/{print $0}'
bet
$ echo "beet" | gawk '/be?t/{print $0}'

9.3.2.加号+

加号表明前面的字符可以出现1次或多次,必须至少出现1次。用法与星号类似,可以作用与字符组.

$ echo "bt" | gawk '/b[ae]+t/{print $0}'
$
$ echo "bat" | gawk '/b[ae]+t/{print $0}'
bat
$ echo "bet" | gawk '/b[ae]+t/{print $0}'
bet
$ echo "beat" | gawk '/b[ae]+t/{print $0}'
beat
$ echo "beet" | gawk '/b[ae]+t/{print $0}'
beet
$ echo "beeat" | gawk '/b[ae]+t/{print $0}'
beeat

9.3.3.花括号{}

ERE中的花括号允许为正则表达式指定具体的可重复次数,称为区间。

可以用两种格式来指定区间:

  • m:正则表达式恰好出现m次。
  • m, n:正则表达式至少出现m次,至多出现n次。

默认情况下,gawk也不识别正则表达式区间,必须指定gawk的命令行选项–re-interval。

$ echo "bt" | gawk --re-interval '/be{1}t/{print $0}'
$
$ echo "bet" | gawk --re-interval '/be{1}t/{print $0}'
bet
$ echo "beet" | gawk --re-interval '/be{1}t/{print $0}'
$
$ echo "bt" | gawk --re-interval '/be{1,2}t/{print $0}'
$
$ echo "bet" | gawk --re-interval '/be{1,2}t/{print $0}'
bet
$ echo "beet" | gawk --re-interval '/be{1,2}t/{print $0}'
beet
$ echo "beeet" | gawk --re-interval '/be{1,2}t/{print $0}'
$
$ echo "bt" | gawk --re-interval '/b[ae]{1,2}t/{print $0}'
$
$ echo "beet" | gawk --re-interval '/b[ae]{1,2}t/{print $0}'
beet
$ echo "beeat" | gawk --re-interval '/b[ae]{1,2}t/{print $0}'
$

9.3.4.竖线符号|

竖线符号允许在检查数据流时,以逻辑OR方式指定正则表达式引擎要使用的两个或多个模式。任何一个模式匹配了数据流文本,就视为匹配。
竖线符号两侧的子表达式可以采用正则表达式可用的任何模式符号(包括字符组)

$ echo "The cat is asleep" | gawk '/cat|dog/{print $0}'
The cat is asleep
$ echo "The dog is asleep" | gawk '/cat|dog/{print $0}'
The dog is asleep
$ echo "The sheep is asleep" | gawk '/cat|dog/{print $0}'

9.3.5.表达式分组

用圆括号对正则表达式进行分组。分组之后,每一组会被视为一个整体,可以像对普通字符一样对该组应用特殊字符。

$ echo "Sat" | gawk '/Sat(urday)+/{print $0}'
$ echo "Saturday" | gawk '/Sat(urday)+/{print $0}'
Saturday

将分组和竖线符号结合起来创建可选的模式匹配组:

$ echo "cat" | gawk '/(c|b)a(b|t)/{print $0}'
cat
$ echo "cab" | gawk '/(c|b)a(b|t)/{print $0}'
cab
$ echo "bat" | gawk '/(c|b)a(b|t)/{print $0}'
bat
$ echo "bab" | gawk '/(c|b)a(b|t)/{print $0}'
bab
$ echo "tab" | gawk '/(c|b)a(b|t)/{print $0}'
$

9.4.实战

9.4.1.目录文件计数

对PATH环境变量中各个目录所包含的文件数量进行统计.

PATH中的各个路径由冒号分隔。要获取可在脚本中使用的目录列表,须用空格替换冒号.

$ echo $PATH | sed 's/:/ /g'
/usr/local/sbin /usr/local/bin /usr/sbin /usr/bin /sbin /bin
/usr/games /usr/local/games

分离出目录之后,可以使用标准for语句遍历每个目录:

mypath=`echo $PATH | sed 's/:/ /g'`
for directory in $mypath
do
...
done

对于单个目录,可以用ls命令列出其中的文件,再用另一个for语句来遍历每个文件,对文件计数器增值。

$ cat countfiles
#!/bin/bash
# count number of files in your PATH
mypath=$(echo $PATH | sed 's/:/ /g')
count=0
for directory in $mypath
do
    check=$(ls $directory)
    for item in $check
    do
        count=$[ $count + 1 ]
    done
    echo "$directory - $count"
    count=0
done
$ ./countfiles /usr/local/sbin - 0
/usr/local/bin - 2
/usr/sbin - 213
/usr/bin - 1427
...
/usr/local/games - 0

【Linux命令行与Shell脚本编程】第十九章 正则表达式,Linux命令行与shell脚本编程,linux,正则表达式,mysql文章来源地址https://www.toymoban.com/news/detail-646216.html

到了这里,关于【Linux命令行与Shell脚本编程】第十九章 正则表达式的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Linux Shell 脚本编程学习之【第3章 正则表达式 (第二部分) grep命令】

    1、文本搜索工具 2、GREP 是Global search Regular Expression and Print out the line的简称,即全面搜索正则表达式并把行打印出来。 3、grep命令的模式十分灵活,可以是字符串,也可以是变量,还可以是正则表达式。模式中包含空格,则必须用双引号括起来。 选 项 意 义 -c 只输出匹配行

    2024年02月16日
    浏览(39)
  • Shell脚本——编程规范与echo命令

    目录 一.Shell脚本编程概述 1.基本概念 2.作用 3.Linux系统中常见的Shell脚本种类 4.应用场景 5.问题补充 5.1 为什么系统上合法的Shel1要写入/etc/she1ls这个文件? 5.2 用户什么时候可以取得shell来工作?用户默认会取得哪一个shell? 二.Shell脚本的构成规范 三. Shell脚本的执行 1.脚本执行

    2024年02月05日
    浏览(41)
  • Linux 系统shell脚本编程笔记——脚本入门

    目录 1、创建shell脚本文件  2、显示消息 3、 环境变量 4、用户变量 5、命令替换 ​编辑  6、重定向输入与输出 6.1、输出重定向  6.2、输入重定向 ​编辑 7、执行数学运算 7.1、expr命令 7.2、bc的基本用法  8、退出脚本 完整笔记请前往此处获取:https://download.csdn.net/download/qq

    2024年02月06日
    浏览(43)
  • Linux——Shell脚本编程(1)

    1)Linux运维工程师在进行服务器集群管理时,需要编写Shell程序来进行服务器管理。 2)对于 JavaEE 和 Python 程序员来说,工作的需要,要求你编写一些 Shell脚本进行程序或者是服务器的维护,比如编写一个定时备份数据库的脚本。 3) 对于大数据程序员来说,需要编写Shell程序来管

    2024年02月09日
    浏览(44)
  • Linux实验4 shell脚本编程基础

    1.假设在/tmp下有以当前用户的帐号命名的目录,请在命令行中临时修改环境变量PATH的值,要求该目录的路径附加到该变量的最后。 2.请在命令行中临时设置命令输入提示行格式为:“当前系统时间-用户#”。 3.在命令行定义一个字符串变量str,并且赋值为“test for shell”,然

    2024年04月17日
    浏览(37)
  • Linux_5_Shell脚本编程

    程序:算法+数据结构 数据:是程序的核心 算法:处理数据的方式 数据结构: 数据在计算机中的类型和组织方式 面向过程语言 做一件事情,排出个步骤,第一步干什么,第二步干什么,如果出现情况A,做什么处理,如果出现了情况B,做什么处理 问题规模小,可以步骤化,按部

    2024年02月13日
    浏览(33)
  • Linux shell编程学习笔记44:编写一个脚本,将md5sum命令执行结果保存到变量中,进而比较两个文件内容是否相同

    在  Linux shell编程学习笔记42:md5sum https://blog.csdn.net/Purpleendurer/article/details/137125672?spm=1001.2014.3001.5501 中,我们提到编写一个在Linux系统下比较两个文件内容是否相同的脚本。 基本思路是: 其中有两个难点: 1.文件的md5值的获取 2.md5值的比较 对于第1个难点,我们的解决办法是

    2024年04月10日
    浏览(53)
  • Linux系统Shell脚本编程之条件语句

    Shell 环境根据命令执行后的返回状态值 \\\" $? \\\" 来判断是否执行成功,当返回值为0时表示成功,否则表示失败或异常(非0值)。 使用专门的测试工具 test 命令,可以对特定条件进行测试,并根据返回值(值为0)来判断是否成立。 test命令格式 文件测试指的是根据给定的路径名

    2024年01月25日
    浏览(53)
  • 3.7 Linux shell脚本编程(分支语句、循环语句)

    目录 分支语句(对标C语言中的if) 多路分支语句(对标C语言中的swich case) 分支语句(对标C语言中的if) 语法结构:          if    表达式                  then  命令表          fi     如果表达式为真, 则执行命令表中的命令; 否则退出if语句, 即执行fi后面的语句。

    2024年02月02日
    浏览(34)
  • Linux shell编程学习笔记29:shell自带的 脚本调试 选项

    Linux shell脚本的调试方法比较多,上次我们探讨和测试了shell内建命令set所提供的一些调试选项,其实 shell 本身也提供了一些调试选项。我们以bash为例来看看。 purleEndurer @ csdn ~ $ bash --help GNU bash, version 4.2.46(2)-release-(x86_64-redhat-linux-gnu) Usage:  bash [GNU long option] [option] ...      

    2024年02月04日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包