006集 正则表达式 re 应用实例—python基础入门实例

这篇具有很好参考价值的文章主要介绍了006集 正则表达式 re 应用实例—python基础入门实例。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

正则表达式指预先定义好一个 字符串模板 ,通过这个 字符串模 板” 可以匹配、查找和替换那些匹配 字符串模板 的字符串。

Python的中 re 模块,主要是用来处理正则表达式,还可以利用 re 模块通过正则表达式来进行网页数据的爬取和存储。

正则表达式的英文是 regular expression,通常简写为 regex、regexp 或者RE,属于计算机领域的一个概念。

正则表达式的主要作用是被用来进行文本的检索、替换或者是从一个串中提取出符合我们指定条件的子串,它描述了一种字符串匹配的模式 pattern 。

目前正则表达式已经被集成到了各种文本编辑器和文本处理工具中。

下面给出一个简单的示例:

^[ 0 - 9 ] + a b c $

  • ^ 为匹配输入字符串的开始位置。

  •  [0-9] 匹配单个数字。

  • + 匹配一个或者多个。

  • [0-9]+匹配一个或多个数字。

  • $ 为匹配输入字符串的结束位置。

  • abc$匹配字母 abc 并以 abc 结尾。

^[a-zA-Z0-9_-]{3,15}$

  • ^表示匹配字符串的开头。
  • [a-zA-Z0-9_-] 表示字符集,包含小写字母、大写字母、数字、下划线和连接字符 -。
  • {3,15} 表示前面的字符集最少出现 3 次,最多出现 15 次,从而限制了用户名的长度在 3 到 15 个字符之间。
  • $ 表示匹配字符串的结尾。

^[0-9]+abc$

匹配以数字开头,并以 abc 结尾的字符串。

正则表达式(括号)、[中括号]、{大括号}的区别:


( )是为了提取匹配的字符串。表达式中有几个()就有几个相应的匹配字符串。(\s*表示连续空格的字符串。
[ ]是定义匹配的字符范围。比如[a-zA-Z0-9] 表示相应位置的字符要匹配英文字符和数字。[\s*]表示空格或者*号。
{ }一般用来表示匹配的长度,比如\s{3}表示匹配三个空格,\s(1,3]表示匹配一到三个空格。
(0-9)匹配'0-9' 本身。[0-9]*匹配数字(注意后面有*,可以为空)。
[0-9]+ 匹面数字(注意后面有 +,意思为数字匹配0次或多次,不可以为空)。
{0-9}写法错误。[0-9]{0,9}表示长度为0到9的数字字符串
( )和[ ]有本质的区别
( )内的内容表示的是一个子表达式,本身不匹配任何东西,也不限制匹配任何东西,只是把括号内的内容作为同一个表达式来处理,例如(ab){1,3}就表示ab一起连续出现最少1次,最多3次。如果没有括号的话,ab{1,3}就表示a,后面紧跟的b出现最少1次,最多3次。
[ ]表示匹配的字符在 [ ]中,并且只能出现一次,并且特殊字符写在[ ]会被当成普通字符来匹配。例如[ (a) ],会匹配左括号、a和右括号这三个字符。

以下为正则表达式连接:

正则表达式在线生成工具 - 正则表达式工具

( https://web.100xgj.com/createReg  )

示例代码:

import re
pattern = re.compile('[A-Za-z0-9_\-\u4e00-\u9fa5]+')
str = 'qq号-\443440204'
print("开始匹配")
print(pattern.search(str))

结果:

开始匹配
<re.Match object; span=(0, 4), match='qq号-'>

进程已结束,退出代码为 0

006集 正则表达式 re 应用实例—python基础入门实例,python,正则表达式,python

先介绍常用正则表达式中几种特殊字符的功能:

字符 含义 例子
. 匹配任意一个字符 ab.可以匹配abc或者abd

[ ]

[^ ]

匹配括号中的任意1个字符

匹配除了括号内的字符以外的任意一个字符

[abcd]可以匹配a、b、c、d

[^abc] 匹配除了字符 "a"、"b" 或 "c" 以外的任意字符。

- 在[ ]内表示的字符范围内进行匹配 [0-9a-fA-F]可以匹配任意一个16进制的数字
^ 位于[ ]括号内的开头,匹配除括号中的字符之外的任意1个字符 [^xy]匹配xy之外的任意一个字符,比如[^xy]1可以匹配A1、B1但是不能匹配x1、y1

数量限定符

字符 含义 例子
匹配前面紧跟字符的0次或者1次 [0-9]?,匹配1、2、3
+ 匹配前面紧跟字符的1次或者多次 [0-9]+,匹配1、12、123等
* 匹配前面紧跟字符的0次或者多次 [0-9]*,不匹配或者12、123(待验证)
{N} 匹配前面紧跟字符精确到N次 [1-9][0-9]{2},匹配100到999的整数,{2}表示[0-9]匹配两个数字
{,M} 匹配前面紧跟字符最多M次 [0-9]{,1},指的是最多匹配0-9之间的1个整数,相当于是0次或者1次,等价于[0-9]?
{N,M} 匹配前面紧跟字符的至少N次,最多M次 [0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3},匹配IP地址,其中.号是特殊字符,需要使用转义字符\

在 Python 中主要是利用 re 模块进行正则表达式的处理,涉及到 4 个常用的方法:

re.match()
re.search()
re.findall()
re.sub()
re.split()
import re   # 使用之前先进行导入re模块

re 模块简介

re模块主要定义了9个常量、12个函数、1个异常,每个常量和函数siki学院都会通过实际代码案例讲解,让大家能更直观的了解其作用!标准库的意思表示这是一个Python内置模块,不需要额外下载,目前Python内置模块大概有300个。可以在这里查看Python所有的内置模块:


re模块简介聊到Python正则表达式的支持,首先肯定会想到re库,这是一个Python处理文本的标准库。

re.match(pattern, string, flags)

参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

标志位 flags

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志,如 re.I | re.M 被同时设置成 I 和 M 标志:

修饰符 描述
re.I 忽略大小写(常用)
re.L 做本地化识别(locale-aware)匹配
re.M 多行匹配,影响 ^ 和 $
re.S 使 . 匹配包括换行在内的所有字符
re.U 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X 该标志通过给予更灵活的格式,以便将正则表达式写得更易于理解。

 match

从指定字符串的开始位置进行匹配。开始位置匹配成功则继续匹配,否则输出None。

该方法的结果是返回一个正则匹配对象,通过两个方法获取相关内容:

  • 通过 group() 来获取内容
  • 通过 span() 来获取范围:匹配到字符的开始和结束的索引位置

re.match(pattern, string, flags)   # match方法为例

示例代码:

import re
print(re.match('www', 'www.bd.com').span())  # 在起始位置匹配
print(re.match('com', 'www.bd.com'))  # 不在起始位置匹配
line = "Cats are smarter than dogs"

matchObj = re.match(r'(.*) are (.*?) .*', line, re.M | re.I)

if matchObj:
    print("matchObj.group() : ", matchObj.group())
    print("matchObj.group(1) : ", matchObj.group(1))
    print("matchObj.group(2) : ", matchObj.group(2))
else:
    print("No match!!")

 运行结果:

(0, 3)
None
matchObj.group() :  Cats are smarter than dogs
matchObj.group(1) :  Cats
matchObj.group(2) :  smarter

006集 正则表达式 re 应用实例—python基础入门实例,python,正则表达式,python

 re.match与re.search的区别
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。

位置相关

字符 含义 例子
^ 匹配开头的位置;通过\A ^hello 匹配hello开头的字符内容
$ 匹配结束的位置同\Z ;$ 匹配一行结尾的;符号 ^$匹配空行
< 匹配单词开头的位置 <th 匹配…this但是不能匹配ethernet等
> 匹配单词结尾的位置 p> 匹配leap等,但是不能匹配parent、sleepy等不是p结尾的单词
\b 匹配单词开头或结尾的位置 \bat 匹配…at…,但是不能匹配cat、atexit、batch(非at开头)
\B 匹配非单词开头或者结尾的单词 \Bat匹配battery,但是不能匹配attend/hat等以at开头的单词

特殊字符

字符 含义 例子
\ 转义字符,保持后面字符的原义,使其不被转义 \. 输出.
( ) 将表达式的一部分括起来,可以对整个单元使用数量限定符,匹配括号中的内容 ([0-9]{1,3}\.){3}[0-9]{1,3}表示将括号内的内容匹配3次
| 连接两个子表达式,相当于或的关系 n(o|either)匹配no或者neither
\d 数字字符 相当于是[0-9]
\D 非数字字符 相当于是[^0-9]
\w 数字字母下划线 [a-zA-Z0-9_]
\W 非数字字母下划线,匹配特殊字符 [^\w]
\s 空白区域 [\r\t\n\f]表格、换行等空白区域
\S [^\s] 非空白区域

贪婪模式与非贪婪模式:

  • .*? 非贪婪模式
  • .* 贪婪模式
  • 006集 正则表达式 re 应用实例—python基础入门实例,python,正则表达式,python
import re
str = "aaaacbabadceb"
res = re.findall("a.*?b", str)
res1 = re.findall("a.*b", str)
str2 = "aaaacbabadcebfegbbb"
res2 = re.findall("a.*b", str2)
print(res)
print(res1)
print(res2)

 运行结果为:

['aaaacb', 'ab', 'adceb']
['aaaacbabadceb']
['aaaacbabadcebfegbbb']

006集 正则表达式 re 应用实例—python基础入门实例,python,正则表达式,python文章来源地址https://www.toymoban.com/news/detail-789709.html

  1. 在上面的非贪婪模式中,使用了问号 ?,当匹配到 aaaacb 已经达到了要求,停止第一次匹配;接下来再开始匹配到 ab ;再匹配到 adceb ;所以存在多个匹配结果
  2. 在贪婪模式中,程序会找到最长的那个符合要求的字符串

到了这里,关于006集 正则表达式 re 应用实例—python基础入门实例的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python-re模块-正则表达式模块常用方法

    Python的re模块提供了正则表达式的功能,可以用来进行高级的字符串匹配和处理。re模块的主要功能包括: 编译正则表达式 - 使用re.compile()可以编译正则表达式字符串,生成正则表达式对象。 匹配字符串 - 使用正则表达式对象的match()、search()、findall()等方法可以在字符串进行匹配

    2024年02月14日
    浏览(29)
  • python re.findall和re.search同样的正则表达式,为什么规则不一样??

    今天遇到一个问题,在使用python的re.findall和re.search的过程中,发现一个奇怪的事情,同样的表达式,两者的表现却不一样,例如下述代码: res1是我所希望的结果,然后查了一段时间的原因,发现二者是在使用捕获分组(xxx)和非捕获分组(?:xxx)有区别,re.search使用的是非捕获方

    2024年02月16日
    浏览(36)
  • 【100天精通python】Day23:正则表达式,基本语法与re模块详解示例

      目录  专栏导读  1 正则表达式概述 2 正则表达式语法 2.1 正则表达式语法元素

    2024年02月14日
    浏览(39)
  • 正则表达式 re模块

    正则表达式: 一种使用表达式的方式 对字符串进行匹配的语法规则   可以在如下网站中测试正则表达式 在线正则表达式测试 (oschina.net) ①元字符: .          匹配除换⾏符以外的任意字符 w       匹配字⺟或数字或下划线 s        匹配任意的空⽩符 d      

    2024年02月06日
    浏览(31)
  • re --- 正则表达式操作

    模式和被搜索的字符串既可以是 Unicode 字符串 (str) ,也可以是8位字节串 (bytes)。 但是,Unicode 字符串与 8 位字节串不能混用:也就是说,不能用字节串模式匹配 Unicode 字符串,反之亦然;同理,替换操作时,替换字符串的类型也必须与所用的模式和搜索字符串的类型一致。

    2024年02月08日
    浏览(36)
  • 【从零学习python 】63.正则表达式中的re.Match类及其属性和方法介绍

    当我们调用 re.match 方法、 re.search 方法,或者对 re.finditer 方法的结果进行迭代时,拿到的数据类型都是 re.Match 对象。 这个类里定义了相关的属性,可以直接让我们来使用。 属性和方法 说明 pos 搜索的开始位置 endpos 搜索的结束位置 string 搜索的字符串 re 当前使用的正则表达

    2024年02月11日
    浏览(40)
  • 正则表达式 re库的使用

    模式 描述 ^ 匹配 字符串的开始 w 匹配 字母数字及下划线 W 匹配 非 字母数字及下划线 s 匹配 任意空白字符,即空格 S 匹配 任意 非空 字符 d 匹配 任意数字,等价于[0-9], d+ 表示匹配多个数字 D 匹配 任意 非 数字 A 匹配字符串开始 Z 匹配字符串结束,如果是存在换行,

    2024年02月10日
    浏览(48)
  • 8.网络爬虫—正则表达式RE实战

    前言 : 🏘️🏘️个人简介:以山河作礼。 🎖️🎖️:Python领域新星创作者,CSDN实力新星认证 📝​📝​此专栏文章是专门针对网络爬虫基础,欢迎免费订阅! 📝​📝第一篇文章《1.认识网络爬虫》获得 全站热榜第一 ,python 领域热榜第一 , 第四篇文章《4.网络爬虫—

    2023年04月08日
    浏览(64)
  • Python re.findall()中的正则表达式包含多个括号时的返回值——包含元组的列表

    当 re.findall() 中的正则表达式包含多个括号时,返回值是一个列表,其中每个元素都是一个元组。这个元组的长度与正则表达式中括号的数量相同,元组中的每个元素都是与相应括号中的模式匹配的文本。 输出:

    2024年02月19日
    浏览(36)
  • Python使用正则表达式识别代码中的中文、英文和数字实例演示

    在文本处理和数据分析中,有时候需要从代码中提取出其中包含的中文、英文和数字信息。正则表达式是一种强大的工具,可以帮助我们实现这一目标。本文将分三个部分详细介绍如何使用正则表达式在 Python 中识别代码中的中文、英文和数字。 在 Python 中,可以使用 Unicod

    2024年02月14日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包