【Python】re模块

这篇具有很好参考价值的文章主要介绍了【Python】re模块。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、re模块简介及操作方法

正则表达式其本身就是一种小型的,高度专业化的编程语言。在Python中,它被内 嵌在了re模块里面,正则表达式模式被编译成一系列的字节码,然后由用C编写的匹 配引擎执行。

re模块,Python,正则表达式

re模块,Python,正则表达式re模块,Python,正则表达式

re模块,Python,正则表达式

re模块,Python,正则表达式

1、re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配。


语法:

re.search(pattern, string, flags=0)
参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。参见:正则表达式修饰符 - 可选标志

正则表达式修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志:

修饰符 描述
re.I 使匹配对大小写不敏感
re.L 做本地化识别(locale-aware)匹配
re.M 多行匹配,影响 ^ 和 $
re.S 使 . 匹配包括换行在内的所有字符
re.U 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。
import re

dragon = '''<div class="mind-book">
                            <div class="imgbox img-book fl"><a href="https://www.zongheng.com/book/1234960.html" target="_blank" data-sa-d="{&quot;page_module&quot;:&quot;homePage&quot;,&quot;book_id&quot;:&quot;1234960&quot;,&quot;recommend_type&quot;:&quot;tryRead&quot;,&quot;pos&quot;:&quot;0&quot;}"><img src="https://static.zongheng.com/upload/cover/7f/a5/7fa5d5d1ca10eb232d7d8f049f3fcaa1.jpeg" alt="一世如龙"></a></div>
                            <div class="book-info fr">
                                <div class="bookname" title="一世如龙"><a href="https://www.zongheng.com/book/1234960.html" target="_blank" data-sa-d="{&quot;page_module&quot;:&quot;homePage&quot;,&quot;book_id&quot;:&quot;1234960&quot;,&quot;recommend_type&quot;:&quot;tryRead&quot;,&quot;pos&quot;:&quot;0&quot;}">一世如龙</a></div>
                                <p class="info">一个豪门弃子,如今却成为最恐怖的猎手,全世界都是他的猎场!</p>
                                <div class="author" title="关中老人"><a href="https://home.zongheng.com/show/userInfo/2537638.html" target="_blank" data-sa-d="{&quot;page_module&quot;:&quot;homePage&quot;,&quot;book_id&quot;:&quot;1234960&quot;,&quot;recommend_type&quot;:&quot;tryRead&quot;,&quot;pos&quot;:&quot;0&quot;}">关中老人</a></div>
                                <a class="cate" href="https://www.zongheng.com/category/9.html" target="_blank" title="都市娱乐" data-sa-d="{&quot;page_module&quot;:&quot;homePage&quot;,&quot;book_id&quot;:&quot;1234960&quot;,&quot;recommend_type&quot;:&quot;tryRead&quot;,&quot;pos&quot;:&quot;0&quot;}">都市娱乐</a>
                            </div>
                        </div>'''
print(re.search('一世如龙', dragon).group())  # dragon里不止一个'一世如龙',但只会返回第一个匹配到的,并且通过group()拿到了值

2、re.match

re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。

语法:

re.match(pattern, string, flags=0)

参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。参见:正则表达式修饰符 - 可选标志
import re

print(re.match('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.match('com', 'www.runoob.com'))  # 不在起始位置匹配

re模块,Python,正则表达式

方法名称 作用
group 以str形式返回对象中match的元素
start 返回开始位置
end 返回结束位置
span 以tuple形式返回范围

re.match与re.search的区别

        re.match 只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回 None,而 re.search 匹配整个字符串,直到找到一个匹配。

3、re.findall

在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。

注意: match 和 search 是匹配一次 findall 匹配所有。


语法格式为:

re.findall(pattern, string, flags=0)pattern.findall(string[, pos[, endpos]])

参数:

  • pattern 匹配模式。
  • string 待匹配的字符串。
  • pos 可选参数,指定字符串的起始位置,默认为 0。
  • endpos 可选参数,指定字符串的结束位置,默认为字符串的长度。
    import re
     
    result1 = re.findall(r'\d+','runoob 123 google 456')
     
    pattern = re.compile(r'\d+')   # 查找数字
    result2 = pattern.findall('runoob 123 google 456')
    result3 = pattern.findall('run88oob123google456', 0, 10)
     
    print(result1)
    print(result2)
    print(result3)

    re模块,Python,正则表达式

4、re.finditer

和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。

语法:

re.finditer(pattern, string, flags=0)

参数:

参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。参见:正则表达式修饰符 - 可选标志
import re
 
it = re.finditer(r"\d+","12a32bc43jf3") 
for match in it: 
    print (match.group() )

re模块,Python,正则表达式

5、re.split

split 方法按照能够匹配的子串将字符串分割后返回列表,它的使用形式如下:

re.split(pattern, string[, maxsplit=0, flags=0])

参数:

参数 描述
pattern 匹配的正则表达式
string 要匹配的字符串。
maxsplit 分割次数,maxsplit=1 分割一次,默认为 0,不限制次数。
flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。参见:正则表达式修饰符 - 可选标志

import re

print((re.split(r"Y.{3}[aA]", "YunyaYufajfYunyaYUNYA")))

re模块,Python,正则表达式

6、re.sub

Python 的re模块提供了re.sub用于替换字符串中的匹配项。

语法:

re.sub(pattern, repl, string, count=0, flags=0)

参数:

  • pattern : 正则中的模式字符串。
  • repl : 替换的字符串,也可为一个函数。
  • string : 要被查找替换的原始字符串。
  • count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
  • flags : 编译时用的匹配模式,数字形式。

前三个为必选参数,后两个为可选参数。


import re


print((re.sub(r"Y.{3}[aA]", '@', "YunyaYufajfYunyaYUNYA")))

re模块,Python,正则表达式

7、compile 函数

compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。


语法格式为:

re.compile(pattern[, flags])

参数:

  • pattern : 一个字符串形式的正则表达式
  • flags 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:
    • re.I 忽略大小写
    • re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    • re.M 多行模式
    • re.S 即为' . '并且包括换行符在内的任意字符(' . '不包括换行符)
    • re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    • re.X 为了增加可读性,忽略空格和' # '后面的注释

import re

my_pattern = re.compile('y')
print(my_pattern.findall('YunyaYufajfYunyaYUNYA'))

re模块,Python,正则表达式文章来源地址https://www.toymoban.com/news/detail-705302.html

到了这里,关于【Python】re模块的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python 正则表达式RE知识学习

    正则表达式(Regular Expression)是一种强大的文本模式匹配工具,常用于在字符串中查找、替换、分割等操作。在 Python 中,可以使用内置的 re 模块来操作正则表达式。 字符匹配: 普通字符:正则表达式中的普通字符(如字母、数字、特殊字符)与字符串中的对应字符进行匹

    2024年02月09日
    浏览(55)
  • Python:正则表达式之re.group()用法

    Python正则表达式之re.group()用法学习笔记 正则表达式是在处理字符串时非常有用的工具,而re.group()是在匹配到的文本中提取特定分组内容的方法之一。 在正则表达式中,通过圆括号可以创建一个或多个分组。re.group()用于获取匹配到的文本中的指定分组内容。 输出结果: grou

    2024年01月17日
    浏览(44)
  • 006集 正则表达式 re 应用实例—python基础入门实例

    正则表达式指预先定义好一个 “ 字符串模板 ” ,通过这个 “ 字符串模 板” 可以匹配、查找和替换那些匹配 “ 字符串模板 ” 的字符串。 Python的中 re 模块,主要是用来处理正则表达式,还可以利用 re 模块通过正则表达式来进行网页数据的爬取和存储。 正则表达式的英文

    2024年02月01日
    浏览(57)
  • python re.findall和re.search同样的正则表达式,为什么规则不一样??

    今天遇到一个问题,在使用python的re.findall和re.search的过程中,发现一个奇怪的事情,同样的表达式,两者的表现却不一样,例如下述代码: res1是我所希望的结果,然后查了一段时间的原因,发现二者是在使用捕获分组(xxx)和非捕获分组(?:xxx)有区别,re.search使用的是非捕获方

    2024年02月16日
    浏览(47)
  • re --- 正则表达式操作

    模式和被搜索的字符串既可以是 Unicode 字符串 (str) ,也可以是8位字节串 (bytes)。 但是,Unicode 字符串与 8 位字节串不能混用:也就是说,不能用字节串模式匹配 Unicode 字符串,反之亦然;同理,替换操作时,替换字符串的类型也必须与所用的模式和搜索字符串的类型一致。

    2024年02月08日
    浏览(44)
  • 【从零学习python 】63.正则表达式中的re.Match类及其属性和方法介绍

    当我们调用 re.match 方法、 re.search 方法,或者对 re.finditer 方法的结果进行迭代时,拿到的数据类型都是 re.Match 对象。 这个类里定义了相关的属性,可以直接让我们来使用。 属性和方法 说明 pos 搜索的开始位置 endpos 搜索的结束位置 string 搜索的字符串 re 当前使用的正则表达

    2024年02月11日
    浏览(58)
  • 正则表达式 re库的使用

    模式 描述 ^ 匹配 字符串的开始 w 匹配 字母数字及下划线 W 匹配 非 字母数字及下划线 s 匹配 任意空白字符,即空格 S 匹配 任意 非空 字符 d 匹配 任意数字,等价于[0-9], d+ 表示匹配多个数字 D 匹配 任意 非 数字 A 匹配字符串开始 Z 匹配字符串结束,如果是存在换行,

    2024年02月10日
    浏览(58)
  • 8.网络爬虫—正则表达式RE实战

    前言 : 🏘️🏘️个人简介:以山河作礼。 🎖️🎖️:Python领域新星创作者,CSDN实力新星认证 📝​📝​此专栏文章是专门针对网络爬虫基础,欢迎免费订阅! 📝​📝第一篇文章《1.认识网络爬虫》获得 全站热榜第一 ,python 领域热榜第一 , 第四篇文章《4.网络爬虫—

    2023年04月08日
    浏览(77)
  • Python re.findall()中的正则表达式包含多个括号时的返回值——包含元组的列表

    当 re.findall() 中的正则表达式包含多个括号时,返回值是一个列表,其中每个元素都是一个元组。这个元组的长度与正则表达式中括号的数量相同,元组中的每个元素都是与相应括号中的模式匹配的文本。 输出:

    2024年02月19日
    浏览(47)
  • Python正则表达式之学习正则表达式三步曲

            正则表达式描述了一种字符串匹配的模式,可以用来检查一个串的有无某子串,或者做子串匹配替换,取出子串等操作。也可以说正则表达式就是字符串的匹配规则,也可以理解为是一种模糊匹配,匹配满足正则条件的字符串。         1、数据验证(eg:表单验

    2024年02月15日
    浏览(63)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包