【python技巧】文本处理-re库字符匹配

这篇具有很好参考价值的文章主要介绍了【python技巧】文本处理-re库字符匹配。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录
  • 1. 正则表达式
    • 1.1 测试工具
    • 1.2 限定符
    • 1.3 字符集
    • 1.4 运算符
    • 1.5 元字符
    • 1.6 懒惰匹配和贪婪匹配

我们读取文件内容,肯定不是单纯为了输出或者重新写入,对于文本我们一定有一些查找、定位的需求。
在Python中,还有一个专门用于文本处理的库,那就是re库。
下面我会介绍re库涉及的正则表达式的基本知识。
参考课程

1. 正则表达式

正则表达式是用来进行字符串匹配的一个字符形式。

1.1 测试工具

常见的正则表达式测试工具有:

  1. regex101
  2. 代码编辑器搜索栏的正则表达式匹配

1.2 限定符

  1. ?
    abc?表示字符c需要出现0次或者1次,或者换句话说,字符c至多出现一次。也就是说,abc?相当于abcab这两个字符串。

  2. *
    ab*c表示字符b需要出现0次或者多次,或者换句话说,字符b可以出现任意多次。也就是说,ab*c相当于acabcabbcab……bc等多个字符串。

  3. +
    ab+c表示字符b需要出现1次或者多次,或者换句话说,字符b至少出现一次。也就是说,ab+c相当于abcabbcab……bc等多个字符串。
    注意ab*cab+c的细微区别。

  4. {}

  • {num}
    ab{3}c表示字符b需要出现3次,或者换句话说,字符b只能出现2次。也就是说,ab{2}c相当于abbc这一个字符串。

  • {num1,num2}
    ab{2,5}c表示字符b需要出现2或3或4或5次,也就是说,ab{2,5}c相当于abbcabbbcabbbbcabbbbbc这四个字符串。

  • {num,}
    ab{2,}c表示字符b需要出现2次及以上,也就说,ab{2,}c相当于abbcabbbcabbbbcab……bc等无数个字符串。

1.3 字符集

在正常情况下,上述的限定符只会对其前面的一个字符起作用。如果想要某个字符串作为一个组合,可以使用字符集。
(ab)+c表示字符串ab需要出现1次或者多次,或者换句话说,字符串ab至少出现一次。也就是说,(ab)+c相当于abcababcabababcab……abc等多个字符串。

1.4 运算符

  1. |
    a(b|d)c表示字符串b出现1次或者字符串d出现1次,也就是说,a(b|d)c相当于abcadc这两个字符串。

    a(boy|girl)c也同样适用,相当于aboyc或者agirlc这两个字符。

  2. []
    []表示匹配字符能选择的范围,成为字符类,例如,[abc]+只会匹配a\b\c这三个字母出现一次或多次的字符串,而一般更经常使用的是[a-zA-Z0-9]*表示由大小写字母和数字组成的字符串,[a-zA-Z0-9_]*表示由大小写字母、数字和下划线组成的字符串。

  3. ^
    ^表示取反字符类,也就是说,[^a-zA-Z0-9]*表示除了大小写字母、数字符号以外的其他字符出现一次或多次的字符串。

  4. \
    \.表示转置,把一些有特殊意义的字符转变为实际字符

  5. \b
    \b表示字符边界文章来源地址https://www.toymoban.com/news/detail-709924.html

1.5 元字符

  1. \d数字字符
    1. \D非数字字符
  2. \w单词字符,包括英文字母、数字、下划线
    1. \W非单词字符
  3. \s空白字符,包括空格、制表符、换行符
    1. \S非空白字符
  4. .任意字符,不包含换行符
  5. ^匹配字符串的开头,例如^a匹配行首的a
  6. $匹配字符串的结尾,例如x$匹配行尾的x

1.6 懒惰匹配和贪婪匹配

  1. 贪婪匹配
    默认匹配尽可能多的字符。
  2. 懒惰匹配
    例子:<.+>匹配<>之间的任意字符,而<.+?>则会使用懒惰匹配

到了这里,关于【python技巧】文本处理-re库字符匹配的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 深入了解字符串处理算法与文本操作技巧

    引言 字符串处理是计算机科学和数据处理的核心领域之一。本博客将深入介绍一些常见的字符串处理算法和文本操作技巧,包括字符串匹配、搜索、正则表达式、字符串操作和文本标准化等。 暴力匹配算法 什么是暴力匹配? 暴力匹配算法是一种最简单的字符串匹配方法,它

    2024年02月10日
    浏览(53)
  • Python 中的字符串匹配识别文本中的相似性

    更多Python学习内容:ipengtao.com 字符串匹配是自然语言处理(NLP)和文本处理中的一个重要任务,它可以识别文本之间的相似性、找到相同或相似的模式,以及进行文本分类和信息检索等应用。本文将深入探讨Python中的字符串匹配技术,包括基本的字符串比较方法、正则表达式

    2024年01月18日
    浏览(54)
  • 【网络安全带你练爬虫-100练】第10练:re的正则匹配、文件夹创建、图片下载

    目录 一、目标1:正则匹配图片的URL 二、目标2:创建文件夹 三、目标3:保存图片到test文件夹中  四、网络安全小圈子 URL位置 我们可以找到img都在这个标签里面     请求方法GET   提取URL位置 需要掌握的 目标标签如下: 需要提取的内容如下: (多加了一个为转义字

    2024年02月13日
    浏览(55)
  • 2.1 python文本处理-正则表达式

    标准库模块 re 模块方法 # 将正则表达式样式编译成一个正则对象。一般用于多次使用正则对象的场景 re.compile( pattern ) # 扫描string字符串并查找符合patten样式的第一个位置,返回对应的 Match 结果,否则返回 None re.search(patten, string) # 如果  string  开头的零个或多个字符与正则

    2024年02月01日
    浏览(58)
  • Python 正则表达式:强大的文本处理工具

    正则表达式是一种强大的文本匹配和处理工具,它可以用来在字符串中查找、替换和提取符合某种规则的内容。在Python中,使用re模块可以轻松地操作正则表达式,它提供了丰富的功能和灵活的语法。 正则表达式在许多场景中都非常有用。以下是一些常见的应用场景: 数据清

    2024年02月09日
    浏览(57)
  • 利用Re新增数据源dis实现向量相似度搜索:解决文本、图像和音频之间的相似度匹配问题

    最近工作中需要用到MongoDB的事务操作,因此参考了一些资料封装了一个小的组件,提供基础的CRUD Repository基类 和 UnitOfWork工作单元模式。今天,就来简单介绍一下这个小组件。 MongoDB在4.2版本开始全面支持了多文档事务,至今已过了四年了,虽然我们可能没有在项目中用Mon

    2024年01月23日
    浏览(44)
  • 正则表达式 (用于灵活匹配文本的表达式)

    目录 . * 用于匹配任意单个字符,除了换行符。 例如使用正则表达式 a.b, 它可以匹配aab、acb、a#b 用于匹配前一个字符零次或多次。 例如,使用正则表达式 ab*c ,它可以匹配 \\\"ac\\\"、\\\"abc\\\"、\\\"abbc\\\",因为 b* 表示匹配零个或多个字符 \\\"b\\\"。所以,这个表达式可以匹配 \\\"ac\\\"(零个 \\\"b\\\"),

    2024年01月16日
    浏览(64)
  • python re多行匹配

    如果你要多行匹配,那么需要加上 re.S 和 re.M 标志. 加上 re.S 后,  . 将会匹配换行符,默认 . 不会匹配换行符. 代码如下:  加上 re.M 后, ^$ 标志将会匹配每一行,默认 ^ 和 $ 只会匹配第一行. 代码如下:

    2023年04月08日
    浏览(36)
  • 正则表达式包含数字和字符匹配

    至少6位。 pattern : (?=. [0-9])(?=. [A-Za-z])[0-9A-Za-z]{6,} 正则表达式中的“?=”是一个正向预查字符,它的意思是匹配前一个字符出现的最少一次。具体来说,当一个匹配出现时,它会检查前一个字符是否符合要求,如果符合,则继续匹配下一个字符,否则停止匹配。

    2024年02月06日
    浏览(58)
  • Python字符串处理技巧大全

    1.字符串的连接和合并 连接和合并 相加 //两个字符串可以很方便的通过\\\'+\\\'连接起来 合并//用join方法 2.字符串的切片和相乘 相乘//比如写代码的时候要分隔符,用python很容易实现 line=\\\'*\\\'*30 print(line) 切片 3.字符串的分割 普通的分割,用split split只能做非常简单的分割,而且不支

    2023年04月14日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包