Python 文件介绍和正则表达式

这篇具有很好参考价值的文章主要介绍了Python 文件介绍和正则表达式。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Python 文件和正则表达式

文件

打开文件

      open 函数用来打开文件,常用模式有:

  1. “r”:以只读方式打开文件。文件指针将会放在文件的开头。如果文件不存在,则报错。此种为打开文件的默认模式

  2. “w”:以写入方式打开文件,清空文件内容并从头编辑;同时该文件不存在还会自动创建文件

  3. “a”:以写入方式打开文件,文件指针放在文件末尾;同时该文件不存在还会自动创建文件

  4. “r+”:以读写方式打开文件。文件指针将会放在文件的开头。如果文件不存在,则报错。

  5. “w+”:以读写方式打开文件,清空文件内容并从头编辑;同时该文件不存在还会自动创建文件

  6. “a”:以读写方式打开文件,文件指针放在文件末尾;同时该文件不存在还会自动创建文件

读取文件

直接读取 read():
fileName=r"./abc/test.txt"
with open(fileName,"r") as fileTxt:
    contents=fileTxt.read()
    print(contents)
    # print(contents.rstrp())  删除尾部空行

      文件路径:在 linux 中采用 / 来分隔, 在 windows 中采用 \ 来分隔,但是 \ 是一个转移字符,需要再采用一个 \ 来进行转义(“C:\\abc\\test.txt”),但在 python 中采用 r 标识一个字符串为一个原生字符串,不会对其中的转义字符进行转义(r"C:\abc\test.txt“)。稳妥起见,在 linux 的路径前也添加上 r。

      其中 with 关键字能够在不需要访问文件时,将文件自动关闭,既不需要调用 close() 方法了。当程序出现 bug 无法执行 close() 时,未能妥善地关闭文件可能会导致数据丢失或受损,而这是采用 with 关键字的一个重要原因。

      read() 用来读取文件,它将文件的全部内容当作一个长字符串保存在变量中。但是由于 read() 在 print 的时候会在末尾多打印一个空行,这是因为 read() 到达文件尾时返回一个空字符串,而这个空字符串显示出来就是一个空行,此时可以通过 rstrip() 来删除。

逐行读取
采用 for 循环:
fileName=r"./abc/test.txt"
with open(fileName,"r") as fileTxt:
    for line in fileTxt:
        print(line)
        # print(line.rstrip())    删除多余空行

      上面示例打印的时候也会多出一个空白行,这是因为在每行末尾都有一个换行符存在,而 print 本身也会加上一个换行符,所以就有了两个换行符啦,此时也需要通过 rstrip() 来消除这些多余的换行符。

采用 readlines():

      在采用 with 关键字时,open 打开的文件对象只能在 with 代码块中可用。这有时候就不太方便了。而通过 readlines(),它从文件中读取每一行内容,并将它们存储在一个列表中,这个列表变量在之后的程序中可以被随时使用。

fileName=r"./abc/test.txt"
with open(fileName,"r") as fileTxt:
    lines=fileTxt.readlines()

for line in lines:
    print(line.rstrip())

正则表达式

匹配规则

单个字符:

  1. \d :匹配数字,即 0-9       如:'00\d'可以匹配'007',但无法匹配'00A'

  2. \D :匹配非数字,即不是数字

  3. \w :匹配非特殊字符,即a-z、A-Z、0-9、汉字,常用的用来匹配字母和数字

  4. \W :匹配特殊字符,即非字母、非数字、非汉字

  5. . :匹配任意一个任意字符(除了\n)

  6. \s :匹配一个空白字符,即空格,tab键

  7. \S :匹配非空白字符

变长字符:

  1. *:表示任意个字符(包括0个)       \d* 表示任意个数字

  2. +:表示至少一个字符       \s+ 表示至少一个空白字符 \d+ …

  3. ?:表示0个或1个字符

  4. {n}:表示n个字符       \d{3}表示匹配3个数字,例如'010'

  5. {n,m}:表示 n-m 个字符       \d{3,8}表示3-8个数字,例如'1234567'

  6. [] :匹配 [ ] 中列举的字符,常用来精确匹配,举例如下:

  • [0-9a-zA-Z\_]可以匹配一个数字、字母或者下划线(_是特殊字符,需要转义)

  • [0-9a-zA-Z\_]+可以匹配至少由一个数字、字母或者下划线组成的字符串,比如'a100''0_Z''Py3000'等等

  • [a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下划线开头,后接任意个由一个数字、字母或者下划线组成的字符串,也就是 Python 合法的变量

  • [a-zA-Z\_][0-9a-zA-Z\_]{0, 19}匹配的变量长度是1-20个字符(前面1个,后面[0,19])

其他字符

  1. ^表示行的开头,^\d表示必须以数字开头。

  2. $表示行的结束,\d$表示必须以数字结束。

  3. A|B可以匹配A或B,所以(P|p)ython可以匹配'Python'或者'python'

      py也可以匹配'python',但是加上^py$就变成了整行匹配,就只能匹配'py'了。

re 模块

match 方法:

      从字符串的起始位置开始匹配,如果匹配成功,就返回第一个对象。:

import re
m=re.match(r"^\d{3}[a-zA-Z]$","897y")
if(m):
    print("ok")
else:
    print("failed")

      上例匹配一个三个数字开头一个字母结尾的字符串,采用了 match 方法,如果匹配成功,返回第一个 Match 对象,否则返回 None。


search 方法

      工作方式与 match 类似,只是 search 从字符串的任意位置开始匹配,并返回第一个匹配的 Match 对象。区别在于:

n = re.search(r"bat|bae","eabat")  # 能找到 bat
n = re.match(r"bat|bae","eabat")  # 不能找到
group 方法

      通过在正则表达式中使用小括号(),来对匹配到的数据进行分组,然后通过group([n]) 和 groups()获取对应的分组数据。值得一提的是,group() 是 Match 类中的方法,其他的方法还包括 groups(),start(),end(),span() ,这些方法都是用于从匹配的字符串中(或者说是从 Match对象中)获取相关信息。

import re

m = re.match(r"([0-9]*)([a-z]*)([0-9]*)","123abc456")
print(m.group())        # 输出匹配的完整字符串:123abc456
print(m.group(0))        # 输出匹配的完整字符串:123abc456
print(m.group(1))        # 从匹配的字符串中获取第一个分组:123
print(m.group(2))        # 从匹配的字符串中获取第二个分组:abc
print(m.group(3))        # 从匹配的字符串中获取第三个分组:456
split 方法

      使用分隔符将字符串进行切割,将被切割后的子串以列表的形式返回。

      正常的采用空格分隔字符串的 split() 示例如下:

str="a b c"
s=str.split(" ")      # 返回 [”a”, ”b”, ”c”]

      采用正则表达式的 split 方法如下:它的功能更加强大

import re

s=re.split(r"\s+", "a b   c")  # 返回 [”a”, ”b”, ”c”]
s=re.split(r"[\s\,]+", "a,b, c  d")  # 返回 [”a”, ”b”, ”c”, ”d”]
s=re.split(r"[\s\,\;]+", "a,b;; c  d")  # 返回 [”a”, ”b”, ”c”, ”d”]
s = pattern.split(r"\d+", "abc23de3fgh") # 返回 [”abc”, ”de”, ”fgh”]

#分隔符加上小括号之后,返回的字符串列表会保留分隔符
s = pattern.split(r"(\d+)", "abc23de3fgh") 
# 返回 [“abc“, “23“, “de“, “3“, “fgh“]
编译:compile 方法

      在 Python 中使用正则表达式时,re 模块内部会干两件事情:

  1. 编译正则表达式,如果正则表达式的字符串本身不合法,会报错;

  2. 用编译后的正则表达式去匹配字符串。

      如果一个正则表达式需要使用多次,出于效率的考虑,我们可以先预编译该正则表达式,这样后面直接使用就好啦。示例如下:

import re
reObj = re.compile(r"^(\d{3})-(\d{3,8})$")
s=reObj.match("010-45263")
print(s.group())   # 010-45263

      编译后生成 Regular Expression 对象,由于该对象自己包含了正则表达式,所以调用对应的方法时不用给出正则字符串。


其他方法的使用可参考:python字符串_Python字符串匹配6种方法的使用文章来源地址https://www.toymoban.com/news/detail-732197.html

到了这里,关于Python 文件介绍和正则表达式的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python正则表达式之学习正则表达式三步曲

            正则表达式描述了一种字符串匹配的模式,可以用来检查一个串的有无某子串,或者做子串匹配替换,取出子串等操作。也可以说正则表达式就是字符串的匹配规则,也可以理解为是一种模糊匹配,匹配满足正则条件的字符串。         1、数据验证(eg:表单验

    2024年02月15日
    浏览(61)
  • python正则表达式-正则基础

    目录 一、任一元素 二、匹配特定的字符类别          1、d  w 三、多个元素          1、两位元素 [][]          2、* + ?          3、重复次数 {}          4、位置匹配 ^ $          5、子表达式()         []:1、[ab] 匹配a或b;        2、[0-9] 匹配任意一个数

    2024年02月05日
    浏览(45)
  • 老夫的正则表达式大成了,桀桀桀桀!!!【Python 正则表达式笔记】

    特殊字符 .^$?+*{}[]()| 为特殊字符,若想要使用字面值,必须使用 进行转义 字符类 [] [] 匹配包含在方括号中的任何字符。它也可以指定范围,例: [a-zA-Z0-9] 表示a到z,A到Z,0到9之间的任何一个字符 [u4e00-u9fa5] 匹配 Unicode 中文 [^x00-xff] 匹配双字节字符(包括中文) 在 [] 中

    2024年02月04日
    浏览(58)
  • python 正则表达式

    2024年01月17日
    浏览(55)
  • PYthon正则表达式

    正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则

    2024年01月17日
    浏览(45)
  • 机器学习与数据科学-专题1 Python正则表达式-【正则表达式入门-1】

    为了完成本关任务,你需要掌握: 在 Python 中使用正则表达式; 最基础正则表达式; 正则匹配函数。 在 Python 中使用正则表达式 正可谓人生苦短,我用 Python。Python 有个特点就是库非常多,自然拥有正则匹配这种常见的库,并且此库已经嵌入在 Python 标准库中,使用起来非常

    2024年01月22日
    浏览(58)
  • Python正则表达式(小结)

    正则表达式(regular expression,有时简写为RegEx 或 regex)就是用一组由字母和符号组成的“表达式”来描述一个特征,然后去验证另一个“字符串”是否符合/匹配这个特征。 (1)验证字符串是否符合指定特征,比如验证邮件地址是否符合特定要求等; (2)用来查找字符串,

    2024年02月05日
    浏览(42)
  • python之正则表达式

    目录 正则表达式 python正则表达式方法  match search findall finditer compile 元字符匹配 元字符 量词 贪婪匹配和惰性匹配 正则表达式的group 语法 案例  正则表达式又称规则表达式,是使用单个字符串来描述、匹配某个句法规则的字符串,常被用来检索、替换那些符合某个模式的文

    2024年02月14日
    浏览(44)
  • Python 正则表达式转义

    这篇文章是关于 Python 正则表达式转义的。 此外,我们将介绍 Python 正则表达式转义以及如何通过适当的示例代码使用它,以及 Python 正则表达式的多种用途。 此外,Python 支持使用正则表达式(或正则表达式)对字符串进行搜索和替换操作。 RegEx 是一种根据预定义模式匹配文

    2024年02月09日
    浏览(38)
  • 速通Python正则表达式

    几乎所有语言中的正则表达式都有相类似的语法,python亦莫能外。 接下来直观地看一下最常用的的三大函数 其中, re.match 要求从头匹配; search 可以从任意位置匹配,但只返回第一个匹配的值的位置; findall 返回所有符合要求的值。 任意字符 . 匹配除了换行符之外的所有字

    2024年02月06日
    浏览(46)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包