Python爬虫基础之正则表达式

这篇具有很好参考价值的文章主要介绍了Python爬虫基础之正则表达式。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

一、什么是正则表达式?

二、re.compile()编译函数

三、group()获取匹配结果函数

四、常用匹配规则

4.1匹配单个字符

4.2匹配前字符次数

4.3匹配原生字符串

4.4匹配字符串开头和结尾

4.5分组匹配

五、re.match()开头匹配函数

六、re.search()全文搜索函数

七、re.findall()查找所有函数

八、re.sub()与re.subn()查找替换函数

九、re.split()分割字符串函数 

十、贪婪模式和非贪婪模式


一、什么是正则表达式?

所谓的正则表达式其实就是一些特殊字符规则组合。通过这些字符规则组合开发者可以检索并替换出一些符合这种规则的字符串文本数据。

二、re.compile()编译函数

可以将包含有正则表达式的字符串编译成字节码。

优点:之前每次调用re.match( )函数匹配字符串时,python解释器就会为其频繁的申请和释放空间,用来保存其正则表达式字符串。而通过调用re.complie( )函数,解释器只需为包含有正则表达式的字符串申请一次内存空间就可以了,以后每使用此正则表达式匹配字符串时就可以直接拿来用,而无需重复频繁为其申请内存空间,从而在很大程度上提高运行效率。

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

三、group()获取匹配结果函数

groups( )方法的返回值是一个元组,元组中包含正则表达式内所有捕获组()检索到的字符串。

group()方法用来获取正则表达式检索到的字符串。一般在re.match( )的正则表达式实参中一个小括号就是一个捕获组。

用法:group( 捕获组0[,捕获组1][,捕获组2][......] )

0: 表示获取正则表达式检索到的源字符串结果,这也是默认值。

1: 表示获取正则表达式中第一个()检索到的字符串

2: 表示获取正则表达式中第二个()检索到的字符串

    以此类推........

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

 Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

四、常用匹配规则

4.1匹配单个字符

.(点):匹配任意一个字符,除了换行符'\n'。

[abc...]:匹配一个字符,此字符可以是a、b或c。也可以写成范围[a-z]。

\d:匹配一个数字,即0~9。

\D:匹配除数字外的任意一个字符。

\s:匹配一个空格,一个tab键相当于2个空格。

\S:匹配除空格或tab键之外的任意一个字符。

\w:匹配一个普通字符,即a-z、A-Z、0-9、_

\W:匹配一个非普通字符即特殊字符,如:空格、@、$等

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

运行结果:

 Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

 4.2匹配前字符次数

* :前一个字符可以匹配0次、1次或多次即任意次。直到不满足匹配规则返回之前匹配到的字符串。

+ :前一个字符必须至少匹配1次,否则匹配失败。

?:前一个字符最多匹配1次或者不匹配返回空字符。

{m} :前一个字符必须精确匹配m次。

{m,} :前一个字符至少匹配m次,直到不满足匹配规则结束。

{mix,max} :前一个字符必须匹配min~max次 即最少匹配min次,最多匹配max次;且不能为负数。

注意:以上字符需要与前一个字符配合使用即作用于前字符。

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

  4.3匹配原生字符串

在许多编程语言中"\"往往表示转义字符,如:\n表示换行、\t表示tab键;为了表示"\"本身需要再加一个\ ,形成”\\“格式。或者在字符串的前面加“r"字符:表示按肉眼看到的字符串原意检索。

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

4.4匹配字符串开头和结尾

^str  :表示字符串开头,即匹配以str开头的字符串

[^a]  :此时“^”表示取反,即匹配除字母a的任意一个字符

str$  :表示字符串结尾,即匹配字符串的结尾即检索的目标字符串必须以str结尾

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

4.5分组匹配

str1|str2  : 表示从左到右分别匹配str1或str2的正则字符串表达式。一旦有一方匹配成功则返回结果值。

(ab)  :表示将括号中正则表达式匹配到的结果作为一个分组。即在正则表达式参数中一个括号代表一个分组。

\num  : 表示引用正则表达式前面括号分组num匹配到的字符串。

(?P<name>) :表示给正则表达式的分组起别名。

(?P=name) :表示引用前面正则表达式分组别名name所匹配到的字符串。

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

五、re.match()开头匹配函数

re.match()函数只能匹配字符串的开头。如果要匹配的正则表达式字符串不在原字符串的开头则匹配不成功返回值None;匹配成功返回re.match类对象。

用法:re.match(pattern,string,flags)

pattern: 要匹配的正则表达式

string: 要检索的源字符串文本

flags:  标志位,用来控制正则表达式的匹配方式,如: re.I表示忽略大小写,re.M表示多行匹配,re.S使正则表达式中“.”的匹配包括换行符\n在内任意一个字符等等。

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

六、re.search()全文搜索函数

从全文中从前往后搜索指定字符串,一旦找到则立即返回搜索到的对象。

用法:re.search(pattern,dest, flags)

pattern:  正则表达式字符串

dest:  要对其搜索的文本字符串

flags:  标志位。re.I忽略大小写,re.M多行匹配

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

 说明:span=(14,19)表示匹配到的字符串在源文本中的下标位置,不包含19。

七、re.findall()查找所有函数

用法:re.findall(pattern,dest_str,flags)

pattern:  正则表达式字符串

dest_str:  要对其搜索的文本字符串

flags:  控制正则表达式匹配方式。re.I忽略大小写,re.M多行匹配

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

八、re.sub()与re.subn()查找替换函数

re.sub( )函数: 将文本字符串中正则表达式查找到的字符串替换为指定的字符串后并返回。

用法:re.sub(pattern,sub,dest_str,counts=0,flags)

pattern: 匹配模式即正则表达式

sub:  替换为的字符串

dest_str: 要替换的文本字符串

counts:  替换的最大次数,默认为0表示替换全部

flags:控制正则表达式匹配方式

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

 说明: re.subn( )函数与re.sub( )函数的功能一样。只不过在以元组的形式返回替换后的文本字符串时,还会包含原文被替换的字符串个数。

九、re.split()分割字符串函数 

以文本字符串中的某个字符作为分割符,实现对文本字符串的分割并以列表的形式返回分割后的文本字符串。

用法:re.split(pattern, dest_str, max_split, flags)

pattern:  分割符

dest_str:  要分割的文本字符串

max_split:  最大分割数。默认为0表示无限制

flags:  设置正则表达式匹配的方式。

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

十、贪婪模式和非贪婪模式

贪婪模式:在满足正则规则的情况下尽可能多的匹配字符

非贪婪模式: 在满足正则规则的情况下尽可能少的匹配字符

在python正则表达式的数量匹配字符中默认是贪婪模式,如果想将正则表达式的匹配变为非贪婪模式只需在数量匹配字符的后面加上?如:"*",“+”,“?”,{min,max}

Python爬虫基础之正则表达式,Python程序设计,爬虫,正则表达式,python,开发语言,pycharm,后端

@声明:“山月润无声”博主知识水平有限,以上文章如有不妥之处,欢迎广大IT爱好者指正,小弟定当虚心受教!文章来源地址https://www.toymoban.com/news/detail-685175.html

到了这里,关于Python爬虫基础之正则表达式的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python爬虫之正则表达式解析实战

    先获取网址,URL:https://www.xiachufang.com/category/40076/ 定位想要爬取的内容 使用正则表达式爬取 导入模块 指定URL UA伪装(模拟浏览器) 发起请求,获取当前页面的数据内容,并使用通用爬虫爬取整个页面 编译正则表达式(提取想要的内容) 解析请求内容 指定图片存储路径 持

    2024年02月08日
    浏览(40)
  • 【python】网络爬虫与信息提取--正则表达式

            正则表达式是用来简洁表达一组字符串的表达式。是通用的字符串表达框架,简洁表达一组字符串的表达式,针对字符串表达“简洁”和“特征”思想的工具,判断某字符串的特征归属。         用处:表达文本类型的特征;同时查找或替换一组字符串;匹配字符串

    2024年02月19日
    浏览(74)
  • 〖Python网络爬虫实战⑨〗- 正则表达式基本原理

    订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+                  python项目实战                 Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,

    2023年04月15日
    浏览(88)
  • python正则表达式-正则基础

    目录 一、任一元素 二、匹配特定的字符类别          1、d  w 三、多个元素          1、两位元素 [][]          2、* + ?          3、重复次数 {}          4、位置匹配 ^ $          5、子表达式()         []:1、[ab] 匹配a或b;        2、[0-9] 匹配任意一个数

    2024年02月05日
    浏览(44)
  • Python学习笔记_基础篇(八)_正则表达式

    1.1. 简单介绍 正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只

    2024年02月12日
    浏览(51)
  • 爬虫之正则表达式

    个人主页:Lei宝啊  愿所有美好如期而遇 概念: 正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),正则匹配是一个模糊的匹配(不是精确匹配) 如下四个方法经常使用: match() search() findall() finditer() 匹配单个字符或数字:  匹配 说明 . 匹配除换行符以外的任

    2024年02月20日
    浏览(55)
  • 正则表达式和爬虫

    目录 一、正则表达式:         作用: 字符类(只匹配一个字符)                 细节 预定义字符字符(只匹配一个字符)                 细节 数量词 二、爬虫         Pattern         Matcher                 要点说明                 1、校验字符串是否满足规则

    2024年01月17日
    浏览(45)
  • 006集 正则表达式 re 应用实例—python基础入门实例

    正则表达式指预先定义好一个 “ 字符串模板 ” ,通过这个 “ 字符串模 板” 可以匹配、查找和替换那些匹配 “ 字符串模板 ” 的字符串。 Python的中 re 模块,主要是用来处理正则表达式,还可以利用 re 模块通过正则表达式来进行网页数据的爬取和存储。 正则表达式的英文

    2024年02月01日
    浏览(57)
  • Python字符串验证与正则表达式【第23篇—python基础】

    随着Python在数据处理和字符串操作方面的广泛应用,对字符串进行验证以确保其仅包含字母变得愈发重要。在本文中,我们将深入探讨Python中多种方法,用于检查字符串是否只由字母组成,并且将关注这些方法的应用场景以及它们的优缺点。 在数据处理和文本挖掘中,对字符

    2024年01月17日
    浏览(96)
  • Python零基础入门(六)——超详细的字符串与正则表达式

    个人简介:机电专业在读研究生,CSDN内容合伙人,博主个人首页 Python入门专栏:《Python入门》欢迎阅读,一起进步!🌟🌟🌟 码字不易,如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!😊😊😊 欢迎来到本系列教程的第六篇,之前的文章已经介

    2024年02月13日
    浏览(73)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包