常用字符串处理方法汇总--Pandas

这篇具有很好参考价值的文章主要介绍了常用字符串处理方法汇总--Pandas。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

字符串处理只能在Series上进行,不可以在DataFrame上操作,只能对字符串进行处理,不能对整数、日期进行处理

1. 元素统计

1.1 str.count()

1.1.1 函数功能

统计Series中每个元素中包含pat的次数

1.1.2 函数语法

Series.str.count(pat, flags=0)

1.1.3 函数参数

参数 含义
pat 表达式
order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order)
print(order['订单编号'].str.count(pat='0'))

常用字符串处理方法汇总--Pandas,Pandas,pandas,python

1.2 str.len()

1.2.1 函数功能

统计Series中每个元素的长度

1.2.2 函数语法

Series.str.len()
print(order['支付方式'].str.len())

常用字符串处理方法汇总--Pandas,Pandas,pandas,python

2. 字符串内容判断

2.1 str.contains()

2.1.1 函数功能

检测Series或Index的每个元素中是否包含指定内容,返回结果为布尔值构成的Series或Index

2.1.2 函数语法

Series.str.contains(pat, case=True, flags=0, na=None, regex=True)

2.1.3 函数参数

参数 含义
pat 要查找的内容
case 布尔值,是否区分大小写,默认True:区分
flags 整数,默认值为0
na 标量,可选参数,对缺失值进行填充
regex 布尔值,默认值为True:以正则表达式看待pat中的内容,否则以普通字符串看待
order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order)
print(order['所属行业'].str.contains('计算机'))

常用字符串处理方法汇总--Pandas,Pandas,pandas,python

对缺失值以“unknown"填充

print(order['所属行业'].str.contains('计算机',na='unknown'))

常用字符串处理方法汇总--Pandas,Pandas,pandas,python

2.2 str.endswith()

2.2.1 函数功能

检测Series中的每个元素或索引是否以指定内容结尾,返回值为布尔值组成的Series或者Index

2.2.2 函数语法

Series.str.endswith(pat, na=None)

2.2.3 函数参数

参数 含义
pat 查找内容,可以是字符串或者字符串组成的元组,不接收正则表达式
na 缺失值返回内容,默认NaN
print(order['公司规模'].str.endswith('500人'))

常用字符串处理方法汇总--Pandas,Pandas,pandas,python
包含空字符串时,认为空字符串中不包含指定内容,设置na=False

order.loc[4,'公司规模']=np.nan
print(order)
print(order['公司规模'].str.endswith('500人',na=False))

常用字符串处理方法汇总--Pandas,Pandas,pandas,python

2.3 startswith()

2.3.1 函数功能

检测Series中的每个元素或索引是否以指定内容开始,返回值为布尔值组成的Series或者Index

2.3.2 函数语法

Series.str.startswith(pat, na=None)

2.3.3 函数参数

参数 含义
pat 查找内容,可以是字符串或者字符串组成的元组,不接收正则表达式
na 缺失值返回内容,默认NaN

2.4 str.match()

2.3.1 函数功能

检测Series中的每个元素或索引是否以指定内容开始,返回值为布尔值组成的Series或者Index

2.3.2 函数语法

Series.str.match(pat, na=None)

2.3.3 函数参数

参数 含义
pat 要查找的内容,格式为正则表达式
case 布尔值,是否区分大小写,默认True:区分
flags 整数,默认值为0
na 标量,可选参数,对缺失值进行填充

str.startwith()与str.match()都可以检测Serie或者Series的Index是否以指定内容开始,凡是str.match()支持正则表达式,适用范围更广。

3.字符串替换

3.1 str.replace()

3.1.1 函数功能

替换指定内容

3.1.2 函数语法

Series.str.replace(pat, repl, n=- 1, case=None, flags=0, regex=False)

3.1.3 函数参数

参数 含义
pat 要查找的内容,字符串或正则表达式
repl 要替换为的字符串或可迭代对象
n 整数,进行替换操作的数量,默认为-1:替换所有
case 布尔值,是否区分大小写,默认True:区分
flags 整数,默认值为0
regex 布尔值,传入的pat是否是正则表达式,默认取值为False:不是正则表达式
order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')
print(order.head())
print(order['获取日期'].str.replace('-', ''))
# 将\d+视为正则表达式而不是普通字符
print(order['职位id'].astype(str).str.replace('\d+', '职位', regex='True'))

常用字符串处理方法汇总--Pandas,Pandas,pandas,python
常用字符串处理方法汇总--Pandas,Pandas,pandas,python
常用字符串处理方法汇总--Pandas,Pandas,pandas,python

4. 字符串拼接

4.1 str.join()

4.1.1 函数功能

将Series或Index中的每个元素通过指定符号连接起来,当元素中有非字符串对象时,最终结果将为NaN

4.1.2 函数语法

Series.str.join(sep)[source]

4.1.3 函数参数

参数 含义
sep 连接符号
order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')

print(order.head())
print(order['学历要求'].str.join('*'))

常用字符串处理方法汇总--Pandas,Pandas,pandas,python

4.2 str.cat()

4.2.1 函数功能

用指定的分隔符连接Series或者Index中的元素。当指定others,将Series或者Index与others中的元素连接;否则将Series或者Index中的元素连接为一个字符串。

4.2.2 函数语法

Series.str.cat(others=None, sep=None, na_rep=None, join='left')

4.2.3 函数参数

参数 含义
others 取值为Series、Index、DataFrane、np.array或者list-like
sep 字符串,默认为:‘’:空字符串
na_rep 字符串或者None,默认为None,对缺失值的处理:当na_rep为None且当others没有时,连接结果将会忽略缺失值;如果na_rep为None,但是others有值,结果中将保留缺失值
join 决定Series或Index与others之间的连接方式,默认为left:左连接

others为None,将Series中的元素连接为一个字符串

order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')

print(order.head())
print(order['学历要求'].str.cat(sep='*'))

常用字符串处理方法汇总--Pandas,Pandas,pandas,python

others存在,将Series与others中的值对应连接

print(order['学历要求'].str.cat(others=order['公司规模'], sep='*'))

常用字符串处理方法汇总--Pandas,Pandas,pandas,python
有others参数

print(order['学历要求'].str.cat(others=['学生']*len(order),sep='*'))

order:
常用字符串处理方法汇总--Pandas,Pandas,pandas,python

常用字符串处理方法汇总--Pandas,Pandas,pandas,python

5. 字符串查找:返回索引

5.1 str.find()

5.1 函数功能

查找指定字符串,返回第一次出现的索引,没有找到则返回-1

5.2 函数语法

Series.str.find(sub, start=0, end=None)

5.3 函数参数

参数 含义
sub 要查找的字符串
start 开始查找的位置
end 结束查找的位置
order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\order.xlsx')

print(order)
print([order['职位名称'].str.find('开发')])

常用字符串处理方法汇总--Pandas,Pandas,pandas,python
常用字符串处理方法汇总--Pandas,Pandas,pandas,python

print([order['职位名称'].str.find('开发',start=5)])

常用字符串处理方法汇总--Pandas,Pandas,pandas,python

5.2 str.findall()

5.2.1 函数功能

返回子字符串的列表

5.2.2 函数语法

Series.str.findall(pat, flags=0)

5.2.3 函数参数

参数 含义
pat 要匹配的字符串或正则表达式
flags 正则表达式标志
print([order['职位名称'].str.findall('开发工程师')])

常用字符串处理方法汇总--Pandas,Pandas,pandas,python

6. 指定字符串删除

6.1 str.strip()

6.1.1 函数功能

删除Series中每个字符串两边的空格(\t)和换行符(\n),也可以指定删除的字符串

6.1.2 函数语法

Series.str.strip(to_strip=None)

6.1.3 函数参数

参数 含义
to_strip 指定要去掉的字符串集合,集合中的所有字符串组成的集合都将被去除
order = pd.read_excel('C:\\Users\\changyanhua\\Desktop\\stp.xlsx')

print(order)
print([order['dishes_name'].str.strip()])

常用字符串处理方法汇总--Pandas,Pandas,pandas,python
常用字符串处理方法汇总--Pandas,Pandas,pandas,python
类似的还有str.lstrip():删除左边的指定字符;str.rstrip():删除右边的指定字符文章来源地址https://www.toymoban.com/news/detail-531163.html

到了这里,关于常用字符串处理方法汇总--Pandas的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Pandas实战100例 | 案例 16: 字符串操作 - 分割和转换

    案例 16: 字符串操作 - 分割和转换 知识点讲解 Pandas 提供了丰富的字符串操作功能,这些功能很大程度上类似于 Python 原生的字符串方法。你可以对 DataFrame 或 Series 中的字符串进行分割、转换、替换等操作。这些操作在处理文本数据时非常有用。 字符串分割 : 使用 split 方法分

    2024年02月02日
    浏览(46)
  • Pandas中的字符串和时间转换与格式化

    Pandas 提供了若干个函数来格式化时间。 其中,最常用的是 to_datetime() 函数。 可以使用 to_datetime() 函数将一个字符串解析为时间,并指定字符串的格式。例如: 输出: 还可以使用 strftime() 函数将时间格式化为字符串。例如: 输出: 如果想要格式化某一列中的时间,可以使用

    2024年02月04日
    浏览(43)
  • 55_Pandas.DataFrame 转换为 JSON 字符串/文件并保存 (to_json)

    使用pandas.DataFrame的方法to_json(),可以将pandas.DataFrame转为JSON格式字符串(str类型)或者输出(保存)为JSON格式文件。 在此,对以下内容进行说明。有关其他参数,请参阅上面的官方文档。 pandas.DataFrame.to_json() 的基本用法 转换为JSON格式字符串 输出(保存)为JSON格式文件 文

    2024年02月15日
    浏览(35)
  • 【Java练习题汇总】《第一行代码JAVA》Java常用类库篇,汇总Java练习题——Optional类、包装类、可变字符串支持类、Runtime类、System类、数学运算类、日期时间处理...

    一、填空题 在 java.lang 包中提供了两个字符串类,分别是________ 和________ 。这两个类都是________ 接口的子类,字符串类提供的求字符串长度的方法是________________ 。 Java 提供的两个大数操作类是________ 和________ 。 对象克隆方法是________ 类提供的,方法名称是________________ ,对

    2024年02月16日
    浏览(51)
  • 【数据处理】Pandas读取CSV文件示例及常用方法(入门)

    查看读取前10行数据 2067 向前填充 指定列的插值填充 使用某数据填充指定列的空值 示例: 类似切片 array([‘SE’, ‘cv’, ‘NW’, ‘NE’], dtype=object) 类似数据库查询中的groupby查询 先添加新的一列按月将数据划分 聚合,对指定的列按月划分求平均值等 min 最小值 max 最大值 sum

    2024年02月06日
    浏览(204)
  • JavaScript字符串常用方法

    ●我们操作字符串,也有一堆的方法来帮助我们操作 ●字符串和数组有一个一样的地方,也是按照索引来排列的 ●注意:所有字符串常用方法, 都不会改变原始字符串, 都是以返回值的形式出现结果 ●作用:charAt() 是找到字符串中指定索引位置的内容返回 ●语法:字符串.

    2024年02月17日
    浏览(49)
  • 10 种常用的字符串方法

    字符串拼接 判断字符串中是否包含指定值,返回布尔值 判断字符串中是否包含指定值,返回符合的第一个值的下标,没有返回-1 从右到左 判断字符串中是否包含指定值,返回符合的第一个值的下标,没有返回-1 将字符串复制几份 替换字符串内元素,可以直接传值,也可以传

    2024年02月09日
    浏览(39)
  • spark-sql处理json字符串的常用函数

    整理了spark-sql处理json字符串的几个函数: 1 get_json_object 解析不含数组的 json   2 from_json  解析json 3 schema_of_json 提供生成json格式的方法 4 explode   把JSONArray转为多行 get_json_object(string json_string, string path) :适合最外层为{}的json解析。  第一个参数是json对象变量,也就是含j

    2023年04月08日
    浏览(41)
  • 字符串输入的2种常用方法详解

    这种方法可以输入字符串, 但是只能输入一个词,遇到空格就结束了。 ,空格之后的字符,会留在缓冲区,等待下次读入。 如果我们要使用scanf函数来输入的话,有没有办法呢? 答案:有的。 除了转换修饰符 s 以外,也可以 使用“扫描集”(scanset)修饰符来读取字符串

    2024年02月04日
    浏览(27)
  • String字符串,FastJson常用操作方法

    1、创建配置环境 注意 测试的时候需要更改一下idea的设置 2、FastJson简介 3、 序列化 测试 JSON.toJSONString(序列化java对象) 4、 反序列化 5、枚举介绍 6、JSONField注解的使用 1、注解 2、作用于字段上面 3、格式化日期时间 4、指定字段不序列化 5、指定字段顺序 6、自定义序列化内容

    2024年02月21日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包