您现在的位置是：首页 > 后端

当前栏目

python通过正则匹配开头和结尾提取中间字符串内容

Python 字符串通过内容匹配提取正则中间

2023-09-27 14:29:08 时间

一、提取包含始末字符
1、起始字符串固定

a = re.findall('起始字符串.*结束字符串',str)

2、起始字符串不固定（即从首字符串提取到固定的字符串结束），用^指定从首字符串开始

a = re.findall('^.*结束字符串',str)

二、不包含始末字符串

#方法1
a = re.findall('(?<=始字符串).*?(?=末字符串)',str)
#方法2
a = re.findall('始字符串(.*?)末字符串',str)

在 re.findall()的方法中 '始字符串.末字符串’ 可以匹配到相同的值直到最后一个值；如果参数为 '始字符串.?末字符串’则只匹配到第一个值。
其实使用.*和.+都能提取特定始末字符串中间的内容，下面顺便说下两者的区别。
三、.*和.+正则提取的区别
.：匹配任意字符
*：匹配0个或多个字符
?：非贪婪模式，在符合的条件下，尽可能少的匹配(尽可能短的匹配)

str2 = "aabab"
a = re.findall('a.*?b',str2)    #结果：['aab', 'ab']
b = re.findall('a.+?b',str2)    #结果：['aab']

.?：匹配aab和ab ，因为可以匹配0个字符，所以可以匹配得到ab
.+?：匹配aab，因为+必须a和b中间至少有一个字符，所以排除了ab

四、起始有无^的区别

str2 = "aabab"
c = re.findall('.*',str2)    #结果：['aabab', '']
d = re.findall('^.*',str2)    #结果：['aabab']

五、pandas对具体列的内容通过正则表达式进行数据提取
使用前要确保该列的类型统一，str或者float格式，最好事先通过astype强制转换一下

df[‘新列名’]=df[‘提取的列名’].str.extract(‘正则表达式’, expand = True)

参考文章：

https://www.cnblogs.com/ZhangHT97/p/13427325.html
https://www.cnblogs.com/YouJeffrey/p/15209895.html
https://blog.csdn.net/dudu3332/article/details/111555572

猜你喜欢

500道BAT大厂面试题，限时领取...
vasp
《单元测试的艺术(第2版)》
Excel知识技能汇总
ATM病毒软件Skimer杀回危险程度升级
kafka 系统日志定时清理
关于大数据的十个有力事实
Java 常用工具
react-native 扫一扫功能（二维码扫描）功能开发
软件开发具体执行者注意事项
SQL on Hadoop 的真相（2）
LeetCode: Linked List Cycle [141]
2014阿里巴巴测试开发工程师面试经验（内推-电话面试）
一、动词、名词、形容词汇位置
欧盟竞争专员暗示：更多美国科技巨头或需补税

相关主题

Python_day2
python self
python的一些库
h5 Python_python做h5网站
Python学习--22 异步I/O
学python容易吗
python gis库
python切片操作

zl程序教程

当前栏目

python通过正则匹配开头和结尾提取中间字符串内容

相关文章