您现在的位置是：首页 > 数据库

当前栏目

使用“正则”实现不规则数据的中英文提取

数据产品

2023-03-20 14:40:38 时间

1、对于本文的说明

这篇文章，是帮一个群友回答的问题。他的需求是：对于中英文混合的行，只需要中文。对于全英文的行，返回整个英文行。对于全中文的行，返回整个中文行。

2、解答如下

import pandas as pd
import re


df = pd.read_excel(r"G:6Tipdm	est.xlsx")
display(df)

def func(x):
    if re.findall("[u4E00-u9FD5]+",x) == []:
        z = re.findall("[^u4E00-u9FD5,]+",x)
        z = "".join(z).strip()
        return z
    else:
        z = re.findall("[u4E00-u9FD5, ]+",x)
        z = "".join(z).strip()
        return z
    
df["aa"] = df["产品"].apply(func)
df

结果如下：

3、上述问题的扩展(中英文分开提取)

import pandas as pd
import re


df = pd.read_excel(r"G:6Tipdm	est.xlsx")
display(df)

def func(x):
    if re.findall("[u4E00-u9FD5]+",x) != []:
        z = re.findall("[^u4E00-u9FD5,]+",x)
        z = "".join(z).strip()
        return z
    elif re.findall("[u4E00-u9FD5]+",x) == []:
        z = re.findall("[^u4E00-u9FD5,]+",x)
        z = "".join(z).strip()
        return z
    else:
        return ""

def func2(x):
    if re.findall("[u4E00-u9FD5]+",x) != []:
        z = re.findall("[u4E00-u9FD5, ]+",x)
        z = "".join(z).strip()
        return z
    else:
        return ""

df["aa"] = df["产品"].apply(func)
df["bb"] = df["产品"].apply(func2)
df

结果如下：

猜你喜欢

多套环境的数据库隔离，域名访问，差异化配置，香！快解锁！
5个不常提及的HTML技巧
不加机器，如何抗住每天百亿级高并发流量？
字节二面，两个事务执行 SQL 语句的过程中，导致死锁
这个GitHub项目帮你从头开始学数据科学
明明加了唯一索引，为什么还是产生重复数据？
开发一套高容错分布式系统
Go 语言现状以及一些鲜为人知的事实
运营商数据库选型有哪些需求？
ChessBase “剽窃”开源国际象棋引擎 Stockfish
都2021年了，为什么想回看5分钟前写的代码就这么难
分布式系统中，级联故障是最可怕的
程序员如何掌握Bug生产之术？
历时1年，大型金融企业100%核心系统国产数据库迁移实践
推荐6个Github上超有意思的前端项目
8 月数据库排行榜：Oracle 分数大跌，MySQL 上涨最多
用VS Code直接浏览GitHub代码 | 12.1K星
SpringBoot自定义注解属性支持占位符$「x」
每一位程序员都应该学习的优秀代码
一篇文章就能学会的 Redis 的事务

zl程序教程

当前栏目

使用“正则”实现不规则数据的中英文提取

1、对于本文的说明

2、解答如下

3、上述问题的扩展(中英文分开提取)

相关文章