您现在的位置是：首页 > 后端

当前栏目

python 正则过滤中文、英文、数字、特殊字符demo

Python 中文数字 Demo 过滤正则英文特殊字符

2023-09-11 14:17:14 时间

一般情况下，模型不能百分百实现完成功能情况下，需要采用特定trick二次升级，正则是一个重要的手段，之前也有总结，现将最近完成测试代码总结如下，希望能够帮到你解决问题。

import re
# 匹配中文
CN_PATTERN = re.compile(u'[\u4e00-\u9fa5]')
# 匹配英文和数字
NUM_PATTERN = re.compile(r'[A-Za-z0-9]+')
# 匹配关键词
KEYWORDS_PATTERN = re.compile(r'新疆大学|世界|外汇|中国')
# 特殊自负
SPECIAL_CHAR_PATTERN = re.compile(r'[’!"#$%&\'()*+,-./:;<=>?@，。?★、…【】《》？“”‘’！\[\\\]^_`{|}~]+')
def regular_fun(s):
    cn = CN_PATTERN.findall(s)
    num = NUM_PATTERN.findall(s)
    words = KEYWORDS_PATTERN.findall(s)
    print(cn, num, words)

if __name__ == '__main__':
    t1 = r'this boy chincese name, NLPer, 18 years old'
    t2 = r'当前测试数据全是中文'
    t3 = r'current data is all english!'
    t4 = r'ddddddddddddddddddddddddddddddddddddddddddddddddddddddddd这是一个对用户预填垃圾信息过滤方案'
    t5 = r'新疆大学（Xinjiang University），简称“新大”，位于新疆维吾尔自治区首府乌鲁木齐，是世界一流大学建设高校（B类）'
    t6 = r'%^&&*^*(^&*(%&%$#$@#%^#'
    regular_fun(t1)
    regular_fun(t2)
    regular_fun(t3)
    regular_fun(t4)
    regular_fun(t5)
    regular_fun(t6)
    print(SPECIAL_CHAR_PATTERN.findall(t3))

这里强调一点，对于关键词的应用大家不要小看了，合理的应用会给精度、用户体验等都带来提升。不要怕关键词多，同时对于关键词归类、排序等（对于有序的数值，查找起来是不是会效率更高？同理），借鉴阿里文娱一张图说明下：

猜你喜欢

开源语音代码eSpeak1.06 的移植到单片机的过程（二）之分析下speak.c 文件
操作系统篇 ———— 开篇[一]
WebCollector- Java 经典爬虫-教程
SAP 电商云 Spartacus UI quick order 搜索结果的索引设置实现
Android：启动页设置以及动态权限跳转
刷题记录:牛客NC16416逛公园
从0开始安装fedora23的笔记-- 以及使用fedora的常规问题-3
Oracle，跳出游标循环
2013网易实习生数据挖掘工程师
【Tensorflow+Keras】tf.keras.backend.image_data_format()的解析与举例使用
ZZNUOJ_C语言1015 : 二次方程的实根(完整代码)
LabVIEW获取Clamp函数找到的所有点的信息
描述J2EE框架的多层结构，并简要说明各层的作用。
WebRTC的拥塞控制和带宽策略
COM编程之五动静态链接
[Android Pro] RecyclerView实现瀑布流效果（二）
css 如何绘制正方形

相关主题

Python 中文编码
安装Python 3.5
python打包成exe
python指令
11.python线程
python中文处理
h5 Python_python做h5网站

zl程序教程

当前栏目

python 正则过滤中文、英文、数字、特殊字符demo

相关文章