python 正则过滤中文、英文、数字、特殊字符demo
2023-09-11 14:17:14 时间
一般情况下,模型不能百分百实现完成功能情况下,需要采用特定trick二次升级,正则是一个重要的手段,之前也有总结,现将最近完成测试代码总结如下,希望能够帮到你解决问题。
import re # 匹配中文 CN_PATTERN = re.compile(u'[\u4e00-\u9fa5]') # 匹配英文和数字 NUM_PATTERN = re.compile(r'[A-Za-z0-9]+') # 匹配关键词 KEYWORDS_PATTERN = re.compile(r'新疆大学|世界|外汇|中国') # 特殊自负 SPECIAL_CHAR_PATTERN = re.compile(r'[’!"#$%&\'()*+,-./:;<=>?@,。?★、…【】《》?“”‘’!\[\\\]^_`{|}~]+') def regular_fun(s): cn = CN_PATTERN.findall(s) num = NUM_PATTERN.findall(s) words = KEYWORDS_PATTERN.findall(s) print(cn, num, words) if __name__ == '__main__': t1 = r'this boy chincese name, NLPer, 18 years old' t2 = r'当前测试数据全是中文' t3 = r'current data is all english!' t4 = r'ddddddddddddddddddddddddddddddddddddddddddddddddddddddddd这是一个对用户预填垃圾信息过滤方案' t5 = r'新疆大学(Xinjiang University),简称“新大”,位于新疆维吾尔自治区首府乌鲁木齐,是世界一流大学建设高校(B类)' t6 = r'%^&&*^*(^&*(%&%$#$@#%^#' regular_fun(t1) regular_fun(t2) regular_fun(t3) regular_fun(t4) regular_fun(t5) regular_fun(t6) print(SPECIAL_CHAR_PATTERN.findall(t3))
这里强调一点,对于关键词的应用大家不要小看了,合理的应用会给精度、用户体验等都带来提升。不要怕关键词多,同时对于关键词归类、排序等(对于有序的数值,查找起来是不是会效率更高?同理),借鉴阿里文娱一张图说明下:
相关文章
- 【Python】python 多线程两种实现方式
- python实现windows桌面截图
- python: easyocr的安装和使用(easyocr 1.6.2 / Python 3.7.15 )
- python:ERROR: No matching distribution found for Pillow==9.1.0的处理(Python 3.6.8)
- python django设置中文及时区
- Python爬虫开发:url中文字符编码的两种解决方式
- paip.日志中文编码原理问题本质解决python
- python程序员都在用到5个酷毙的Python工具
- Python的IDE:基于Eclipse/MyEclipse软件的PyDev插件配置python的开发环境(不同python项目加载不同版本的python)—从而实现Python编程图文教程之详细攻略
- Python:利用python语言实现18位身份证号码和15位身份证号码相互转换
- Python编程语言学习:python语言中快速查询python自带模块&函数的用法及其属性方法、如何查询某个函数&关键词的用法、输出一个类或者实例化对象的所有属性和方法名之详细攻略
- Python:利用python语言实现18位身份证号码和15位身份证号码相互转换
- Python之tkinter:动态演示调用python库的tkinter带你进入GUI世界(Canvas)
- Python之多线程:python多线程设计之同时执行多个函数命令详细攻略
- Python之API:基于python语言调用华为云API(华为网站)实现特定功能
- Python制作某火爆游戏资料查询助手
- 【LeetCode Python实现】43. 字符串相乘(中等)
- Python编程:shelve模块-持久化python数据
- Python Missing parentheses in call to 'print'
- python基础===pendulum '''Python datetimes made easy.'''
- python基础===jieba模块,Python 中文分词组件
- python基础===利用PyCharm进行Python远程调试(转)
- python实战===生成随机数
- 【Python基础】python爬虫之异步网络爬虫ǃ
- python中运行scvi整合数据去除批次效应时 gpu可以加速为何GPU可以用于加速人工智能或者机器学习的计算速度(并行计算能力)