正则表达式入门(六)匹配unicode和其他字符
2023-09-11 14:15:02 时间
匹配unicode字符
有时候我们需要匹配ASCII范围之外的字符。
"Qu’est-ce que la tolérance? c’est l’apanage de l’humanité. Nous sommes tous pétris de faiblesses et d’erreurs; pardonnons-nous réciproquement nos sottises, c’est la première loi de la nature." —Voltaire (1694–1778)
What is tolerance? It is the consequence of humanity. We are all formed of frailty and error;let us pardon reciprocally each other's folly--that is the first law of nature.
我们将伏尔泰的名言输入到http://www.regexpal.com/中,然后输入正则表达式
\u00e9
\u之后跟着的十六进制值00e9,这里不区分大小写,00E9也可以,00E9对接十进制值233,在ASCII(0~127)之外。
注意在Regexpal中字母é,即小写e加上了一个重音符,被标亮了,这是因为在unicode中é就是U+00E9,所以\u00e9可以匹配到它。
Regexpal.com是javascript的正则表达式实现。javascript也允许使用以下语法实现:
\xe9
现在我们在其他正则引擎中试一下。http://regexhero.net/tester/是.NET编写的。
古池 蛙飛び込む 水の音 —芭蕉 (1644–1694) At the ancient pond a frog plunges into the sound of water. —Basho (1644–1694)
以上是日本诗人松尾芭蕉的俳句。
将其输入regexhero,然后输入正则
\u6c60
这是单词pond池塘所对应的日文字符的代码点。
另外,也可以匹配一下长破折号
\u2014
或短破折号
\u2013
用八进制数匹配字符
在正则中,用八进制数就是在反斜线后加三位数字。
比如
\351
等同于
\u00e9
匹配控制字符
代码库的ASCII.txt里是所有ASCII字符,一个字符一行,一共128行。
在正则表达式中,像这样来指定一个控制字符:
\cx
其中x就是你想匹配的控制字符
匹配unicode和其他字符
相关文章
- Excel如何快速去除某个符号后面的所有字符
- Python基础之:struct和格式化字符
- string方法 PadLeft 返回一个新字符串,该字符串通过在此实例中的字符左侧填充指定的 Unicode 字符来达到指定的总长度,从而使这些字符右对齐。 PadRight 右边
- 正则表达式,删除空行,删除特定字符所在行
- 132 python高级 - 正则表达式(表示字符)
- C#,入门教程(13)——字符(char)及字符串(string)的基础知识
- RDS for MySQL 字符序(collation)引发的性能问题
- 网络安全——基于联合查询的POST字符注入
- fgetc, fgets, getc, getchar, gets, ungetc - 输入字符和字符串
- sql查询之字符函数
- mysql—将字符型数字转成数值型数字
- vue怎么引入echats并使用 (柱状图 字符云)
- 浅析为什么使用正则RegExp.test( )方法时第一次是true第二次却是false(产生原因、lastIndex属性介绍、解决方案-去掉全局匹配、重置lastIndex属性、使用match替换test)、正则表达式匹配任意字符、语法错误Uncaught SyntaxError: Invalid regular expression-Nothing to repeat的原因
- 浅析正则表达式用法:匹配字符,数量,边界
- Java中的字节流和字符流如何理解——精简
- 字符串 字符数组, pcha string 之间的相互转化, 很重要。 很蛋疼
- 【历史上的今天】11 月 7 日:图灵奖女性得主诞生;Twitter 告别 140 字符时代;首位中国 AI 主播
- 正则表达式匹配任意字符(包括换行符)的写法