zl程序教程

您现在的位置是:首页 >  前端

当前栏目

POSIX风格和兼容Perl风格两种正则表达式主要函数的类比(preg_match,preg_replace,ereg,ereg_replace)

正则表达式 函数 两种 兼容 主要 Perl 风格 replace
2023-06-13 09:14:24 时间
首先来看看POSIX风格正则表达式的两个主要函数:

ereg函数:(正则表达式匹配)

格式:intereg(stringpattern,stringstring[,array&regs])
注意:使用Perl兼容正则表达式语法的preg_match()函数通常是比ereg()更快的替代方案。(一般的话还是使用preg_match(),比较好勒~~)

以区分大小写的方式在string中寻找与给定的正则表达式pattern所匹配的子串。如果找到与pattern中圆括号内的子模式相匹配的子串并且函数调用给出了第三个参数regs,则匹配项将被存入regs数组中。$regs[1]包含第一个左圆括号开始的子串,$regs[2]包含第二个子串,以此类推。$regs[0]包含整个匹配的字符串。

返回值:如果在string中找到pattern模式的匹配则返回所匹配字符串的长度,如果没有找到匹配或出错则返回FALSE。如果没有传递入可选参数regs或者所匹配的字符串长度为0,则本函数返回1。

来看看ereg()函数的例子:

以下代码片断接受ISO格式的日期(YYYY-MM-DD)然后以DD.MM.YYYY格式显示:
复制代码代码如下:

<?php
if(ereg("([0-9]{4})-([0-9]{1,2})-([0-9]{1,2})",$date,$regs)){
echo"$regs[3].$regs[2].$regs[1]";
}else{
echo"Invaliddateformat:$date";
}
?>

-----------------------------------------------------------------------------------
ereg_replace函数:(正则表达式替换)

格式:stringereg_replace(stringpattern,stringreplacement,stringstring)
函数说明:
本函数在string中扫描与pattern匹配的部分,并将其替换为replacement。
返回替换后的字符串。(如果没有可供替换的匹配项则会返回原字符串。)
如果pattern包含有括号内的子串,则replacement可以包含形如\\digit的子串,这些子串将被替换为数字表示的第几个括号内的子串;\\0则包含了字符串的整个内容。最多可以用九个子串。括号可以嵌套,此情形下以左圆括号来计算顺序。
如果未在string中找到匹配项,则string将原样返回。
来看看这个函数例子吧:
1,下面的代码片断输出"Thiswasatest"三次:
复制代码代码如下:

<?php
$string="Thisisatest";
echostr_replace("is","was",$string);
echoereg_replace("()is","\\1was",$string);
echoereg_replace("(()is)","\\2was",$string);
?>

要注意的一点是如果在replacement参数中使用了整数值,则可能得不到所期望的结果。这是因为ereg_replace()将把数字作为字符的序列值来解释并应用之。例如:
2,replacement参数为整数时的例子:
复制代码代码如下:
<?php
/*不能产生出期望的结果*/
$num=4;
$string="Thisstringhasfourwords.";
$string=ereg_replace("four",$num,$string);
echo$string;/*Output:"Thisstringhaswords."*/
/*本例工作正常*/
$num="4";
$string="Thisstringhasfourwords.";
$string=ereg_replace("four",$num,$string);
echo$string;/*Output:"Thisstringhas4words."*/
?>

3,将URL替换为超链接:
复制代码代码如下:$text=ereg_replace("[[:alpha:]]+://[^<>[:space:]]+[[:alnum:]/]",
"<ahref=\"\\0\">\\0</a>",$text);

提示:preg_replace()函数使用了Perl兼容正则表达式语法,通常是比ereg_replace()更快的替代方案。
再来看看Perl兼容正则表达式的两个主要函数:
preg_match函数:(进行正则表达式匹配)
格式:intpreg_match(stringpattern,stringsubject[,arraymatches[,intflags]])
函数说明:
在subject字符串中搜索与pattern给出的正则表达式相匹配的内容。
如果提供了matches,则其会被搜索的结果所填充。$matches[0]将包含与整个模式匹配的文本,$matches[1]将包含与第一个捕获的括号中的子模式所匹配的文本,以此类推。
flags可以是下列标记:
PREG_OFFSET_CAPTURE
如果设定本标记,对每个出现的匹配结果也同时返回其附属的字符串偏移量。注意这改变了返回的数组的值,使其中的每个单元也是一个数组,其中第一项为匹配字符串,第二项为其偏移量。本标记自PHP4.3.0起可用。
flags参数自PHP4.3.0起可用。
preg_match()返回pattern所匹配的次数。要么是0次(没有匹配)或1次,因为preg_match()在第一次匹配之后将停止搜索。preg_match_all()则相反,会一直搜索到subject的结尾处。如果出错preg_match()返回FALSE。
Tips:如果只想查看一个字符串是否包含在另一个字符串中,不要用preg_match()。可以用strpos()或strstr()替代,要快得多。
来看看它的例子吧:
例1.在文本中搜索“php”:
复制代码代码如下:
<?php
//模式定界符后面的"i"表示不区分大小写字母的搜索
if(preg_match("/php/i","PHPisthewebscriptinglanguageofchoice.")){
print"Amatchwasfound.";
}else{
print"Amatchwasnotfound.";
}
?>

例2.搜索单词“web”:
复制代码代码如下:
<?php
/*模式中的\b表示单词的边界,因此只有独立的"web"单词会被匹配,
*而不会匹配例如"webbing"或"cobweb"中的一部分*/
if(preg_match("/\bweb\b/i","PHPisthewebscriptinglanguageofchoice.")){
print"Amatchwasfound.";
}else{
print"Amatchwasnotfound.";
}
if(preg_match("/\bweb\b/i","PHPisthewebsitescriptinglanguageofchoice.")){
print"Amatchwasfound.";
}else{
print"Amatchwasnotfound.";
}
?>

例3.从URL中取出域名:
复制代码代码如下:
<?php
//从URL中取得主机名
preg_match("/^(http:\/\/)?([^\/]+)/i",
"http://www.php.net/index.html",$matches);
$host=$matches[2];
//从主机名中取得后面两段
preg_match("/[^\.\/]+\.[^\.\/]+$/",$host,$matches);
echo"domainnameis:{$matches[0]}\n";
?>

本例将输出:
domainnameis:php.net
-----------------------------------------------------------------------------------
preg_replace函数:(执行正则表达式的搜索和替换)
格式:mixedpreg_replace(mixedpattern,mixedreplacement,mixedsubject[,intlimit])
函数说明:
在subject中搜索pattern模式的匹配项并替换为replacement。如果指定了limit,则仅替换limit个匹配,如果省略limit或者其值为-1,则所有的匹配项都会被替换。
replacement可以包含\\n形式或(自PHP4.0.4起)$n形式的逆向引用,首选使用后者。每个此种引用将被替换为与第n个被捕获的括号内的子模式所匹配的文本。n可以从0到99,其中\\0或$0指的是被整个模式所匹配的文本。对左圆括号从左到右计数(从1开始)以取得子模式的数目。
对替换模式在一个逆向引用后面紧接着一个数字时(即:紧接在一个匹配的模式后面的数字),不能使用熟悉的\\1符号来表示逆向引用。举例说\\11,将会使preg_replace()搞不清楚是想要一个\\1的逆向引用后面跟着一个数字1还是一个\\11的逆向引用。本例中的解决方法是使用\${1}1。这会形成一个隔离的$1逆向引用,而使另一个1只是单纯的文字。
来看看它的例子:
例1.逆向引用后面紧接着数字的用法:
复制代码代码如下:
<?php
$string="April15,2003";
$pattern="/(\w+)(\d+),(\d+)/i";
$replacement="\${1}1,\$3";
printpreg_replace($pattern,$replacement,$string);
/*Output
======
April1,2003
*/
?>

如果搜索到匹配项,则会返回被替换后的subject,否则返回原来不变的subject。
preg_replace()的每个参数(除了limit)都可以是一个数组。如果pattern和replacement都是数组,将以其键名在数组中出现的顺序来进行处理。这不一定和索引的数字顺序相同。如果使用索引来标识哪个pattern将被哪个replacement来替换,应该在调用preg_replace()之前用ksort()对数组进行排序。
例2.在preg_replace()中使用索引数组:
复制代码代码如下:
<?php
$string="Thequickbrownfoxjumpedoverthelazydog.";
$patterns[0]="/quick/";
$patterns[1]="/brown/";
$patterns[2]="/fox/";
$replacements[2]="bear";
$replacements[1]="black";
$replacements[0]="slow";
printpreg_replace($patterns,$replacements,$string);
/*Output
======
Thebearblackslowjumpedoverthelazydog.
*/
/*Byksortingpatternsandreplacements,
weshouldgetwhatwewanted.*/
ksort($patterns);
ksort($replacements);
printpreg_replace($patterns,$replacements,$string);
/*Output
======
Theslowblackbearjumpedoverthelazydog.
*/
?>

如果subject是个数组,则会对subject中的每个项目执行搜索和替换,并返回一个数组。
如果pattern和replacement都是数组,则preg_replace()会依次从中分别取出值来对subject进行搜索和替换。如果replacement中的值比pattern中的少,则用空字符串作为余下的替换值。如果pattern是数组而replacement是字符串,则对pattern中的每个值都用此字符串作为替换值。反过来则没有意义了。
/e修正符使preg_replace()将replacement参数当作PHP代码(在适当的逆向引用替换完之后)。提示:要确保replacement构成一个合法的PHP代码字符串,否则PHP会在报告在包含preg_replace()的行中出现语法解析错误。
例3.替换数个值:
复制代码代码如下:
<?php
$patterns=array("/(19|20)(\d{2})-(\d{1,2})-(\d{1,2})/",
"/^\s*{(\w+)}\s*=/");
$replace=array("\\3/\\4/\\1\\2","$\\1=");
printpreg_replace($patterns,$replace,"{startDate}=1999-5-27");
?>

本例将输出:
$startDate=5/27/1999
例4.使用/e修正符:
复制代码代码如下:
<?php
preg_replace("/(<\/?)(\w+)([^>]*>)/e",
""\\1".strtoupper("\\2")."\\3"",
$html_body);
?>

这将使输入字符串中的所有HTML标记变成大写。
例5.将HTML转换成文本:
复制代码代码如下:
<?php
//$document应包含一个HTML文档。
//本例将去掉HTML标记,javascript代码
//和空白字符。还会将一些通用的
//HTML实体转换成相应的文本。
$search=array(""<script[^>]*?>.*?</script>"si",//去掉javascript
""<[\/\!]*?[^<>]*?>"si",//去掉HTML标记
""([\r\n])[\s]+"",//去掉空白字符
""&(quot|#34);"i",//替换HTML实体
""&(amp|#38);"i",
""&(lt|#60);"i",
""&(gt|#62);"i",
""&(nbsp|#160);"i",
""&(iexcl|#161);"i",
""&(cent|#162);"i",
""&(pound|#163);"i",
""&(copy|#169);"i",
""(\d+);"e");//作为PHP代码运行
$replace=array("",
"",
"\\1",
"\"",
"&",
"<",
">",
"",
chr(161),
chr(162),
chr(163),
chr(169),
"chr(\\1)");
$text=preg_replace($search,$replace,$document);
?>

TheEnd…