zl程序教程

您现在的位置是:首页 >  后端

当前栏目

node.js正则表达式获取网页中所有链接的代码实例

2023-06-13 09:15:27 时间

实现代码

复制代码代码如下:

varhttp=require("http");

//定义函数
vargetAHref=function(htmlstr){
   varreg=/<a.+?href=("|")?([^""]+)("|")?(?:\s+|>)/gim;
   vararr=[];
   while(tem=reg.exec(htmlstr)){
       arr.push(tem[2]);
   }
   returnarr;
}


varqHref="http://xxx";//设置被查询的目标网址
   varreq=http.get(qHref,function(res){
   varpageData="";
   res.setEncoding("utf8");
   res.on("error",function(errget){
          //出错处理
   });
   res.on("data",function(chunk){
          pageData+=chunk;
   });

   res.on("end",function(){
         //console.dir(pageData);
         varcontent=pageData;//获取到网页内容
         varhrefs=getAHref(content);//获取链接

   });

});