您现在的位置是：首页 > 后端

当前栏目

零基础写Java知乎爬虫之进阶篇

JAVA 爬虫基础知乎进阶篇

2023-06-13 09:15:30 时间

说到爬虫，使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能，但是对于一些比较高级的功能，比如重定向的处理，HTML标记的去除，仅仅使用URLConnection还是不够的。

在这里我们可以使用HttpClient这个第三方jar包。

接下来我们使用HttpClient简单的写一个爬去百度的Demo：

importjava.io.FileOutputStream;
importjava.io.InputStream;
importjava.io.OutputStream;
importorg.apache.commons.httpclient.HttpClient;
importorg.apache.commons.httpclient.HttpStatus;
importorg.apache.commons.httpclient.methods.GetMethod;
/**
*
*@authorCallMeWhy
*
*/
publicclassSpider{
privatestaticHttpClienthttpClient=newHttpClient();
/**
*@parampath
*           目标网页的链接
*@return返回布尔值，表示是否正常下载目标页面
*@throwsException
*            读取网页流或写入本地文件流的IO异常
*/
publicstaticbooleandownloadPage(Stringpath)throwsException{
  //定义输入输出流
  InputStreaminput=null;
  OutputStreamoutput=null;
  //得到post方法
  GetMethodgetMethod=newGetMethod(path);
  //执行，返回状态码
  intstatusCode=httpClient.executeMethod(getMethod);
  //针对状态码进行处理
  //简单起见，只处理返回值为200的状态码
  if(statusCode==HttpStatus.SC_OK){
   input=getMethod.getResponseBodyAsStream();
   //通过对URL的得到文件名
   Stringfilename=path.substring(path.lastIndexOf("/")+1)
     +".html";
   //获得文件输出流
   output=newFileOutputStream(filename);
   //输出到文件
   inttempByte=-1;
   while((tempByte=input.read())>0){
    output.write(tempByte);
   }
   //关闭输入流
   if(input!=null){
    input.close();
   }
   //关闭输出流
   if(output!=null){
    output.close();
   }
   returntrue;
  }
  returnfalse;
}
publicstaticvoidmain(String[]args){
  try{
   //抓取百度首页，输出
   Spider.downloadPage("http://www.baidu.com");
  }catch(Exceptione){
   e.printStackTrace();
  }
}
}

但是这样基本的爬虫是不能满足各色各样的爬虫需求的。

先来介绍宽度优先爬虫。

宽度优先相信大家都不陌生，简单说来可以这样理解宽度优先爬虫。

我们把互联网看作一张超级大的有向图，每一个网页上的链接都是一个有向边，每一个文件或没有链接的纯页面则是图中的终点：

宽度优先爬虫就是这样一个爬虫，爬走在这个有向图上，从根节点开始一层一层往外爬取新的节点的数据。

宽度遍历算法如下所示：

(1)顶点V入队列。
(2)当队列非空时继续执行，否则算法为空。
(3)出队列，获得队头节点V，访问顶点V并标记V已经被访问。
(4)查找顶点V的第一个邻接顶点col。
(5)若V的邻接顶点col未被访问过，则col进队列。
(6)继续查找V的其他邻接顶点col，转到步骤(5)，若V的所有邻接顶点都已经被访问过，则转到步骤(2)。

按照宽度遍历算法，上图的遍历顺序为：A->B->C->D->E->F->H->G->I，这样一层一层的遍历下去。

而宽度优先爬虫其实爬取的是一系列的种子节点，和图的遍历基本相同。

我们可以把需要爬取页面的URL都放在一个TODO表中，将已经访问的页面放在一个Visited表中：

则宽度优先爬虫的基本流程如下：

(1)把解析出的链接和Visited表中的链接进行比较，若Visited表中不存在此链接，表示其未被访问过。
(2)把链接放入TODO表中。
(3)处理完毕后，从TODO表中取得一条链接，直接放入Visited表中。
(4)针对这个链接所表示的网页，继续上述过程。如此循环往复。

下面我们就来一步一步制作一个宽度优先的爬虫。

首先，对于先设计一个数据结构用来存储TODO表，考虑到需要先进先出所以采用队列，自定义一个Quere类：

importjava.util.LinkedList;
/**
*自定义队列类保存TODO表
*/
publicclassQueue{
/**
*定义一个队列，使用LinkedList实现
*/
privateLinkedList<Object>queue=newLinkedList<Object>();//入队列
/**
*将t加入到队列中
*/
publicvoidenQueue(Objectt){
  queue.addLast(t);
}
/**
*移除队列中的第一项并将其返回
*/
publicObjectdeQueue(){
  returnqueue.removeFirst();
}
/**
*返回队列是否为空
*/
publicbooleanisQueueEmpty(){
  returnqueue.isEmpty();
}
/**
*判断并返回队列是否包含t
*/
publicbooleancontians(Objectt){
  returnqueue.contains(t);
}
/**
*判断并返回队列是否为空
*/
publicbooleanempty(){
  returnqueue.isEmpty();
}
}

还需要一个数据结构来记录已经访问过的URL，即Visited表。

考虑到这个表的作用，每当要访问一个URL的时候，首先在这个数据结构中进行查找，如果当前的URL已经存在，则丢弃这个URL任务。

这个数据结构需要不重复并且能快速查找，所以选择HashSet来存储。

综上，我们另建一个SpiderQueue类来保存Visited表和TODO表：

importjava.util.HashSet;
importjava.util.Set;
/**
*自定义类保存Visited表和unVisited表
*/
publicclassSpiderQueue{
/**
*已访问的url集合，即Visited表
*/
privatestaticSet<Object>visitedUrl=newHashSet<>();
/**
*添加到访问过的URL队列中
*/
publicstaticvoidaddVisitedUrl(Stringurl){
  visitedUrl.add(url);
}
/**
*移除访问过的URL
*/
publicstaticvoidremoveVisitedUrl(Stringurl){
  visitedUrl.remove(url);
}
/**
*获得已经访问的URL数目
*/
publicstaticintgetVisitedUrlNum(){
  returnvisitedUrl.size();
}
/**
*待访问的url集合，即unVisited表
*/
privatestaticQueueunVisitedUrl=newQueue();
/**
*获得UnVisited队列
*/
publicstaticQueuegetUnVisitedUrl(){
  returnunVisitedUrl;
}
/**
*未访问的unVisitedUrl出队列
*/
publicstaticObjectunVisitedUrlDeQueue(){
  returnunVisitedUrl.deQueue();
}
/**
*保证添加url到unVisitedUrl的时候每个URL只被访问一次
*/
publicstaticvoidaddUnvisitedUrl(Stringurl){
  if(url!=null&&!url.trim().equals("")&&!visitedUrl.contains(url)
    &&!unVisitedUrl.contians(url))
   unVisitedUrl.enQueue(url);
}
/**
*判断未访问的URL队列中是否为空
*/
publicstaticbooleanunVisitedUrlsEmpty(){
  returnunVisitedUrl.empty();
}
}

上面是一些自定义类的封装，接下来就是一个定义一个用来下载网页的工具类，我们将其定义为DownTool类：

packagecontroller;
importjava.io.*;
importorg.apache.commons.httpclient.*;
importorg.apache.commons.httpclient.methods.*;
importorg.apache.commons.httpclient.params.*;
publicclassDownTool{
/**
*根据URL和网页类型生成需要保存的网页的文件名，去除URL中的非文件名字符
*/
privateStringgetFileNameByUrl(Stringurl,StringcontentType){
  //移除"http://"这七个字符
  url=url.substring(7);
  //确认抓取到的页面为text/html类型
  if(contentType.indexOf("html")!=-1){
   //把所有的url中的特殊符号转化成下划线
   url=url.replaceAll("[\\?/:*|<>\"]","_")+".html";
  }else{
   url=url.replaceAll("[\\?/:*|<>\"]","_")+"."
     +contentType.substring(contentType.lastIndexOf("/")+1);
  }
  returnurl;
}
/**
*保存网页字节数组到本地文件，filePath为要保存的文件的相对地址
*/
privatevoidsaveToLocal(byte[]data,StringfilePath){
  try{
   DataOutputStreamout=newDataOutputStream(newFileOutputStream(
     newFile(filePath)));
   for(inti=0;i<data.length;i++)
    out.write(data[i]);
   out.flush();
   out.close();
  }catch(IOExceptione){
   e.printStackTrace();
  }
}
//下载URL指向的网页
publicStringdownloadFile(Stringurl){
  StringfilePath=null;
  //1.生成HttpClinet对象并设置参数
  HttpClienthttpClient=newHttpClient();
  //设置HTTP连接超时5s
  httpClient.getHttpConnectionManager().getParams()
    .setConnectionTimeout(5000);
  //2.生成GetMethod对象并设置参数
  GetMethodgetMethod=newGetMethod(url);
  //设置get请求超时5s
  getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000);
  //设置请求重试处理
  getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
    newDefaultHttpMethodRetryHandler());
  //3.执行GET请求
  try{
   intstatusCode=httpClient.executeMethod(getMethod);
   //判断访问的状态码
   if(statusCode!=HttpStatus.SC_OK){
    System.err.println("Methodfailed:"
      +getMethod.getStatusLine());
    filePath=null;
   }
   //4.处理HTTP响应内容
   byte[]responseBody=getMethod.getResponseBody();//读取为字节数组
   //根据网页url生成保存时的文件名
   filePath="temp\\"
     +getFileNameByUrl(url,
       getMethod.getResponseHeader("Content-Type")
         .getValue());
   saveToLocal(responseBody,filePath);
  }catch(HttpExceptione){
   //发生致命的异常，可能是协议不对或者返回的内容有问题
   System.out.println("请检查你的http地址是否正确");
   e.printStackTrace();
  }catch(IOExceptione){
   //发生网络异常
   e.printStackTrace();
  }finally{
   //释放连接
   getMethod.releaseConnection();
  }
  returnfilePath;
}
}

在这里我们需要一个HtmlParserTool类来处理Html标记：

packagecontroller;
importjava.util.HashSet;
importjava.util.Set;
importorg.htmlparser.Node;
importorg.htmlparser.NodeFilter;
importorg.htmlparser.Parser;
importorg.htmlparser.filters.NodeClassFilter;
importorg.htmlparser.filters.OrFilter;
importorg.htmlparser.tags.LinkTag;
importorg.htmlparser.util.NodeList;
importorg.htmlparser.util.ParserException;
importmodel.LinkFilter;
publicclassHtmlParserTool{
//获取一个网站上的链接，filter用来过滤链接
publicstaticSet<String>extracLinks(Stringurl,LinkFilterfilter){
  Set<String>links=newHashSet<String>();
  try{
   Parserparser=newParser(url);
   parser.setEncoding("gb2312");
   //过滤<frame>标签的filter，用来提取frame标签里的src属性
   NodeFilterframeFilter=newNodeFilter(){
    privatestaticfinallongserialVersionUID=1L;
    @Override
    publicbooleanaccept(Nodenode){
     if(node.getText().startsWith("framesrc=")){
      returntrue;
     }else{
      returnfalse;
     }
    }
   };
   //OrFilter来设置过滤<a>标签和<frame>标签
   OrFilterlinkFilter=newOrFilter(newNodeClassFilter(
     LinkTag.class),frameFilter);
   //得到所有经过过滤的标签
   NodeListlist=parser.extractAllNodesThatMatch(linkFilter);
   for(inti=0;i<list.size();i++){
    Nodetag=list.elementAt(i);
    if(taginstanceofLinkTag)//<a>标签
    {
     LinkTaglink=(LinkTag)tag;
     StringlinkUrl=link.getLink();//URL
     if(filter.accept(linkUrl))
      links.add(linkUrl);
    }else//<frame>标签
    {
     //提取frame里src属性的链接，如<framesrc="test.html"/>
     Stringframe=tag.getText();
     intstart=frame.indexOf("src=");
     frame=frame.substring(start);
     intend=frame.indexOf("");
     if(end==-1)
      end=frame.indexOf(">");
     StringframeUrl=frame.substring(5,end-1);
     if(filter.accept(frameUrl))
      links.add(frameUrl);
    }
   }
  }catch(ParserExceptione){
   e.printStackTrace();
  }
  returnlinks;
}
}

最后我们来写个爬虫类调用前面的封装类和函数：

packagecontroller;
importjava.util.Set;
importmodel.LinkFilter;
importmodel.SpiderQueue;
publicclassBfsSpider{
/**
*使用种子初始化URL队列
*/
privatevoidinitCrawlerWithSeeds(String[]seeds){
  for(inti=0;i<seeds.length;i++)
   SpiderQueue.addUnvisitedUrl(seeds[i]);
}
//定义过滤器，提取以http://www.xxxx.com开头的链接
publicvoidcrawling(String[]seeds){
  LinkFilterfilter=newLinkFilter(){
   publicbooleanaccept(Stringurl){
    if(url.startsWith("http://www.baidu.com"))
     returntrue;
    else
     returnfalse;
   }
  };
  //初始化URL队列
  initCrawlerWithSeeds(seeds);
  //循环条件：待抓取的链接不空且抓取的网页不多于1000
  while(!SpiderQueue.unVisitedUrlsEmpty()
    &&SpiderQueue.getVisitedUrlNum()<=1000){
   //队头URL出队列
   StringvisitUrl=(String)SpiderQueue.unVisitedUrlDeQueue();
   if(visitUrl==null)
    continue;
   DownTooldownLoader=newDownTool();
   //下载网页
   downLoader.downloadFile(visitUrl);
   //该URL放入已访问的URL中
   SpiderQueue.addVisitedUrl(visitUrl);
   //提取出下载网页中的URL
   Set<String>links=HtmlParserTool.extracLinks(visitUrl,filter);
   //新的未访问的URL入队
   for(Stringlink:links){
    SpiderQueue.addUnvisitedUrl(link);
   }
  }
}
//main方法入口
publicstaticvoidmain(String[]args){
  BfsSpidercrawler=newBfsSpider();
  crawler.crawling(newString[]{"http://www.baidu.com"});
}
}

运行可以看到，爬虫已经把百度网页下所有的页面都抓取出来了：

以上就是java使用HttpClient工具包和宽度爬虫进行抓取内容的操作的全部内容，稍微复杂点，小伙伴们要仔细琢磨下哦，希望对大家能有所帮助

猜你喜欢

开源播放，Linux赋能视听享受（linux开源播放器）
的使用双重优势Oracle中的Dual功能（dual在oracle中）
MySQL查询当前时间：一步一步引导（mysql查询当前时间）
MySQL Variables tx_isolation 数据库参数变量解释及正确配置使用
《面试季》经典面试题-Spring篇(一)
基于Redis的令牌桶实现流量控制（基于redis的令牌桶）
恢复Oracle数据库宕机：如何快速恢复（oracle数据库宕机）
规范MySQL上线脚本，运维工作如何更高效（mysql上线脚本规范）
celery 报错：Received unregistered task of type 'apps.share.tasks.post_to_beiqia'.
MySQL 误删除数据的恢复方法（mysql误删恢复）
管家婆用MSSQL2008构筑的信息家园（管家婆mssql2008）
火力全开搭建高效游戏服务器架构Redis（游戏服务器架构redis）
体验Linux之旅，大胆尝试Linux版手机！（linux版手机）
Redis单机性能并发数提升之路（单个redis并发数）
Oracle双活实现容灾保障的三大技术（oracle什么叫双活）
Fedora CoreOS 入门
分享个通过CSS让JS判断屏幕宽度的方法
英雄联盟源代码_c语言游戏源码
如何实现MySQL数据库的同步备份（mysql两数据库同步）

zl程序教程

当前栏目

零基础写Java知乎爬虫之进阶篇

相关文章