zl程序教程

您现在的位置是:首页 >  前端

当前栏目

利用HtmlUnit 模拟浏览器抓取网页数据详解编程语言

2023-06-13 09:20:30 时间

最近写爬虫的时候,利用httpclient抓取一些网页出现一些问题,就是抓取回来的内容都含有大量的加密文本(通过javascript脚本),无法 获得真实的内容(也就是用浏览器打开网页呈现的内容)。所以,一般需要配合js引擎来解决这个问题,搜索了下,发现htmlunit这个工具就可以帮忙。 了解和使用过程中,发现这是一个非常牛逼的开源工具,虽然名气比httpclient小,但是实力绝对不容小觑。 闲话少说。 可以从这里下载:http://sourceforge.net/projects /htmlunit/files/htmlunit/2.15/

String url="http://outofmemory.cn/";//想采集的网址 

 String refer="http://open-open.com/"; 

 URL link=new URL(url); 

 WebClient wc=new WebClient(); 

 WebRequest request=new WebRequest(link); 

 request.setCharset("UTF-8"); 

 request.setProxyHost("120.120.120.x"); 

 request.setProxyPort(8080); 

 request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段 

 ////设置请求报文头里的User-Agent字段 

 request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2"); 

 //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2"); 

 //wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。 

 //其他报文头字段可以根据需要添加 

 wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理 

 wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页,这个是必须的 

 wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页,这个是必须的。 

 wc.getOptions().setThrowExceptionOnFailingStatusCode(false); 

 wc.getOptions().setThrowExceptionOnScriptError(false); 

 wc.getOptions().setTimeout(10000); 

 //设置cookie。如果你有cookie,可以在这里设置 

 Set Cookie cookies=null; 

 Iterator Cookie i = cookies.iterator(); 

 while (i.hasNext()) 

 wc.getCookieManager().addCookie(i.next()); 

 //准备工作已经做好了 

 HtmlPage page=null; 

 page = wc.getPage(request); 

 if(page==null) 

 System.out.println("采集 "+url+" 失败!!!"); 

 return ; 

 String content=page.asText();//网页内容保存在content里 

 if(content==null) 

 System.out.println("采集 "+url+" 失败!!!"); 

 return ; 

 //搞定了 

 CookieManager CM = wc.getCookieManager(); //WC = Your WebClients name 

 Set Cookie cookies_ret = CM.getCookies();//返回的Cookie在这里,下次请求的时候可能可以用上啦。

原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/11014.html

cjavawindows