您现在的位置是：首页 > 前端

当前栏目

益达教你如何抓取Ajax动态页面

AJAX 如何动态页面抓取

2023-09-14 08:59:40 时间

何为Ajax动态网页，我想不用我多说了吧，如果你连Ajax是啥玩意儿都不知道，那你还是先去Google学习Ajax吧。为了形象起见，这里我以抓取这个网页为例进行讲解说明。网页链接如下：
http://www.sse.com.cn/assortment/stock/list/name/

很明显，我们要抓取的数据是

打开谷歌浏览器的开发者工具，我们会发现，他其实是采用Ajax方式动态加载的，且采用的jsonp跨域方式返回的，分析如图：

由此可以推断，分页部分信息是通过JavaScript动态往DOM中插入的，如果你仅仅是通过类似HttpClient之类的工具来模拟Http请求来获取网页信息的话，你得到的网页内容将不是完整的，而HtmlUnit可以做到。

OK,回到主题，可能你还是第一次听说有个HtmlUnit这个玩意儿，有可能你是大咖早已听说，但我还是觉得还是官方的解释说明最权威，我就不瞎BB了，看图：

总之，一句话，HtmlUnit其实就是一个测试工具，方便测试人员进行功能测试，它能模拟诸如谷歌浏览器，火狐浏览器，IE浏览器等常见主流浏览器的行为。废话不多说，我直接上demo:

public class ShangHaiStockTest { public static void main(String[] args) throws Exception { downloadListPage(); } public static void downloadListPage() throws Exception { WebClient webClient = new WebClient(BrowserVersion.FIREFOX_38); webClient.getOptions().setCssEnabled(false); webClient.getOptions().setJavaScriptEnabled(true); webClient.getOptions().setActiveXNative(false); webClient.getOptions().setAppletEnabled(false); webClient.getOptions().setRedirectEnabled(false); webClient.getOptions().setThrowExceptionOnFailingStatusCode(false); webClient.getOptions().setThrowExceptionOnScriptError(false); webClient.getOptions().setUseInsecureSSL(false); webClient.getOptions().setTimeout(10000000); webClient.setAjaxController(new NicelyResynchronizingAjaxController()); int totalPage = 22; boolean first = true; HtmlPage page = null; do { if(first) { page = (HtmlPage)webClient.getPage("http://www.sse.com.cn/assortment/stock/list/name/"); FileUtils.writeFile(page.asXml(), "C:/shh/list/" + totalPage + ".html", "UTF-8", false); first = false; } else { HtmlAnchor anchor = null; if(totalPage == 22 -1) { anchor = (HtmlAnchor) page.getHtmlElementById("xsgf_next"); } else { anchor = (HtmlAnchor) page.getHtmlElementById("dateList_container_next"); } page = (HtmlPage) anchor.click(); FileUtils.writeFile(page.asXml(), "C:/shh/list/" + totalPage + ".html", "UTF-8", false); } totalPage--; } while(totalPage 0); //关闭模拟窗口 webClient.closeAllWindows(); }
启用JavaScript

2.webClient.setAjaxController(new NicelyResynchronizingAjaxController());

设置Ajax异步处理控制器即启用Ajax支持

3.webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

webClient.getOptions().setThrowExceptionOnScriptError(false);

这两句很关键，前者表示当出现Http error时，程序不抛异常继续执行，后者表示当JavaScript执行出现异常时直接无视，否则Java代码会直接抛异常，程序中断。

demo代码里演示了，如何通过代码去模拟点击“下一页”超链接去分页获取每一页的网页内容，然后写入磁盘指定目录。程序很简单，希望能抛砖引玉，程序依赖的jar包如图：

就说这么多，如果有什么其他问题，请联系我，联系方式如下：
益达的GitHub地址：请猛戳我，用力，吃点劲儿！！！

转载：http://iamyida.iteye.com/blog/2238622

分析 ajax 请求并抓取今日头条街拍美图首先分析街拍图集的网页请求头部：在 preview 选项卡我们可以找到 json 文件，分析 data 选项，找到我们要找到的图集地址 article_url: 选中其中一张图片，分析 json 请求，可以找到图片地址在 gallery 一栏：找到图片地址，接下来我们就可以来写代码了：
C#抓取AJAX页面的内容原文 C#抓取AJAX页面的内容现在的网页有相当一部分是采用了AJAX技术,所谓的AJAX技术简单一点讲就是事件驱动吧(当然这种说法可能很不全面),在你提交了URL后,服务器发给你的并不是所有是页面内容,而有一大部分是JS脚本,即用

猜你喜欢

ORA-19565: BACKUP_TAPE_IO_SLAVES not enabled when duplexing to sequential devices ORACLE 报错故障修复远程处理
连接Linux服务器的步骤指南（怎么连接linux服务器）
android UnCrackable题目
SQL Server查询语句大全集锦
【数字信号处理】相关函数 ( 功率信号 | 功率信号的互相关函数 | 功率信号的自相关函数 )
Redis集群安全稳定的运行状态（redis集群转态）
关于C++内存中字节对齐问题的详细介绍
DeviceIOControl实战「建议收藏」
MySQL Error number: MY-013970; Symbol: ER_BULK_READER_LIBCURL_ERROR_LOG; SQLSTATE: HY000 报错故障修复远程处理
MySQL安装（windows版本）详解数据库
jQuery动态云标签插件
一步步教你如何给Xshell添加快捷命令的方法
MySQL数据库管理系统浅析（mysql前端软件）
MySQL 数据对比之旅：一款强大的工具（mysql数据对比工具）
如何在 Go 语言开发的宿主程序中嵌入 WebAssembly
Linux下解决读者写者问题的方法（linux读者写者问题）
pycharm打印不出来什么情况_pycharm中print报错

相关主题

jquery ajax跨域
jQuery的ajax
ajax基础
ASP.NET 使用Ajax
js ajax请求
原生ajax---1
JavaWeb-ajax
Jquery实现AJAX
jQuery Ajax编程
JavaWeb 之 Ajax
jQuery — Ajax
ajax 异步请求
Ajax长连接
Ajax文件上传
jQuery：Ajax
jQuery AJAX请求
6.Django与Ajax

zl程序教程

当前栏目

益达教你如何抓取Ajax动态页面

相关文章