您现在的位置是:首页 > Javascript
当前栏目
java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决
2023-02-18 16:29:31 时间
问题描述:
在使用jsoup爬取其他网站数据的时候,发现class是带空格的多选择,如果直接使用doc.getElementsByClass(“class的值”),这种方法获取不到想要的数据。
爬取网站页面结构如下:
其中文章列表的div为:<div class="am-cf inner_li inner_li_abtest"></div>
我们可以看到其class的值为:am-cf inner_li inner_li_abtest。带空格的。多值的。
如果我们还是用getElementsByClass()这个方法获取的话,是获取不到的。eclipse中断点如下:
可以看到获取的值的长度size=0。没有获取到数据。
经过各方搜索,发现解决方案:使用的不是getElementsByClass()方法,可以使用其他方法。
先上成功后截图:
我们可以看到数据的长度size=20了。说明获取到数据了。
下面讲解select方法使用:
Elements org.jsoup.nodes.Element.select(String cssQuery)
样式选择器。
查看源码:
我们知道这个可以多个。
在看看我们案例中使用的是:div.am-cf.inner_li.inner_li_abtest。为什么要这么写呢?
查看需要爬取文章的页面结构:
相关文章
- Spring Boot中的Freemarker模版引擎引用css和js的正确姿势
- Node.js解压版的环境配置及相关常用命令
- JSP学习笔记(6)—— 自定义MVC框架
- JSP学习笔记(5)——Servlet、监听器、过滤器、MVC模式介绍
- Jsp学习笔记(4)——分页查询
- APIJSON简单使用
- JSP学习笔记(3)——JSTL 标签库
- JSP学习笔记(1)——Jsp指令、动作元素和内置对象
- JavaScript ES6 Promise对象
- Web前端——JavaScript扩展补充
- Web前端——表单提交和Js添加选项
- Web前端——JavaScript练习
- Web前端——JavaScript笔记
- 一个 JavaScript 最佳实践的例子
- 最短路径:Dijstra(迪杰斯特拉)算法
- OSS阿里云上传文件 前端js下载url跨域问题
- 基于 hugging face 预训练模型的实体识别智能标注方案:生成doccano要求json格式
- python读取json格式文件大量数据,以及python字典和列表嵌套用法详解
- 图学习【参考资料2】-知识补充与node2vec代码注解
- Paddle Graph Learning (PGL)图学习之图游走类deepwalk、node2vec模型[系列四]