您现在的位置是：首页 > Javascript

当前栏目

java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决

2023-02-18 16:29:31 时间

问题描述：

在使用jsoup爬取其他网站数据的时候，发现class是带空格的多选择，如果直接使用doc.getElementsByClass(“class的值”),这种方法获取不到想要的数据。

爬取网站页面结构如下：

其中文章列表的div为：<div class="am-cf inner_li inner_li_abtest"></div>

我们可以看到其class的值为：am-cf inner_li inner_li_abtest。带空格的。多值的。

如果我们还是用getElementsByClass()这个方法获取的话，是获取不到的。eclipse中断点如下：

可以看到获取的值的长度size=0。没有获取到数据。

经过各方搜索，发现解决方案：使用的不是getElementsByClass()方法，可以使用其他方法。

先上成功后截图：

我们可以看到数据的长度size=20了。说明获取到数据了。

下面讲解select方法使用：

Elements org.jsoup.nodes.Element.select(String cssQuery)

样式选择器。

查看源码：

我们知道这个可以多个。

在看看我们案例中使用的是：div.am-cf.inner_li.inner_li_abtest。为什么要这么写呢？

查看需要爬取文章的页面结构：

猜你喜欢

腾讯数据中心冷源系统AI调优的应用与实践
直播报名｜腾讯游戏专家分享云原生在高并发游戏推荐系统中的实践
数字周报88期|“数字敦煌·开放素材库”正式上线；腾讯宣布将用AI破译甲骨文
腾讯自研XR虚实融合技术，助力文旅行业新体验新发展
神了,用 Python 预测世界杯决赛，发现准确率还挺高
自然语言处理的基本问题——分词问题
[世界杯]根据赔率计算各种组合可能性与赔率
爆火的OpenAI ChatGPT注册试用全攻略
chatbot聊天机器人技术路线
CVPR 2022｜达摩院开源低成本大规模分类框架FFC
小米「铁大」机器人学会打架子鼓，铁大2.0已投入研发
DeepMind携AlphaCode登Science封面，写代码能力不输程序员
从单点智能到全流程AI，腾讯云智能AI能力「成团出道」
模型越大，表现越差？谷歌收集了让大模型折戟的任务，还打造了一个新基准
ChatGPT讲故事，DALLE-2负责画出来，两AI合作出绘本
上线3天，下载4万，ChatGPT中文版VSCode插件来了
计算机科学博士经验：准备几个月，答辩半小时
告诉Stable Diffusion 2.0你不想要什么，生成效果更好：Negative Prompt显奇效
上海数字大脑研究院发布国内首个多模态决策大模型DB1，可实现超复杂问题快速决策
DTCC这场数据库人的盛典，腾讯云数据库来报道啦！

zl程序教程

当前栏目

java爬虫问题二: 使用jsoup爬取数据class选择器中空格多选择怎么解决

相关文章