您现在的位置是：首页 > 前端

当前栏目

《Clojure数据分析秘笈》——1.8节从网页表中抓取数据

网页数据数据分析抓取表中 1.8 秘笈 Clojure

2023-09-11 14:18:20 时间

本节书摘来自华章社区《Clojure数据分析秘笈》一书中的第1章，第1.8节从网页表中抓取数据，作者（美）Eric Rochester，更多章节内容可以访问云栖社区“华章社区”公众号查看

1.8 从网页表中抓取数据
互联网上数据无处不在。遗憾的是，许多互联网上的数据不易获得。这些数据深埋于表、文章或者深层嵌套的标签中。网络抓取是一件让人讨厌的体力活，但是它通常又是唯一能将这些数据取出用于分析的手段。本方法描述如何加载网页并挖掘其内容以便取出数据。
使用Enlive库（https://github.com/cgrand/enlive/wiki）可以完成这项工作。这个库使用基于CSS选择器的领域专用语言（Domain-Sepecific Language，DSL）在网页中定位元素。这个库也可用于模板。在本例中，仅使用它从网页中取出数据。

1.8.1 准备工作
首先，需要将Enlive添加到项目的依赖中：

f07adfa58b2fe71d26e48eb4bdd8b055642985a8

有意地去掉文件的其他内容，并使用表的布局。
1.8.2 具体实现

由于任务稍有些复杂，这里将每步的工作写成函数。

77726e27745f6b87904fc0bb8f8c47851b0977a7

现在，选择所有表头单元，抽取其中的文本，将每个转换为关键词，然后将整个序列装入向量。得到了数据集的头部：

855a5efd2accad672eb7da0dac8b90b6867835c4

需要注意的是，在此展示的代码是多次试错后的结果。屏幕抓取的过程是这样的。通常我将下载并保存页面，从而不需要持续向Web服务器发送请求。然后启动REPL并在其中解析网页。可以通过浏览器的“查看源代码”功能查看网页和HTML，并且可以在REPL解释器中交互式地检查网页中的数据。由于比较方便，在工作过程中，我可以不断地在REPL解释器和文本编辑器中复制、粘贴代码。这种工作流程和环境使得屏幕抓取这样一个即使一切正常都需要精细操作的困难任务变得很轻松。

《Clojure数据分析秘笈》——导读本节书摘来自华章社区《Clojure数据分析秘笈》一书中的目录，作者（美）Eric Rochester，更多章节内容可以访问云栖社区“华章社区”公众号查看

猜你喜欢

【更新】CVE-2020-0796：微软紧急发布SMBv3协议“蠕虫级”漏洞补丁通告
Vue开发实例（12）之实现动态左侧菜单导航
TX-LCN5.0.2分布式事务框架源码分析-关键线索罗列-txc部分
iOS开发-本地推送实现方法和数据处理方案（二）
详细解读Python中的__init__()方法
《逆向工程权威指南》—第3章3.3节　GCC的其他特性
LeetCode Unique Paths II
Linux 典型应用之WebServer 安装和配置
东芝宣布时域神经网络技术：要让低功率物联网设备也能深度学习
《惢客创业日记》2019.11.29（周五）白事发什么颜色的包？
苹果在中国市场的欢喜与隐忧
WWDC21 学习系列之 SwiftUI必看视频《为 Apple Watch 构建锻炼应用程序》
windows下删除Linux
《Linux/UNIX OpenLDAP实战指南》——2.3　Linux平台安装
ZLMediaKit源码分析 - WebRtc连接迁移
spark的spark.sql.hive.caseSensitiveInferenceMode参数含义
Android | 教你如何在安卓上实现通用卡证识别，一键各种卡绑定
C#的抽象类和接口，区别与相似
走进 CPU 的 Cache
雪花算法生成的ID，前端无法使用
安卓和 Linux 之间传输文件的 8 个应用程序
【Unity3D日常开发】（一）实现角色移动行走之CharacterController组件
thinkphp 官网教程

相关主题

网页
网页音乐
python爬网页数据
元数据元数据
网页视频播放
网页爬虫

zl程序教程

当前栏目

《Clojure数据分析秘笈》——1.8节从网页表中抓取数据

相关文章