您现在的位置是：首页 > 后端

当前栏目

爬虫日记(17)：scrapy的Item对象

爬虫 scrapy 对象 17 日记 item

2023-09-14 09:10:04 时间

我们知道为什么要写爬虫，因为网上有很多有用的信息，但是这些信息是非结构化的，散乱地分布的，数据非常巨大的。可以把这些数据当作原油，正等待我们去开采，在开采之后还需要进行一番炼油，才能把石油应用到各行各业。同理，网上这么有用的数据，需要进行各种样的处理，才可以应用到我们实际工作和生活中去。

在数据抽取的过程中，我们发现原来网络上的数据是非结构化的。可见第一个处理就是把数据进行结构化的表示，才可以进行下一步处理。所谓结构化，是指将逐渐积累起来的知识加以归纳和整理，使之条理化、纲领化，做到纲举目张。知识是逐渐积累的，但在头脑中不应该是堆积的。虽然我们前面看到很多例子，都是可以采用字典的方式来表示抓取的数据。Scrapy的Spider可以把数据提取为一个Python中的字典，虽然字典使用起来非常方便，对我们来说也很熟悉，但是字典有一个缺点：缺少固定结构。在一个拥有许多爬虫的大项目中，字典非常容易造成字段名称上的语法错误，或者是返回不一致的数据。所以Scrapy中，定义了一个专门的通用数据结构：Item。这个Item对象提供了跟字典相似的API，并且有一个非常方便的语法来声明可用的字段。本文就将来学习这个Item对象相关的内容。

猜你喜欢

如何运行Spring Boot应用
android自定义状态栏颜色
Kubernetes RBAC 内置集群角色ClusterRole
java实现第七届蓝桥杯有奖竞猜
魔兽争霸3怎么玩
vue二级联动select
深度学习分类任务常用评估指标
[Python] Gaussian Class
OpenNLP中语言检测模型训练和模型的使用
D3DXVec4Dot 函数
How to configure a BSP application to Fiori launchpad as a tile
Eclipse用法和技巧
如何找出 SAP Fiori Launchpad 里点击 tile 之后，读取业务数据调用的是哪个 SAP 后台系统的 OData 服务试读版
hping3命令
java实现第六届蓝桥杯移动距离
matlab 计算点云的曲率

相关主题

爬虫框架scrapy
爬虫解析
Python爬虫之scrapy框架
65 爬虫 - Scrapy 框架
Scrapy爬虫

zl程序教程

当前栏目

爬虫日记(17)：scrapy的Item对象

相关文章