zl程序教程

您现在的位置是:首页 >  后端

当前栏目

爬虫日记(17):scrapy的Item对象

爬虫scrapy对象 17 日记 item
2023-09-14 09:10:04 时间

我们知道为什么要写爬虫,因为网上有很多有用的信息,但是这些信息是非结构化的,散乱地分布的,数据非常巨大的。可以把这些数据当作原油,正等待我们去开采,在开采之后还需要进行一番炼油,才能把石油应用到各行各业。同理,网上这么有用的数据,需要进行各种样的处理,才可以应用到我们实际工作和生活中去。

 

在数据抽取的过程中,我们发现原来网络上的数据是非结构化的。可见第一个处理就是把数据进行结构化的表示,才可以进行下一步处理。所谓结构化,是指将逐渐积累起来的知识加以归纳和整理,使之条理化、纲领化,做到纲举目张。知识是逐渐积累的,但在头脑中不应该是堆积的。虽然我们前面看到很多例子,都是可以采用字典的方式来表示抓取的数据。Scrapy的Spider可以把数据提取为一个Python中的字典,虽然字典使用起来非常方便,对我们来说也很熟悉,但是字典有一个缺点:缺少固定结构。在一个拥有许多爬虫的大项目中,字典非常容易造成字段名称上的语法错误,或者是返回不一致的数据。所以Scrapy中,定义了一个专门的通用数据结构:Item。这个Item对象提供了跟字典相似的API,并且有一个非常方便的语法来声明可用的字段。本文就将来学习这个Item对象相关的内容。