爬虫日记(17):scrapy的Item对象
2023-09-14 09:10:04 时间
我们知道为什么要写爬虫,因为网上有很多有用的信息,但是这些信息是非结构化的,散乱地分布的,数据非常巨大的。可以把这些数据当作原油,正等待我们去开采,在开采之后还需要进行一番炼油,才能把石油应用到各行各业。同理,网上这么有用的数据,需要进行各种样的处理,才可以应用到我们实际工作和生活中去。
在数据抽取的过程中,我们发现原来网络上的数据是非结构化的。可见第一个处理就是把数据进行结构化的表示,才可以进行下一步处理。所谓结构化,是指将逐渐积累起来的知识加以归纳和整理,使之条理化、纲领化,做到纲举目张。知识是逐渐积累的,但在头脑中不应该是堆积的。虽然我们前面看到很多例子,都是可以采用字典的方式来表示抓取的数据。Scrapy的Spider可以把数据提取为一个Python中的字典,虽然字典使用起来非常方便,对我们来说也很熟悉,但是字典有一个缺点:缺少固定结构。在一个拥有许多爬虫的大项目中,字典非常容易造成字段名称上的语法错误,或者是返回不一致的数据。所以Scrapy中,定义了一个专门的通用数据结构:Item。这个Item对象提供了跟字典相似的API,并且有一个非常方便的语法来声明可用的字段。本文就将来学习这个Item对象相关的内容。
相关文章
- 爬虫项目目录
- 第三百五十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)介绍以及安装
- 第三百五十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy的暂停与重启
- 第三百五十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
- 第三百二十五节,web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签
- 第三百二十四节,web爬虫,scrapy模块介绍与使用
- 爬虫部署-1,服务端安装使用scrapyd,客户端安装scrapy-client,利用scrapy-client 发布爬虫到远程服务端
- 小白学 Python 爬虫(40):爬虫框架 Scrapy 入门基础(七)对接 Selenium 实战
- 小白学 Python 爬虫(37):爬虫框架 Scrapy 入门基础(五) Spider Middleware
- 小白学 Python 爬虫(34):爬虫框架 Scrapy 入门基础(二)
- Python爬虫开发:Request的使用(随机User-Agent)
- python 爬虫抓取心得
- Atitit 信息化数据采集与分析解析 技术 处理技术 爬虫与http rest json xml h5解析 db数据库 mail协议与处理 数据压缩与解压 数据处理 文本处理
- 这可能是你见过的最全的网络爬虫总结
- Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
- Python爬虫:scrapy防止爬虫被禁的策略
- Python爬虫:scrapy中间件及一些参数
- Python爬虫:Scrapy的Crawler对象及扩展Extensions和信号Signals
- Python爬虫:Scrapy调试运行单个爬虫
- Python爬虫:Scrapy优化参数设置
- Python3爬虫入门到精通 | 环境安装
- 爬虫日记(89):Scrapy的DownloadHandlers类
- 爬虫日记(78):Scrapy的命令运行入口点
- 爬虫日记(76):Scrapy的命令行源码分析
- 爬虫日记(65):Scrapy的设置参数-Telnet
- 爬虫日记(63):Scrapy的设置参数-日志
- 爬虫日记(50):Flask的类视图
- 爬虫日记(12):scrapy提取数据的技巧
- scrapy 爬虫中间件 httperror中间件
- 小白爬虫第四弹之爬虫快跑(多进程 + 多线程)
- 爬虫----mumu模拟器如何开启root权限
- 爬虫学习(0):python模块安装
- 爬虫学习(15):json文件存储
- Python爬虫自学系列(番外篇一):代理IP池