您现在的位置是：首页 > 后端

当前栏目

第九天 Python爬虫之Scrapy（框架简单使用）

Python 爬虫 scrapy 框架简单使用

2023-09-11 14:19:57 时间

请添加图片描述

@作者 : SYFStrive

@博客首页 : HomePage

🥧 上一篇续文传送门

📌：个人社区（欢迎大佬们加入） 👉：社区链接🔗

📌：如果觉得文章对你有帮助可以点点关注 👉：专栏连接🔗

🥧： 感谢支持,学习累了可以先看小段由小胖给大家带来的街舞😀

🔗：阅读文章

简介

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据 (例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架，该框架使用纯 Python 语言编写。Scrapy 框架应用广泛，常用于数据采集、网络监测，以及自动化测试等。
提示：Twisted 是一个基于事件驱动的网络引擎框架，同样采用 Python 实现。

📦Scrapy使用前准备

文档如👇

官网文档：链接
C语言中文文档：链接

安装

安装语法：python -m pip install Scrapy
报错：使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn 加包名

Scrapy项目的创建，运行以及分析框架结构步骤📦

1、创建项目

scrapy startproject 项目名称
注意：项目的名字不允许使用数字开头也不能包含中文

2、创建爬虫文件

首先到项目目录下进入到目录spiders下
终端运行：scrapy genspider 爬虫名字网页的域名（如： scrapy genspider baidu www.baidu.com）
一般创建爬虫文件情况下不需要添加http协议因为start_urls起始的url值是根据allowed_domains
所以添加了http的话那么start_urls就需要我们手动去修改了
分析创建的爬虫文件

在这里插入图片描述

3、运行

scrapy crawl 爬虫的名字（如 👉 ：scrapy crawl baidu）

4、分析

项目组成：

spiders文件 → init.py

自定义的爬虫文件.py 👉 由我们自己创建，👉 是实现爬虫核心功能的文件

init.py …
items.py 👉 定义数据结构的地方，是一个继承自scrapy.Item的类
middlewares.py 👉 中间件代理
pipelines.py 👉 管道文件，里面只有一个类，用于处理下载数据的后续处理，默认是300优先级，值越小优先级越高（1‐1000）settings.py 👉 配置文件比如：是否遵守robots协议，User‐Agent定义等
settings.py （下的ROBOTSTXT_OBEY = True）说明如👇

注意（裙子协议：各大产商约定的协议）： 注释掉之后那么就不遵守robots协议了他是一个君子协议一般情况下 我们不用遵守

运行框架📦

scrapy crawl baidu (运行完有并没有看到hello scrapyShell（因为开启了君子协议） )

在这里插入图片描述
如下：

在这里插入图片描述

如下：

在这里插入图片描述

简单运行框架访问一个网站（以💼为例，以及（三个属性两个方法））📦

三个属性以及两个方法

response.text 👉 响应的是字符串
response.body 👉 响应的是二进制文件
response.xpath() 👉 xpath方法的返回值类型是selector列表
extract() 👉 提取的是selector对象的是data
extract_first() 👉 提取的是selector列表中的第一个数据
…

📰代码演示

如下：

在这里插入图片描述
获取源码如下：

在这里插入图片描述

利用xpath插件找到想要的内容如下：

在这里插入图片描述

获取内容如下：
在这里插入图片描述

小总结

创建项目 👉 创建爬虫文件（检测能不能正常爬到：随便打印print（）） 👉 同过xpath bas等 👉 获取相关内容

最后

Scrapy框架还未结束（待更），觉得不错的请给我专栏点点订阅，你的支持是我们更新的动力，感谢大家的支持，希望这篇文章能帮到大家

点击跳转到我的Python专栏

在这里插入图片描述

下篇文章再见ヾ(￣▽￣)Bye_Bye

在这里插入图片描述

猜你喜欢

数学建模学习笔记（三十）灰色关联度
power shell 设置壁纸
【计算机三级数据库技术】第1章数据库应用系统生命周期下知识体系--附思维导图
【原创】first-class 解惑
已解决warnings.warn(UserWarning(“Manipulating w3c setting can have unintended consequences.”))
[Docker] Handcrafting a Container Image
C++搭建集群聊天室（十六）：代码测试文档
[cmd] 循环删除 obj、bin 文件夹
解决tomcat引入spring容器出错
Spring Cloud Alibaba微服务第12章之OpenFeign
rxjs of操作符生成的Observable对象的执行详细分析
pytorch矩阵乘法总结
Android 实现三级菜单的功能

相关主题

Python之函数
Python 使用Django
Python安装scrapy库
python scrapy 基础
Python pip国内源
学习Python(三）
python while语句
Python-Scrapy框架

zl程序教程

当前栏目

第九天 Python爬虫之Scrapy（框架简单使用）

目录

简介

📦Scrapy使用前准备

Scrapy项目的创建，运行以及分析框架结构步骤📦

1、创建项目

2、创建爬虫文件

3、运行

4、分析

运行框架📦

简单运行框架访问一个网站（以💼为例，以及（三个属性两个方法））📦

三个属性以及两个方法

📰代码演示

小总结

最后

相关文章

当前栏目

第九天 Python爬虫之Scrapy（框架简单使用 ）

目录

简介

📦Scrapy使用前准备

Scrapy项目的创建，运行以及分析框架结构步骤📦

1、创建项目

2、创建爬虫文件

3、运行

4、分析

运行框架📦

简单运行框架访问一个网站（以💼为例，以及（三个属性两个方法））📦

三个属性以及两个方法

📰代码演示

小总结

最后

相关文章

第九天 Python爬虫之Scrapy（框架简单使用）