您现在的位置是：首页 > Java

当前栏目

Scrapy-Splash：学完秒变爬虫大佬

2023-02-18 16:32:39 时间

前言

Scrapy-Splash的作用就是：「所见即所得」。

开发爬虫的时候，因为网页中有数据动态加载（可参考之前文章）的部分，很多数据是后面渲染上的。爬虫程序只能爬取渲染前的数据，所以很多我们在网站上看到的数据，爬虫并不能直接获取。

而scrapy-splash担任了一个中间人的角色，程序通过splash服务请求网站，并获得splash返回的JS渲染后的网页。

原因

像selenium、phantomjs都是常用的渲染网页的工具。

就拿selenium来说，需要通过加载一个浏览器内核来进行渲染，效率有点低。而且与Scrapy集成需要实现一个downloder middleware，操作起来有些许的复杂，对我这种懒人来说简直折磨。

而scrapy-deltafetch的出现，仅仅几行配置就解决了这些问题。

安装

模块安装

安装scrapy-deltafetch模块。

pip3 install scrapy-splash

docker容器

这里首先要安装docker服务，然后执行命令拉取splash的镜像，启动容器即可。

docker pull scrapinghub/splash
docker run -d -p 8050:8050 scrapinghub/splash --disable-private-mode

拉取docker镜像：

开放8050端口，在浏览器输入你的ip:8050，访问到如下页面表示容器启动成功。

应用

配置

在settings.py中添加splash服务的参数。

SPLASH_URL = 'http://localhost:8050'
DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

「SPLASH_URL」中的IP根据实际情况来填写。

请求

原本使用Request来请求网站，这里要修改成SplashRequst。

from scrapy_splash import SplashRequest
# 原本是yield Request()
yield SplashRequest()

这样，我们访问的url是先经过splash服务的。启动程序，查看日志。

测试

render

这里先在splash提供的页面上测试一把。

splash会请求这个网页的图片、js等，并会渲染后的网页返回给程序。

代码测试

对一个url同时进行普通请求和splash请求。

def start_requests(self):
    yield Request(url=self.start_urls[0], callback=self.parse)
    yield SplashRequest(url=self.start_urls[0], callback=self.parse_splash)

def parse(self, response):
    comment = response.css('div.at-feed-ellipsis__text::text').extract()
    print('Request', comment)

def parse_splash(self, response):
    comment = response.css('div.at-feed-ellipsis__text::text').extract()
    print('SplashRequest', comment)

同时对评论区进行爬取。运行结果如下：

上述样例仅用于学习用途。

结语

就我个人而言，依赖于插件总归不如自己去看看那些动态加载的API，分析之后可以直接模拟请求获取数据。

但是使用scrapy-splash会便利很多，也没有很高的技术门槛，所以还是值得一学的。

猜你喜欢

2021 年最值得推荐的 7 个 Angular 前端组件库 - DevUI
立完flag，你可能需要对flag进行量化
html2canvas实现浏览器截图的原理（包含源码分析的通用方法）
在瀑布下用火焰烤饼：三步法助你快速定位网站性能问题（超详细）
大厂是如何用DevCloud流水线实现自动化部署Web应用的？
手把手教你使用Rollup打包并发布自己的工具库
前端有了这两样神器，再也不用追着后台要接口啦
使用Git，10件你可能需要“反悔”的事
手把手教你使用Vue/React/Angular三大框架开发Pagination分页组件
现代富文本编辑器Quill的内容渲染机制
现代富文本编辑器Quill的模块化机制
[BUGCASE]FixedDataTable表格数据渲染错误
[BUGCASE]Phantom服务代码不健壮导致无法发送报表邮件
[BUGCASE]层叠上下文和z-index属性使用不当引发的文本被遮挡的问题
[BUGCASE]CI框架的post方法对url做了防xss攻击的处理引发的文件编码错误
[BUGCASE]Webpack打包报JavaScript堆内存泄漏的错误
[BUGCASE]前端码案概述
实现复杂状态机的一种思路
日期选择组件（DatePicker）的实现
前端开发的积木理论——像搭积木一样做前端开发

zl程序教程