您现在的位置是：首页 > 后端

当前栏目

Python爬虫之使用celery加速爬虫

Python 爬虫加速 Celery 使用

2023-09-27 14:23:14 时间

celery是一个基于分布式消息传输的异步任务队列，它专注于实时处理，同时也支持任务调度。关于celery的更多介绍及例子，笔者可以参考文章Python之celery的简介与使用。
本文将介绍如何使用celery来加速爬虫。
本文爬虫的例子来自文章：Python爬虫的N种姿势。这里不再过多介绍，我们的项目结构如下：

项目结构

其中，app_test.py为主程序，其代码如下：

from celery import Celery

app = Celery('proj', include=['proj.tasks'])
app.config_from_object('proj.celeryconfig')

if __name__ == '__main__':
    app.start()

tasks.py为任务函数，代码如下：

import re
import requests
from celery import group
from proj.app_test import app

@app.task(trail=True)
# 并行调用任务
def get_content(urls):
    return group(C.s(url) for url in urls)()

@app.task(trail=True)
def C(url):
    return parser.delay(url)

@app.task(trail=True)
# 获取每个网页的name和description
def parser(url):
    req = requests.get(url)
    html = req.text
    try:
        name = re.findall(r'<span class="wikibase-title-label">(.+?)</span>', html)[0]
        desc = re.findall(r'<span class="wikibase-descriptionview-text">(.+?)</span>', html)[0]
        if name is not None and desc is not None:
            return name, desc
    except Exception as  err:
        return '', ''

celeryconfig.py为celery的配置文件，代码如下：

BROKER_URL = 'redis://localhost' # 使用Redis作为消息代理

CELERY_RESULT_BACKEND = 'redis://localhost:6379/0' # 把任务结果存在了Redis

CELERY_TASK_SERIALIZER = 'msgpack' # 任务序列化和反序列化使用msgpack方案

CELERY_RESULT_SERIALIZER = 'json' # 读取任务结果一般性能要求不高，所以使用了可读性更好的JSON

CELERY_TASK_RESULT_EXPIRES = 60 * 60 * 24 # 任务过期时间

CELERY_ACCEPT_CONTENT = ['json', 'msgpack'] # 指定接受的内容类型

最后是我们的爬虫文件，scrapy.py，代码如下：

import time
import requests
from bs4 import BeautifulSoup
from proj.tasks import get_content

t1 = time.time()

url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
            like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
# 发送HTTP请求
req = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(req.text, "lxml")
# 找到name和Description所在的记录
human_list = soup.find(id='mw-whatlinkshere-list')('li')

urls = []
# 获取网址
for human in human_list:
    url = human.find('a')['href']
    urls.append('https://www.wikidata.org'+url)

#print(urls)

# 调用get_content函数，并获取爬虫结果
result = get_content.delay(urls)

res = [v for v in result.collect()]

for r in res:
    if isinstance(r[1], list) and isinstance(r[1][0], str):
        print(r[1])


t2 = time.time() # 结束时间
print('耗时：%s' % (t2 - t1))

在后台启动redis，并切换至proj项目所在目录，运行命令：

celery -A proj.app_test worker -l info

输出结果如下(只显示最后几行的输出)：

......
['Antoine de Saint-Exupery', 'French writer and aviator']
['', '']
['Sir John Barrow, 1st Baronet', 'English statesman']
['Amy Johnson', 'pioneering English aviator']
['Mike Oldfield', 'English musician, multi-instrumentalist']
['Willoughby Newton', 'politician from Virginia, USA']
['Mack Wilberg', 'American conductor']
耗时：80.05160284042358

在rdm中查看数据，如下：

celery数据

在文章Python爬虫的N种姿势中，我们已经知道，如果用一般的方法来实现这个爬虫，耗时大约为725秒，而我们使用celery，一共耗时约80秒，大概相当于一般方法的九分之一。虽然没有scrapy这个爬虫框架和异步框架aiohttp, asyncio来的快，但这也可以作为一种爬虫的思路。
本次分享到此结束，感谢阅读~
注意：本人现已开通微信公众号： Python爬虫与算法（微信号为：easy_web_scrape），欢迎大家关注哦~~

猜你喜欢

【JavaScript】Key值对照表
电池保护板 - 问题归纳
【nginx】IPV6改造+用域名访问项目
2017技术趋势：最受欢迎的几大工具
返回值说明
在线支付系统功能
Word2010设置题注和交叉引用方法
C++程序设计：原理与实践（进阶篇）16.6　关联容器
Apache Kylin权威指南3.4　管理Cube碎片
AT&T联盟Ubuntu，开放网络大步走
微软发布紧急安全更新：应对Flash Player漏洞
K3 LEDE固件更改FRP客户端版本
柳传志
tomcat热部署的实现原理
linux 终端操作快捷键
Windows下搭建Android开发环境
NPOI导出Excel
云创大数据吹响进军互联网的号角
蓝桥杯冲刺训练营之递归——例5.统计好数字的数目
sql server2005安装时报 ‘服务无法启动’
构建短文本分类模型需要注意的几点
机器学习——支持向量机SVMpython实现
创建提醒事项

相关主题

python基础03
python爬虫多url
Python 类与继承
一个python
正则表达式python
python爬虫登录
python实现聊天
python 筛选
python堆排序
Python爬虫三
python爬虫系列

zl程序教程

当前栏目

Python爬虫之使用celery加速爬虫

相关文章