Python爬虫之使用celery加速爬虫
2023-09-27 14:23:14 时间
celery是一个基于分布式消息传输的异步任务队列,它专注于实时处理,同时也支持任务调度。关于celery的更多介绍及例子,笔者可以参考文章Python之celery的简介与使用。
本文将介绍如何使用celery来加速爬虫。
本文爬虫的例子来自文章:Python爬虫的N种姿势。这里不再过多介绍,我们的项目结构如下:
其中,app_test.py为主程序,其代码如下:
from celery import Celery
app = Celery('proj', include=['proj.tasks'])
app.config_from_object('proj.celeryconfig')
if __name__ == '__main__':
app.start()
tasks.py为任务函数,代码如下:
import re
import requests
from celery import group
from proj.app_test import app
@app.task(trail=True)
# 并行调用任务
def get_content(urls):
return group(C.s(url) for url in urls)()
@app.task(trail=True)
def C(url):
return parser.delay(url)
@app.task(trail=True)
# 获取每个网页的name和description
def parser(url):
req = requests.get(url)
html = req.text
try:
name = re.findall(r'<span class="wikibase-title-label">(.+?)</span>', html)[0]
desc = re.findall(r'<span class="wikibase-descriptionview-text">(.+?)</span>', html)[0]
if name is not None and desc is not None:
return name, desc
except Exception as err:
return '', ''
celeryconfig.py为celery的配置文件,代码如下:
BROKER_URL = 'redis://localhost' # 使用Redis作为消息代理
CELERY_RESULT_BACKEND = 'redis://localhost:6379/0' # 把任务结果存在了Redis
CELERY_TASK_SERIALIZER = 'msgpack' # 任务序列化和反序列化使用msgpack方案
CELERY_RESULT_SERIALIZER = 'json' # 读取任务结果一般性能要求不高,所以使用了可读性更好的JSON
CELERY_TASK_RESULT_EXPIRES = 60 * 60 * 24 # 任务过期时间
CELERY_ACCEPT_CONTENT = ['json', 'msgpack'] # 指定接受的内容类型
最后是我们的爬虫文件,scrapy.py,代码如下:
import time
import requests
from bs4 import BeautifulSoup
from proj.tasks import get_content
t1 = time.time()
url = "http://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0"
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
# 发送HTTP请求
req = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(req.text, "lxml")
# 找到name和Description所在的记录
human_list = soup.find(id='mw-whatlinkshere-list')('li')
urls = []
# 获取网址
for human in human_list:
url = human.find('a')['href']
urls.append('https://www.wikidata.org'+url)
#print(urls)
# 调用get_content函数,并获取爬虫结果
result = get_content.delay(urls)
res = [v for v in result.collect()]
for r in res:
if isinstance(r[1], list) and isinstance(r[1][0], str):
print(r[1])
t2 = time.time() # 结束时间
print('耗时:%s' % (t2 - t1))
在后台启动redis,并切换至proj项目所在目录,运行命令:
celery -A proj.app_test worker -l info
输出结果如下(只显示最后几行的输出):
......
['Antoine de Saint-Exupery', 'French writer and aviator']
['', '']
['Sir John Barrow, 1st Baronet', 'English statesman']
['Amy Johnson', 'pioneering English aviator']
['Mike Oldfield', 'English musician, multi-instrumentalist']
['Willoughby Newton', 'politician from Virginia, USA']
['Mack Wilberg', 'American conductor']
耗时:80.05160284042358
在rdm中查看数据,如下:
在文章Python爬虫的N种姿势中,我们已经知道,如果用一般的方法来实现这个爬虫,耗时大约为725秒,而我们使用celery,一共耗时约80秒,大概相当于一般方法的九分之一。虽然没有scrapy这个爬虫框架和异步框架aiohttp, asyncio来的快,但这也可以作为一种爬虫的思路。
本次分享到此结束,感谢阅读~
注意:本人现已开通微信公众号: Python爬虫与算法(微信号为:easy_web_scrape), 欢迎大家关注哦~~
相关文章
- python并发编程之进程、线程、协程的调度原理(六)
- 【华为OD机试真题 python】士兵过河【2022 Q4 | 200分】
- [Python] 个人TIPS
- python简单爬虫操作(requests、etree)
- 如何通过 Python 与 ChatGPT 对话
- 精通Python网络爬虫:核心技术、框架与项目实战.1.1 初识网络爬虫
- Python爬虫技术--基础篇--数据类型和变量,标识符与关键字,运算符和表达式
- Python--爬虫,了解防盗链-->解决防盗链,解决反反反爬
- Python数据分析挖掘案例:Python爬虫助力疫情数据追踪
- Python新建项目自动添加介绍和utf-8编码
- Python爬虫-函数
- Python Scrapy 自动爬虫注意细节(2)
- 《Python Cookbook(第3版)中文版》——6.11 读写二进制结构的数组
- 【Python行业分析4】BOSS直聘招聘信息获取之爬虫程序数据处理
- 基于Python的租房数据分析和房屋租赁爬虫 | 项目案例 | 大学生计算机专业毕业 | 毕业设计
- 手把手带你入门Python爬虫(一、工欲善其事必先利其器)
- Python程序设计之 —— 简易学生信息管理系统
- 聚焦Python分布式爬虫必学框架Scrapy打造搜索引擎
- 17. python爬虫——基于scrapy框架中的ImagesPipline进行图片数据爬取
- 12. python爬虫——基于selenium登陆12306网站
- python爬虫学习笔记目录
- Python人工智能实例 │ 使用Haar级联进行人脸检测、使用CAMShift算法、光流法进行人脸追踪
- Python 爬虫 之 爬取百度贴吧内容的封装、输入贴吧主题即可对应爬取
- python爬虫练习之requests+BeautifulSoup库,提取影片信息,并保存至excel
- Python 爬虫正则表达式和re库,及re库的基本使用,提取单个页面信息
- Python爬虫-Scrapy的item loader
- Python爬虫伪装