Python爬虫:scrapy定时运行的脚本
2023-09-14 09:07:14 时间
原理:
1个进程 -> 多个子进程 -> scrapy进程
代码示例
将以下代码文件放入scrapy项目中任意位置即可
# -*- coding: utf-8 -*-
# @File : run_spider.py
# @Date : 2018-08-06
# @Author : Peng Shiyu
from multiprocessing import Process
from scrapy import cmdline
import time
import logging
# 配置参数即可, 爬虫名称,运行频率
confs = [
{
"spider_name": "hexun_pdf",
"frequency": 2,
},
]
def start_spider(spider_name, frequency):
args = ["scrapy", "crawl", spider_name]
while True:
start = time.time()
p = Process(target=cmdline.execute, args=(args,))
p.start()
p.join()
logging.debug("### use time: %s" % (time.time() - start))
time.sleep(frequency)
if __name__ == '__main__':
for conf in confs:
process = Process(target=start_spider,
args=(conf["spider_name"], conf["frequency"]))
process.start()
time.sleep(10)
相关文章
- Python爬虫实战之爬取糗事百科段子
- 第三百五十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
- python爬虫解决手机验证码问题
- 小白学 Python 爬虫(26):为啥上海二手房你都买不起
- 小白学 Python 爬虫(12):urllib 基础使用(二)
- Python爬虫开发:fake_useragent库伪造User-Agent
- Python语言编程学习:文件路径变量修改,利用os模块固定文件父路径,变换文件子路径实现代码
- Python爬虫基础:多进程简介
- 持续维护中|最全数据分析资料汇总(趣味Python、商业数据分析、爬虫、高效工具等等)
- Python爬虫:scrapy管理服务器返回的cookie
- python爬虫---requests库的用法
- 通过Python爬虫获取【小说网站】数据,保姆级教学
- Python 爬虫 NO.4 HTTP 响应状态码
- error_description‘: ‘遇到错误,请刷新页面或者重新登录帐号后再试‘, ‘er 网络爬虫需要cookies python 爬虫