pyspider最佳实践
实践 最佳
2023-09-27 14:23:27 时间
pyspider是好东西,非常稳定,很久很久以前架了一个,心冷了一段时间,但人家尽忠职守地持续运行,一直在抓取东西。
结合chrome,抓取代码简直不要太好写,没想到,最头大的,还是它的调度。明明感觉没问题的,就是不运行。在这个上面花的时间,比页面解析的要多。所以,把近期的学习心得记录下来:
第一、控制台的含义。rate/burst控制并发和速度基本不用管。progress现实近期调用次数可以参考一下。我用得最多的是左上角的Recent Active Tasks,可以查看究竟运行了几个爬虫任务(对应self.crawl)
第二、几个重要控制设置。@every(minutes=24*60)是指的运行间隔。@config(age=300)指的页面周期(单位秒),周期范围内将不执行抓取。
第三、我的需求,是对一些固定页面(已经存在库中了)进行定时检查,解析出链接,已经入库的老链接忽略,新链接入库。所以,不采用默认的start页面进入总页面,解析出一组分页面链接,再分别调用分页面的方式。而直接在start中启动所有分页面,分页面设置有效期,定期自动重新获取。而start每天重入一次,保证链接活动即可。如下:
补充一下,如果设定了重新刷新的间隔,那么——这个间隔很难修改,哪怕把服务器上pyspider关了,重开,还是原来的间隔。最后没办法,只能新建一个项目,把代码复制过去才ok!
相关文章
- php核心技术与最佳实践知识点(下)
- MySQL事务隔离级别的最佳实践
- OpenCV萌新福音:易上手的数字识别实践案例
- Docker —— 从入门到实践
- 支撑分布式 Scrum 团队的五项最佳实践
- 医院信息集成平台项目建设方案与实践 第5章 平台建设推进计划
- 部署zookeeper实践
- 七牛开发者最佳实践日开启第一站 全方位揭开流媒体技术真相
- 【Docker】Dockerfile 最佳实践-USER
- 【Docker】Dockerfile 最佳实践(一)
- 【spring boot 系列】spring data jpa 全面解析(实践 + 源码分析)
- ES6 Promise 的最佳实践
- 自动化工具后起之秀Ansible的部署实践
- 给DevOps打上最佳实践的标签
- Dubbo 序列化最佳实践
- 混合云使用不能盲目:学习最佳实践是王道
- 读取生产环境go语言的最佳实践展示
- 【机器学习PAI实践十二】机器学习实现男女声音识别分类(含语音特征提取数据和代码)
- halcon学习和实践(颜色筛选)
- 你必须知道的JavaScript最佳实践
- [译] 搜索结果页的最佳实践
- 【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示
- 【转载 Hadoop&Spark 动手实践 2】Hadoop2.7.3 HDFS理论与动手实践
- Vue最佳实践(五招技巧)
- React Native 在 Glow 的实践
- 【CURL】PHP的CURL开发项目最佳实践