一日二技:MongoDB与 Scrapy 的小技巧各一个
2023-03-14 09:39:11 时间
今天我们来讲两个小技巧。
如何更新 MongoDB 中的一个数组
我们知道,如果想给 MongoDB 的一条文档增加一个字段,我们可以使用update_one方法:
- import pymongo
- handler = pymongo.MongoClient().db.col
- handler.update_one({'name': 'kingname'}, {'$set': {'新的字段名': '新的字段值'}})
但如果有一个字段是数组,我想向这个数组里面添加一个元素。并且,如果这个元素之前就已经在这个数组中了,就什么也不做,只要之前不存在时才添加。
这个时候,我们就可以使用$addToSet操作符来实现这个功能。
这个操作符的语法为:
- handler.update_one({'name': 'kingname'}, {'$addToSet': {'字段名': '要插入的元素'}})
我们来看一个例子。
例如对于如图所示的一条文档:
执行代码:
- handler.update_one({'name': 'kingname'}, {'$addToSet': {'excellent': 'JavaScript'}})
运行以后,数组excellent变为如下图所示:
如果插入一条已经存在的数据,那么这个数组就不会变化。例如:
- handler.update_one({'name': 'kingname'}, {'$addToSet': {'excellent': 'Python'}})
如何使用参数给 Scrapy 爬虫增加属性
在Scrapy 项目中,我们有时候需要在启动爬虫的时候,传入一些参数,从而让一份代码执行不同的逻辑。这个时候,有一个非常方便的方法,就是使用-a参数。它的语法为:
- scrapy crawl 爬虫名 -a 参数1 -a 参数2 -a 参数3
那么,传入的这些参数,在爬虫里面怎么使用呢?其实很简单,你不需要做任何额外的配置,直接在爬虫里面通过self.参数名就可以调用了。例如下面这个爬虫:
大家可以看到,PyCharm 给两个属性self.body_name和self.age_from_cmdline标上了黄色的背景,这是因为PyCharm 找不到这两个属性是在哪里定义的。
但没有关系,我们启动 Scrapy 爬虫的时候,使用-a参数传递进去就好了:
- scrapy crawl example -a body_name=kingname -a age_from_cmdline=28
运行效果如下图所示:
可以看到,这个接口成功接收到了这两个参数,并且把它显示了出来。
本文转载自微信公众号「未闻Code」,可以通过以下二维码关注。转载本文请联系未闻Code公众号。
相关文章
- 数据孤岛是业务效率的无声杀手
- 2023展望:新的一年将给大数据分析领域带来什么?
- 阿里云ADB基于Hudi构建Lakehouse的实践
- 大数据在医疗保健领域的使用案例
- 微软增加说明:KB5021751 更新扫描已经 / 即将过时 Office 过程中不会触碰用户隐私
- 2022 Gartner全球云数据库管理系统魔力象限发布 腾讯云数据库入选
- 场景化、重实操,分享一个实时数仓实践案例
- Arctic的湖仓一体践行之路
- 分布式计算MapReduce究竟是怎么一回事?
- 淘系数据模型治理优秀实践
- 大数据分析对医疗保健的影响
- 当我们说大数据Hadoop,究竟在说什么?
- 2022年及以后大数据的五个发展趋势
- 网易严选离线数仓治理实践
- 2023 年数据治理趋势
- 一份“靠谱”的年度经营计划,你学会了吗?
- 漫谈对大数据的思考
- 测试一下,读懂数据的能力,你有吗?
- 用艺术的眼光探索数据之美
- 聊聊数据分析成果如何落地