一日一技:如何对数据进行过滤
2023-03-20 15:39:16 时间
有一个列表[1, 2, False, '', 'test', 0]
,现在需要把里面所有非空、非False,非0的数据取出来。
可能有一些人会使用列表推导式:
a = [1, 2, False, '', 'test', 0]
useful = [x for x in a if x]
但如果过滤规则稍微复杂一些呢?例如,如果列表里面的元素不是字符串,那么先把元素转换为字符串,然后转换为bytes型数据,计算md5值。如果md5值转换成10进制数以后是3的倍数,那么就把这个数筛选出来。
为了实现这个目的,我们可以定义一个函数:
import hashlib
def check(value):
value_str = str(value)
value_hex = str(hashlib.md5(value_str.encode()).hexdigest())
value_decimal = int(value_hex, 16)
return value_decimal % 3 == 0
a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
b = [x for x in a if check(x)]
运行效果如下图所示。
在Python里面,有一个现成的函数filter
也能实现这个效果:
a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
b = filter(check, a)
此时,获得的b变量是一个生成器对象,只有在对它进行迭代的时候,才能获取里面的值。如下图所示。
filter
函数接收两个参数,第一个参数是一个函数名,第二个参数是一个可迭代的对象。filter函数把可迭代对象的每一个值都放进参数1对应的函数中,如果返回True,那么这个值就是有效的,就会被保留。如果返回False,那么这个值就会被丢弃。
Filter的第一个参数也可以是None
,此时filter(None, [1, 2, '', False, 'xx'])
的效果就是把列表里面所有非空,非0,非False的数据返回出来。
相关文章
- 从本体论开始说起——运营商关系图谱的构建及应用
- 如何成为一名数据科学家?
- 从未见过的堂兄杀了人,你的DNA是关键证据
- 20个安全可靠的免费数据源,各领域数据任你挑
- 20个安全可靠的免费数据源,各领域数据任你挑
- 阿里云李飞飞:All in Cloud时代,云原生数据库优势明显
- 基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)
- 大数据告诉你:10年漫威,到底有多少角色
- TigerGraph:实时图数据库助力金融风控升级
- Splunk利用Splunk Connected Experiences和Splunk Business Flow 扩大数据访问
- 大数据开发常见的9种数据分析手段
- 以免在景区看人,我爬了5W条全国景点门票数据...
- 【实战解析】基于HBase的大数据存储在京东的应用场景
- 数据科学家告诉你哪些计算机科学书籍是你应该看的
- Kafka作为大数据的核心技术,你了解多少?
- Spring Boot 整合 Redis 实现缓存操作
- 大数据学习必须掌握的五大核心技术有哪些?
- 基于Antlr在Apache Flink中实现监控规则DSL化的探索实践
- 甲骨文再次被Gartner评为分析型数据管理解决方案魔力象限领导者
- 爬取吴亦凡微博102118条转发数据,扒一扒流量的真假