复盘一件关于数据的糟心事!
大家好,我是一哥~
最近郑州的疫情挺严重的,已经居家一个月了,错过了整个秋天。从10月初小区封控到月末小区有几十例异常,上周才刚刚解封,可以下楼。
也就是下楼后的最近几天,遇到件“糟心事”。从上周五开始发烧了,体温一直在37.5左右,没有其他不适,这个节骨眼儿,遇到这种情况,可以说每天都在焦虑等待核酸结果中度过。直到今天,核酸依然正常,于是想,会不会是家里的那个水银温度计坏掉了???
刚好家里还有另一支水银温度计,于是换着量了下,测量10分钟,体温37!!!
果然,原来那只水银温度计是坏的。一向严谨的我,又喊着家人进行了两组实验,结果证明温度计真是坏掉的。
一个坏掉的温度计,让我4天在焦虑中度过。
于是,想到自己是做数据工作的,竟然被数据忽悠了。
那如果是关于公司的数据出现了类似的“错误”,那可能就不只是焦虑了吧,也许会影响到公司整个业务的布局和发展。
于是,复盘了我遇到的“温度计”事件,除了温度计有问题还有可能是我测量的方式和时间不对,那么对应到我们常说的数据质量方面也就是“技术”和“业务”的影响,导致了数据质量问题。
技术上,我们需要在数据的采集、传输、计算、存储各个方面,保障数据质量。采集过程中,要保证原业务数据表到数据平台表中的结构映射准确;传输过程中,要保证网路可靠,断点续传或者失败后重新覆盖载入全量数据的容错机制;计算过程中,要保证转换规则、清洗规则、业务规则的合理性,要完全理解业务,和业务模型对齐,避免计算口径错误或出现明显异常值;存储过程中,要保证数据写入不能重复,不能丢失,不能失真。
业务上,我们要避免需求不清晰、需求变更管理。需求接收,数据的业务描述、业务规则要清晰,是构建准确数据模型的基础;需求变更,这个问题其实是对数据质量影响非常大的,需求一变,数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生,所以要做好需求变更管理和模型的版本管理,以及需求变更的评审工作。
数据质量可以说是企业数据治理一个重要的组成部分,企业数据治理的所有工作都是围绕提升数据质量目标而开展的。要做好数据质量的管理,应抓住影响数据质量的关键因素,设置质量管理点或质量控制点,从数据的源头抓起,从根本上解决数据质量问题。对于数据质量问题采用量化管理机制,分等级和优先级进行管理,严重的数据质量问题或数据质量事件可以升级为故障,并对故障进行定义、等级划分、预置处理方案和Review。量化的数据质量使得我们可以通过统计过程控制对数据质量进行监测。一旦发现异常值或者数据质量的问题,便根据数据产生的逻辑顺藤摸瓜找到产生数据的业务环节,有效的对业务进行完善。
经此一事后,对“数据驱动”也更加敬畏了,正确的数据分析也许可以赋能业务,错误的数据分析也许会毁灭业务。
敬畏数据,从我做起!
经此一事,与诸君共勉之。
相关文章
- 关于Android大数据收集,埋点统计的详细讲解以及案例代码分析附github代码
- 关于如何用二代测序数据注释单细胞细胞群
- UniPro助力科研院所信息化之平台篇:低代码打通数据
- 关于数据交易所
- 关于数据可视化,想知道的都在这里!
- 【CLS数据淘金第四期】网络流日志-云联网日志分析
- 关于主数据,你感兴趣的都在这里
- HarmonyOS-Codelabs系列挑战之构建你的数据应用
- 关于int类型数据在内存中的高低位存储问题
- 【C语言】关于整型提升、截断、打印数据的结果
- 关于Redis数据持久化的概念介绍
- 关于使用IDEA的springboot框架往Redis里写入数据乱码问题
- HDFS For hdfs-site.xml详解大数据
- Linux基础详解大数据
- Redis配置文件中关于bind参数详解大数据
- SAP中关于物料主数据里物料类型的修改详解编程语言
- 预告:关于机器学习与大数据风控,你需要知道这些 | 硬创公开课
- 使用SQL Server管理汉字数据库:优化性能与数据交互(sqlserver汉字)
- 使用MSSQL统计并对重复数据进行优化(mssql 统计重复数据)
- Oracle序列助您的数据更具唯一性(oracle关于序列说法)
- Oracle元数据管理之精彩详解(oracle元数据设置)
- 挑战极速灌入Redis中的海量数据(给redis里写大量数据)
- AO采集用友oracle数据融合新境界(AO采集用友oracle)
- Oracle帮助企业实现业务快速增长20万台机器协同制造数据(20万oracle造数据)
- jsunicode编码解析关于数据转换为中文的两种方法