zl程序教程

您现在的位置是:首页 >  IT要闻

当前栏目

数据治理很抽象吗

2023-02-18 16:42:13 时间

概述

**本人博客网站 **IT小神 www.itxiaoshen.com

数据治理是当今“大数据”领域里比较热门的话题,数据治理到底是啥?这个其实还蛮抽象的,会蛮偏基础,不像一些数据的业务场景更那么性感,那么容易听得懂,像这块说数据质量,其实大家希望我用数据的时候像一个超市的货架一样,用起来会很方便,像数据架构,它其实就是超市里面的货架,怎么去设计出来;数据标准其实就是我们的蔬菜、水果它的规格是不是统一的;再之后就是数据质量,这个很容易理解,这个就是货架里面的商品当前是否符合我的质量的一些要求;然后元数据我们更多的叫它描述水果、蔬菜这种品种规格;数据生命周期管理也是类似就是我的一些蔬菜和水果的保质期是什么样的;数据安全管理就是不要有人偷,我们把超市里货架的设计其实就把数据治理整个体现简单解释出来了;

这套体系搭建起来核心就是解决几个问题,第一我们叫它巴别塔问题,就是IT部门不懂业务,业务不懂IT部门,所以导致数据他没有办法去用,所以我们一定要出一套统一的标准,所以这个我们叫它数据标准或者业务术语;然后第二我存量的部分其实有大量的叫数据债务或者说技术债务,这一部分其实我们叫它做数据资产的盘点;第三部分就是新建的系统我就不要再去积累这些债务了,我存量部分的这些债务已经足够多了,新建的东西我们前期需要做管控,所以这块叫数据模型管控;然后最后一块是我们现在也是不断的企业再做一些数据的项目,这些项目其实他要沉淀它的数据资产,所以要有一个数据资产平台要去不断的沉淀他本身的这些信息

--王琤-Datablau数据科技创始人兼CEO、CA ERWin全球研发负责人

数据治理正在逐步形成为业界的共识,企业数据治理涵盖数据发现可用、数据及时稳定产出、数据质量保障、数据安全合规、数据生产的经济性,而企业所处在数据治理的阶段不同,数据治理关注的核心需求也存在差异,数据治理管理过程最简单最通俗的就是利用流程和工具将企业的数据转换为有用的信息的过程。不是为了数据治理而进行数据治理,数据治理目的是为了数据应用、赋能业务、提升数据价值

数据治理遇到问题

  • 缺乏统一的数据视图
    • 企业的数据分散在各个业务系统,特别是随着微服务的兴起,分散局面加剧,从而导致企业主和业务人员无法及时感知数据的分布和更新的情况,无法快速找到符合自己需求的数据,也比较难收集到和汇总到有价值的数据并纳入数据资产
    • 数据资源散落各地是老问题,但让业务人员感知并找到更是新的问题,比如在完成大数据平台的数据归集后,建立统一的高体验的可视化平台,建议一套数据的公开发布、宣贯、培训流程都是对于运营的巨大挑战
  • 数据孤岛普遍存在
    • 据统计, 98% 的企业都存在数据孤岛问题 。而造成数据孤岛的原因既包括技术上的,也包括标准和管理制度上的,这阻碍了业务系统之间顺畅的数据共享,降低了资源利用率和数据的可得性
  • 数据质量的低下
    • 元数据的缺失,统计口径的差异都会导致脏乱差的数据无处不在,而质量低下的数据会导致业务决策的偏差,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题,这会导致Rubbish In和Rubbish Out的恶性循环
  • 缺乏安全的数据环境
    • 根据数据泄露水平指数 (Breach Level) 监测,自2013 年以来全球数据泄露高达 130 亿条 ,其中很多都是由于管理制度不完善造成。随着各个机构数据的快速累积,一旦发生数据安全事件,其对企业经营和用户利益的危害性将越来越大,束缚数据价值的释放。
    • 不用多说,现在数据流通和变现最大的挑战就是安全,比如要基于双方的数据整合得到一个更好的预测结果,仍未有业界普遍认可的安全解决方法
  • 缺乏对数据价值的管理体系
    • 哪些是你的核心客户,哪些是高转化率的客户,而哪些是你快要流失的客户,这都需要做好精细化客户标签管理,这就会要求企业建立起自己的一套核心价值数据的管理体系
    • 大部分企业还没有建立起一个有效管理和应用数据的模式,包括数据价值评估、数据成本管理等,对数据服务和数据应用也缺乏合规性的指导,没有找到一条释放数据价值的最优路径

数据资产管理白皮书

基本概念

怎么解决上面的问题呢,国内中国信通院的<数据资产管理白皮书>就提供这样的一个方法论(而国外的有数据管理协会知识体系-DAMA-DMBOK2的十大职能领域;DCMM-_数据_管理能力成熟度评估),它涵盖下面这些方面,包含 8个管理职能也叫八大过程域和 5个保障措施。管理职能是指落实数据资产管理的一系列具体行为,保障措施是为了支持管理职能实现的一些辅助的组织架构和制度体系。

image-20210902224311129

数据标准

保障数据的内外部使用和交换的一致性和准确性的规范性约束,一般包括基础指标和计算指标两个部分;举个例子,对于基础指标比如说我们不同的系统中对于性别它可能会表示为0或者1或者是男或者女这样的汉字、或者说Male或Female这样的英文,那各个系统约定可能是不一致的,那于是乎,国家就颁布了《个人基本信息分类与代码--人的性别代码》,有了这样的标准就可以很好的指导各行各业和各系统的一些值域的选择了

image-20210902220031317

那同样的在“国家标准全文公开系统”中也罗列了行行业业、方方面面的标准,你可以结合自己所在行业加以引用;那计算指标呢?也就是我们通常所谈的口径,举个例子,电商场景下下单转化率、客户的获客成本、复购率等等,那么他们计算的分子分母究竟是什么,是否需要排除一些异常账号或异常订单,是按下单时间还是付款时间来计算,这就需要在一个企业中达成一个统一的共识,那具体是怎么体现在我们的业务系统中呢?那它其实就可以是一个wiki系统,只要把我们使用到的数据标准分门别类的罗列好,方便检索查阅,在定义数据结构和值域的时候引用就可以了

数据模型

数据模型是现实世界数据特征的抽象,用于表示一组数据和概念的定义,那就是数据结构,比如你数据库的ER图,用来描述各种业务主体的结构和它们之间的关系,比如在电商场景下,我们通常会有订单、用户、商品这样的数据结构;那数据模型在我们数据治理的过程中体现在哪些地方,那它落地就体现在你数据库的结构中,但既然我们来谈治理,那么我们还是希望以文档的方式版本化来管理你的结构,从而方便的管理、对比和追溯

元数据

元数据就是描述数据的数据,比如你有一份订单数据,数据有10000行,张三在今天两点完成这些数据整理形成v2版本数据D1,李四在明天三点完成v3版本数据D2,张三、今天两点、v2这些就是为元数据,而D1、D2数据本身就称为主数据;元数据核心作用就是追溯数据的生成过程,并且做数据的血缘关系,这对于评估数据变更造成的影响或者说做全链路的数据正确性核查这一方面的话是有着非常重要的作用

主数据

主数据就是描绘你企业核心业务实体的数据,有可能被你企业多条业务线多个流程阶段所重复共享的高价值数据,那比较电商系统中,你商品的sku数据、订单数据和用户的数据、供应商的数据,这都是你最核心的数据,也是你数据资产的核心内容,那需要你识别它的来源做汇总、做清理,去建设这样的一个主数据从而维护你数据的核心价值

数据质量

方法论

数据是否自相矛盾,比如比如说商品库存减少,但订单数却没有增加,或者说某一时间段的数据莫名其妙的消息,或者说字段的取值类型不符合期望,那这些各种各样的问题如何去分门别类,甚至怎么去找出一个量化的指标呢,那国家颁布的《信息技术数据质量评价指标》就给我们提供了一个方法论的指导他把数据的话题拆分为一下五个方面来衡量,以用户在我们系统下单,然后订单有对接给另外一家公司处理,当两家公司进行订单的核对时例子进行分别讨论

  • 数据完整性

    • 数据是否有缺失,完整程度如何,元素被赋予值的程度,有没有空的或者缺失的,可以分为记录完整性、元素完整性两个方面
    • 记录完整性比如10张表,实际只给我们8张表,有缺失,比如有3000笔订单要结算,实际只给我们2900条订单数据;
    • 元素完整性比如说每张表字段是否完整,比如订单有3000条,但是用户订单地址只有2800条不完整
  • 规范性

    • 是否符合国家、行业以及元数据定的标准、是否符合模型的定义,比如说我们的元数据文档中定义了性别的类型为int类型,并且值域为0、1、2、9,但实际数据并非如此,那我们就称它就违反了规范性
  • 一致性

    • 是否自相矛盾,用来形容数据无矛盾的程度,我们也可以分为两个方面来理解,包括相同数据一致性和关联数据一致性
    • 相同数据一致性比如说商品有价格数据,订单也有一列价格数据,是否是一样的
    • 关联数据一致性比如有500用户有下单信息,但是访问网站的日志信息只有498个用户信息
  • 准确性

    • 描述其实体真实值真实度的程度,通俗说就是数据的正确程度,是否和真实数据保持一致,内容正确,格式合法、数据唯一,脏数据
    • 比如对方给我们的订单数据中订单最终金额用了优惠前的金额,那数据就错了;或者说数据格式的合法性,我们期望订单金额的类型为精度为2的float类型,而对方给我们的String类型且还加了rmb这样的后缀,那就不符合我们约定的格式;或者对方我们订单数据有重复的,或者不是我们公司的订单的脏数据,可以统计符合我们订单数据从而定量评估数据集的正确性
  • 时效性

    • 在时间维度上是否合理,在时间变化的情况下数据的正确程度,时效性一般分为两个方面来展开,
    • 基于时间段分布是否符合预期比如过去每一年订单数据都有10%的提升,但是某一年有60%的骤降,就有可能是异常的数据
    • 数据的合规率比如说下单时间小于用户付款时间,而配送时间小于用户接收的时间,因此但凡有这样违反了这样常识的时间顺序我们就称之为不具有数据的时效性
    • 数据生产的稳定、产生的及时性

当然这五个方面的数据不是静态的和一成不变的,可能在后续处理过程中变化

实践

  • 手段
    • 比如说数据的完整性究竟应该怎么去统计它,正确性应该怎样去核查它,一致性又该怎么样来评估
    • 抽样,就是对数据集合进行采样来做质检,比如随机抽取一定比例的数据和原始数据进行比对,原始数据比如你的ERP、CRM、或者数据库中
    • 统计,比如有多少张非空表的比例如何,非空列的比例如何,比如说值域统计值如何,数据按照月和年统计分布如何。从宏观的角度整理把握和感知整体数据的分布从而做质量的核查,而且在实际大数据场景中,按照统计方式是比较常见和实用的和有效的,它让你更好感知数据集的分布并发现一些长尾的异常数据
    • 规则,比如你下单记录是否有完整网站访问记录等等规则都可以抽象化为程序来执行检查,从而节省人的时间
  • 质量标准
    • 比如我们定了一条标准,不能存在为空的表,且不能存在5%为空的列,重要的列式不能为空的;定好的质量标准需要数据衔接的上下游一起确认,这样才是一个可以落地的质量标准,当然我们没有一次性定义出非常合理的标准,所以说需要不断迭代反复确认的过程
  • 流程,比如说在整个数据生产链路中的多个关键环节我们要做数据质量的把控,一般是QA质量控制这样角色会进行介入,产出这样一份质量报告作为一个核心的交付物
  • 持续改进,在实际场景下,还有成本-效率-质量这三者永远是要被平衡的三角,这就类似我们分布式系统的CAP理论,需要企业自身根据实际情况实施,软件工程通过CI/CD的方法自动化软件质量的验证,并通过UT和API Test来快速暴露问题从而提升软件的质量,那映射到数据生产领域的话,核心就两点
    • 数据质检的自动化
    • 数据质检规则的持续积累,就人的工作不断改变为机器的工作从而提升效能

数据安全

数据权限管理、敏感数据保护、合规要求

数据安全的层面就比较广,比如从国家的法规来评估你的数据的安全风险,从而制定相应制度和策略;那从技术层面上讲,就要保证你的数据在采集、传输、存储的安全性,比如在传输过程中使用SSL协议加密或者在数据存储过程中使用了相应的访问控制策略等等;那在应用层面上讲,我们需要对访问的数据加以控制,比如可以设计基于RBAC的访问控制模型,那资源就只能被拥有某个权限的角色对应的用户才能访问;整个安全上我们希望通过制度、流程、手段、工具、产品的方式做到“事前可管、事中可控、事后可查"

数据价值

数据价值可以围绕成本和应用价值两方面来展开,强调数据生产经济性比如成本包括了你采集、存储、传输、运维方面的成本,这是可以计算出来,而它的价值方面可以通过他使用的分类、频次、对象和产生的收益效果来评估,举个例子,淘宝应用服务器集群每天会产生上百G或上百T的日志,那这就会消耗大量存储和计算成本,包括你存储日志、检索日志,相对来说,另外一份数据比较有价值,通过海量日志统计检索出不同地域搜索关键词统计信息,那这些可能只有几M或者几十M的数据,而它的价值是非常大的,就比如说商家愿意去付费购买这些数据从而优化自己的广告投放策略,所以说能识别不同的数据它的成本以及对应价值能更好指导你去做数据治理的一些活动

数据共享

数据共享是展开数据共享的交换,从而实现内外部价值的一系列活动,基于数据共享实现易查找、好理解、可复用;比如说,你企业构建好的数据仓库,需要提供给算法的团队做模型的训练,或者说不通BU之间他们要share数据进行一些合作的共赢,或者说你的数据通过合法的方式对外发布从而实现你价值的兑现等等之类,它核心是要建立一套数据的标准规范以及共享制度,然后通过数据运营的方式不断去改进

总结

标准和模型都是以文档化的形式加以罗列和引用就可以了,元数据承上启下,给主数据强有力支撑,数据质量会根据数据标准和数据模型定义去核查主数据的质量,那我们所说的数据资产主要就是主数据和元数据两个部分,并且会围绕数据价值和数据共享的一些列活动来展开,而数据安全会贯穿数据治理整个生命周期来展开;

1. 数据治理需要体系建设

**为发挥数据价值需要满足三个要素:**合理的平台架构、完善的治理服务、体系化的运营手段。

根据企业的规模、所属行业、数据量等情况选择合适的平台架构;治理服务需要贯穿数据全生命周期,保证数据在采集、加工、共享、存储、应用整个过程中的完整性、准确性、一致性和实效性;运营手段则应当包括规范的优化、组织的优化、平台的优化以及流程的优化等等方面。

2. 数据治理需要夯实基础

**数据治理需要循序渐进,但在建设初期至少需要关注三个方面:******数据规范、数据质量、数据安全。****规范化的模型管理是保障数据可以被治理的前提条件,高质量的数据是数据可用的前提条件,数据的安全管控是数据可以共享交换的前提条件。

3. 数据治理需要IT赋能

数据治理不是一堆规范文档的堆砌,而是需要将治理过程中所产生的的规范、流程、标准落地到IT平台上,在数据生产过程中通过“以终为始”前向的方式进行数据治理,避免事后稽核带来各种被动和运维成本的增加。

4. 数据治理需要聚焦数据

数据治理的本质是管理数据,因此需要加强元数据管理和主数据管理,从源头治理数据,补齐数据的相关属性和信息,比如:元数据、质量、安全、业务逻辑、血缘等,通过元数据驱动的方式管理数据生产、加工和使用。

5. 数据治理需要建管一体化

数据模型血缘与任务调度的一致性是建管一体化的关键,有助于解决数据管理与数据生产口径不一致的问题,避免出现两张皮的低效管理模式。

总而言之,数据治理不是一蹴而就的,它是一个漫长而持续的过程,没有一针顶破天的诀窍,也没有立竿见影的途径。只有将数据治理变成一种常态化机制,就如同我们每天吃饭、睡觉一样,形成一种习惯、一种文化、持之以恒、不忘初心、不懈努力,才能达到预期目标。

阿里巴巴数据治理实践

image-20210905120417152

image-20210905120842718

image-20210905121334952

image-20210905121630292

image-20210905122120971

image-20210905122608052

image-20210905122925913

image-20210905123054133

image-20210905123454389

image-20210905124216781

image-20210905124345645

image-20210905124605698

image-20210905124643725

image-20210905124748623

image-20210905124836457

image-20210905153912504

数据安全治理实践

目前行业不乏有很多企业在开发数据治理的工具产品和提供数据治理解决方案,比如DataBlau、昂凯,亿信睿智、傲天科技等等等

昂凯数据安全治理思路建议

image-20210905130041400

image-20210905130124075

image-20210905151205626

image-20210905151242608

image-20210905151416101

昂凯数据安全治理解决方案

image-20210905151855221

image-20210905152249806

image-20210905152503102

image-20210905152649960

image-20210905152715652

image-20210905153021301

image-20210905153243396