zl程序教程

您现在的位置是:首页 >  大数据

当前栏目

打破数据统一的七大原则

数据 原则 统一 打破 七大
2023-09-11 14:18:20 时间

数据统一在数据分析领域里是个长期的挑战,从事数据分析的从业者希望在数据分析之前,来自不同实体的数据能够在同一个地方呈现出来。数据统一由七部分组成:1、获取数据 2、清洗数据 3、转换数据、4、模式集成 5、重复数据删除、6、分类 7、导出

image

一般而言,企业实现数统一有两种方法,提取转换加载(ETL)和主数据管理(MDM)。

提取转换加载(ETL)具有灵活性的优势,适合不同的数据来源,使程序员可以手工编写转换程序,能够确保源数据模式与集中式数据仓库项目采用的全局模式匹配。但由于自动化程度低,提取转换加载带宽能超过20个数据源没有多少家公司。

主数据管理(MDM),它与ETL类似的地方在于,预设一个“主记录”,每一个有专门的类别选项。如客户、部件和供应商等的所有文件符合主记录格式。但和ETL有所区别的是,MOM不是使用手动的定制脚本,而是依靠一套“模糊合并”规则,把所有不同的文件转换成主格式。

可难解的是,在数据量过大的情况下,不管是ETL还是MDM,都无法解决数据统一难题。加上大数据集的庞大规模以及对程序员的苛刻要求任何的可规模化数据统一项目都必须在很大程度上实现自动化,不能依靠手动编写的程序。

著名计算机科学家、Tamr联合创始人兼首席技术官迈克尔·斯通布雷克(Michael Stonebraker)针对数据统一存在的限制难题,提出数据统一的七条原则。

一、所有的可规模化系统,都必须自动进行绝大多数的操作。

二、模式为先(schema-first)的产品永远无法规模化。唯一的选择是采用‘模式为后’(schema-last)的产品。

三、需要进行具体的域操作时,只有协作性的系统才可实现规模化。

四、为了实现可规模化,任何的统一计算必须在多个核心和多个处理器上运行。

五、尽管存在第四条原则,但真正的可扩展应用需要复杂性低于N ** 2的并行算法。

六、规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。

七、必须支持实时增量统一。

本文转自d1net(转载)


「技术人生」第7篇:从业务视角谈信息技术与业务的关系 本文会在前一篇文章的基础上,继续探讨信息技术的本质以及信息技术和业务的关系,并且尝试理清信息技术在业务开展过程中能起到什么样的作用。而想要讨论清楚信息技术的本质,就必须讨论清楚究竟什么是“信息技术”;想要讨论清楚什么是“信息技术”,就不得不先彻底弄明白什么是“信息”、什么是”技术“。对一个事物本质的探讨,需要我们通过打破砂锅问到底的方式,对那些最显而易见、最不起眼、看起来最不需要讨论的问题发起最简单的追问,才能让我们逐步接近事物本质,这就是“上下而求索”。因此接下来本文会以 “信息”—— “信息技术”—— “信息技术与业务”为主要脉络进行相关的论述。
数字化转型过程中需要厘清的几个关系:产品与能力 在上一篇文章中,笔者主要阐述了规划和建设的关系,而这一篇,重点将聚焦于产品和能力的关系。所谓产品和能力,主要的矛盾在于数字用户的群体和数字语言的鸿沟。如今,数字化转型,已经成为各行各业乃至整个社会的发展目标,而IT组织作为数字工具的支撑,数字需求的传递、数字产品的能力、数字化结果的评估需要重点厘清。
数字化转型过程中需要厘清的几个关系:技术与规则 在文章的开头,笔者摘用一段报告,报告内容对数字化全面转型进行了如下描述:“对于一些高管来说,这是一场关于技术的竞争。对于其他人而言,数字化是一种与客户互动的新方式,它代表了一种全新的经营方式。虽然这些定义都不一定不正确,但是这种多样化的视角却经常让领导团队‘四分五裂’。原因正是理解的不一致和缺乏对企业未来之路的共同愿景。正因为如此,企业会经常出现不连续的举措和错失方向的努力,继而表现出迟缓或从一开始就迷失方向。”
数字化转型过程中需要厘清的几个关系:竞争与生态 竞争和生态的关系,在数字化转型过程中是显得格外尖锐,造成这种尖锐的原因,其实是数字化转型的本质所导致的。笔者和众多数字化专家有过讨论,很多数字化转型的推动者反馈,企业在数字化转型过程中有两种突出的现象,一种是盲目,另一种是焦虑。盲目,在于对数字化的理解不够透彻,更多的是进行信息化和网络化的过程,仅仅是强调可持续发展,而不是最终的价值判断。焦虑的过程主要集中在数字转型的核心阶段,正因为看到了整个数字化,看到了企业战略在数字化底座上底层逻辑的变化,所以产生了焦虑,焦虑的核心无外乎数字化转型的最终目的,竞争或者生态。
架构风格与协同之间设计考量 一次关于架构风格与协同之间的讨论,激发出来自己的很多思考,遂整理出来,与大家分享。 讨论的主要内容有三点: 1、架构风格与应用框架 2、时间、成本和范围的平衡 3、演进式架构的考虑 关于**第一点**,在读《架构整洁之道》一书中就提到过,包的组织形式决定了架构的设计风格,如下图所示,从左至右分别是按层封装、按功能封装、接口和适配器和按组件封装。 ![](https://ata2-img.o