用数据目录解决数据蔓延的问题
当数据库被复制用于企业不同的任务时,大数据成为一个大问题。数据目录提供了一个强大的的解决方案。
企业的安全分析团队需要自己的生产数据库的副本,以便他们可以查找出欺诈性帐户。企业的应付帐款部门需要一个可以分析的提取物来提高供应链效率。企业的销售经理需要其所有客户记录。而企业的数据库管理员正在使用两个快照和两个完整备份来确保所有数据都是安全的。
当数据不必要地重复时,数据蔓延发生
企业所面临的是一个典型的数据蔓延问题。当组织(无论出于何种原因)创建多个生产数据副本时,廉江会发生这种情况。创建每个副本总有一个很好的理由,但总体来说,它们变得一团糟。
随着业务用户越来越希望在大数据的背景下自己分析数据,数据蔓延正成为一个真正的问题。据IDC公司估计,目前多达60%的存储容量用于复制数据,2018年复制数据存储的总成本将高达500亿美元。但据估计,只有不到20%的组织拥有复制管理标准。调研机构Gartner公司分析师DaveRussell表示,许多公司将会保留30至40份业务数据。
数据蔓延导致组织不同步
除了数据蔓延对基础设施和性能造成的明显影响之外,数据完整性成为一个真正的问题。例如,对客户关系管理(CRM)系统中的客户记录进行更新的销售人员有可能与客户数据库中的相同记录不同步。恢复错误备份的数据库管理员可能会用旧信息覆盖生产数据。
许多企业正在为复制蔓延问题开发的基于技术的解决方案,其代价高昂,但是对于许多客户组织来说,最简单和***成本效益的方法是以数据目录为基础的良好数据治理。
企业数据目录维护公司拥有的所有数据的单个目录。这不仅可以包括生产数据,还包括备份、摘录、摘要。生产数据可以使用独特的签名进行“指纹识别”,以便过时的副本不会无意中进入关键任务应用程序。同样,副本和提取可以根据其预期用途进行标记。目录甚至可以通过确保标记有某些元标记的数据不会被覆盖来提高数据完整性。
数据目录加强数据治理策略是解决方案
数据目录的使用应该与良好的治理实践相结合。例如,员工需要知道哪些数据可用于分析用途,哪些不应该被触及,这是副本或新的相关数据。数据库管理员需要清楚的参数来说明如何恢复备份的数据集。使数据治理既有效又令人愉快的一种方法是鼓励商业用户通过众包的数据质量程序标记自己的数据来加入这个过程。
使用数据目录减少了数据蔓延的基础设施损失,减少了孤立数据的发生。它还可以减轻数据库管理员的负担,同时提高对业务用户请求的响应速度。例如,需要客户记录的销售经理可以使用目录来查找其他部门中已经存在的数据库,并避免加入积压的IT作业单。
企业不应该因为内部数据太多而受到影响。其解决办法不是拒绝具有敏捷性的查看过程的请求,而是为了更好地理解自己拥有哪些数据,以便更加有用。合适的目录可以提供管理和治理,这是一条可以解决数据蔓延和数据驱动的公司的路径。
相关文章
- 数据孤岛是业务效率的无声杀手
- 2023展望:新的一年将给大数据分析领域带来什么?
- 阿里云ADB基于Hudi构建Lakehouse的实践
- 大数据在医疗保健领域的使用案例
- 微软增加说明:KB5021751 更新扫描已经 / 即将过时 Office 过程中不会触碰用户隐私
- 2022 Gartner全球云数据库管理系统魔力象限发布 腾讯云数据库入选
- 场景化、重实操,分享一个实时数仓实践案例
- Arctic的湖仓一体践行之路
- 分布式计算MapReduce究竟是怎么一回事?
- 淘系数据模型治理优秀实践
- 大数据分析对医疗保健的影响
- 当我们说大数据Hadoop,究竟在说什么?
- 2022年及以后大数据的五个发展趋势
- 网易严选离线数仓治理实践
- 2023 年数据治理趋势
- 一份“靠谱”的年度经营计划,你学会了吗?
- 漫谈对大数据的思考
- 测试一下,读懂数据的能力,你有吗?
- 用艺术的眼光探索数据之美
- 聊聊数据分析成果如何落地