MaxCompute最佳实践
实践 最佳 MaxCompute
2023-09-11 14:21:05 时间
---不同体系数据仓库架构的心路思考
步枪单打能力很强,远程射杀敌人,面对一对一或远程一对少均可应付,然而当敌人近身、面对多数时,步枪的威力远不如机关枪,近处大面积杀伤敌人远比步枪强很多。传统体系架构的数据仓库即关系型数据库加小机的体系架构犹如步枪,面对少量数据,后台小批量处理能力很强;但当面对大数据且要求处理提速时就不如分布式的MaxCompute了,尤其是面对海量数据(百TB以上),MaxCompute就犹如面对大量近敌的机关枪啦,机关枪单位时间内处理的子弹(数据)要比步枪多很多,处理效果明显得多。
建设数据仓库或者说数据中心首要的是数据采集,即获取子弹,无论传统关系型数据库架构的数据仓库还是采用MaxCompute构建的数据仓库都需要特定规格的子弹,即数据都需要符合特定的格式,不能任意选取;如果工厂出产的弹药不符合规格,需要首先进行转换才能应用。如果用户突然手拿一些弹药(数据)要求直接压入弹仓,步枪反而灵活一些;最近笔者亲身经历客户手拿5G数据要求导入数据仓库,换做关系型数据库如Db2、Oracle应当是比较简单的事情,而MaxCompute需要将文件拆分成小文件,因每次上传是有大小要求的。
海量数据加工处理当然是MaxCompute的优势,抗战电影中的歪把子机枪突突一分钟,消耗500多发子弹,步枪无论如何也达不到这个速度;当然用机枪点射不如步枪效果好。传统数据仓库数据加工一般采用多层次结构,目的是用空间换时间提升数据处理效率;而MaxCompute拥有强大的海量数据处理能力,但并不意味着不要层次,直接应用采集的原始数据无异于没有构建数据仓库,类似直接访问业务库的镜像、快照,犹如又回到了数据库系统的原始阶段,因此必要的分层加工还是必要的。例如本人遇到的一个业务系统是商品交易网站的后台数仓,从业务数据库同步而来的用户数据、商品销售数据、派送信息、库存信息,如果不进行必要的加工汇总,每次从这些离散的数据表提取信息显然是不可取的,不仅每次多表关联消耗资源而且难以保证数据结果的质量。
诚然,面对海量数据的处理使用机关枪(MaxCompute)很爽、很痛快,不用担心数据处理能力不足的问题,再加上有专职的“机枪”维护人员,系统的维护也不用担心;完善的调度流程管理不用担心调度系统无缘无故的挂起;但同时也意味着失去了一些灵活性。做数据仓库系统久远了,面对的数据处理“五花八门”,尤其是“紧急情况下”的异常处理,如发现数据不正常,直接删除数据或是更新数据,MaxCompute是很不“配合”的,对于习惯关系型数据库操作的“资深人士”来说,是很不适应的;当然这样做的目的也是规范的一种,当不规范成为习惯且认为是理所当然时是非常遗憾的事儿。
日志数据投递到MaxCompute最佳实践 日志服务采集到日志后,有时需要将日志投递至MaxCompute的表中进行存储与分析。本文主要向用户介绍将数据投递到MaxCompute完整流程,方便用户快速实现数据投递至MaxCompute。
阿里巴巴云数据仓库 MaxCompute 数据安全最佳实践 MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级 ,结合数据生命周期,针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,构建全生命周期的数据安全防护体系。
MaxCompute尽管还有这样、那样的问题,还有这样、那样的不习惯,但面对当今的海量数据仓库的建设不乏是最优的选择之一,因为它的方便、因为它的易用、因为它的简单……
数据仓库的建设伴随着MaxCompute走下去……
日志数据投递到MaxCompute最佳实践 日志服务采集到日志后,有时需要将日志投递至MaxCompute的表中进行存储与分析。本文主要向用户介绍将数据投递到MaxCompute完整流程,方便用户快速实现数据投递至MaxCompute。
阿里巴巴云数据仓库 MaxCompute 数据安全最佳实践 MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级 ,结合数据生命周期,针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,构建全生命周期的数据安全防护体系。
相关文章
- Laravel最佳实践--API请求频率限制(Throttle中间件)
- 基于OpenCV的图像编解码实践
- 中国移动架构师大数据分析模型实践:解决渠道猫和老鼠的游戏
- MongoDB最佳实践及性能优化(DTCC中国数据库技术大会分享PPT)
- (流式、lambda、触发器)实时处理大比拼 - 物联网(IoT)金融,时序处理最佳实践
- 《大数据系统构建:可扩展实时数据系统构建原理与最佳实践》一1.6 全增量架构的问题
- 《软件工程方法与实践》—— 2.2 什么是软件过程
- 《多核与GPU编程:工具、方法及实践》----第1章 概 述 1.1 多核计算机时代
- 8 个构建容器应用的最佳实践
- 《面向机器智能的TensorFlow实践》一 1.5 何为TensorFlow
- 《精通Spring MVC 4》——2.2 对MVC的质疑及其最佳实践
- 《配置管理最佳实践》——1.4 权限和需求跟踪
- 《配置管理最佳实践》——1.5 管理全球分布式开发团队
- 《配置管理最佳实践》——2.9 架构是构建的基础
- 《配置管理最佳实践》——2.13 结论
- FlutterComponent最佳实践之角对齐
- 《R语言与数据挖掘最佳实践和经典案例》—— 2.4 通过ODBC导入与导出数据
- 《Core Data应用开发实践指南》一2.10 代码片段:demo方法
- 【Spring Cloud】Feign最佳实践
- 浅析Nginx实践常用配置:设置二级域名虚拟主机并通过Nginx配置访问、如何配置反向代理、如何配置CORS跨域、如何配置Gzip压缩、如何配置负载均衡、如何配置动静分离、如何配置高可用集群(双机热备)
- k8s最佳实践:cgroup kmem的内存泄露问题
- 老徐最近翻译的Mercury“最佳功能测试实践”-第一部分
- 【最佳实践】bat运行时如何不弹出黑框?
- 分区索引的应用和实践 - 阿里云RDS PostgreSQL最佳实践
- Greenplum在企业生产中的最佳实践(上)