一个数据应用闭环(转载)
收集:
各种开源的分布式日志收集系统:
Scribe, Flume等等
存储
可以同时包含各种不同的存储类型,可根据不同的需求增减相应的存储类型:
底层存储:能够存储大量的数据,最好具有可扩展性 HDFS S3等等
关系存储:MySQL,Postgresql等等
键值存储:HBase,Redis等等
计算
计算能力也应该同时包含集中不同的类型,可根据不同的需求增减相应的存储类型:
批量处理型计算:MapReduce,脚本批量转换作业等等
实时统计型计算:Storm,各种监控系统
实时存取型计算:各种KV数据库都可以达到这个目的;关系型数据库也具有这样的能力
逻辑转换
这就是所谓的ETL,开源的ETL工具,比如Kettle。
数据访问
开发的报表系统,各种OLAP产品(比如Oracle BIEE),SQL访问接口(比如Hive等等)
价值提取层
价值就是比较抽象的东西了,仁者见仁,不必迷恋复杂的算法,要对所探究的对象本身有深入的理解;
更好地解读数据,利用逻辑转换层(ETL)或编写程序来达成本层的两个目的:
1. 建立研究对象(比如每个用户)的标签库(如果必要,可以采用聚类/分类算法),以固定的格式存储于关系存储或键值存储中
2. 根据数据发掘出类之间的关系,找出关联比较明显并且有价值的关系,记录到WIKI或者专门的知识库中
这层可以自己编写程序,结合使用开源工具(Mahout/scikit-learn/Weka)来实现
数据应用层
主要是建立价值层与产品的直接联系,让发掘出来的规律直接应用在提升产品品质或其它方面,这一层的任务主要在于建立从分类库、知识库到产品的管道
以上各层最终应该形成一个闭环,不断优化成长
相关文章
- js和原生应用常用的数据交互方式
- 大数据应用之双色球算奖平台总体设计数据规模估算篇
- 从基础设施到云原生应用,全方位解读阿里云原生新锐开源项目
- 13个应用案例,讲述最真实的大数据故事
- 大数据在信贷行业的营销与模型应用案例
- 使用 MaxCompute Studio 开发大数据应用
- 深入了解Struts2返回JSON数据的原理及具体应用范例
- 141. 如何在 SAP UI5 应用里安全存储一些敏感的数据,避免被上传到 Github 去的风险
- 35. 如何把本地开发的 SAP UI5 应用部署到 ABAP 服务器上
- 如何在 SAP UI5 应用里安全存储一些敏感的数据,避免被上传到 Github 去的风险试读版
- SAP UI5应用部署在tomcat上运行的部署路径问题,基于Eclipse
- 为什么我开发的SAP UI5应用里的group by 功能不工作?
- Chrome开发者工具对Vue应用的支持
- 阿里小Ai之父解析阿里大数据在新兴行业的应用
- 如何使用SAP云平台的Notification服务给Android应用推送通知消息
- SAP Fiori应用里的get org sales target
- Angular应用里的Template Reference变量
- DL之YoloV3:Yolo V3算法的简介(论文介绍)、各种DL框架代码复现、架构详解、案例应用等配图集合之详细攻略
- BigData之MongoDB:MongoDB(基于分布式文件存储的非关系型数据库)的简介、下载、案例应用之详细攻略
- RFSoC应用笔记 - RF数据转换器 -19- API使用指南之状态指示函数(ADC、DAC均适用)
- 【语音处理】一种增强的隐写及其在IP语音隐写中的应用(Matlab代码实现)
- 2022 年度中国时序数据应用创新奖公布,涉及工业互联网、车联网等多个行业
- Qt数据库应用5-海量数据多线程导出