您现在的位置是：首页 > 其他

当前栏目

Apache Storm源码阅读笔记&OLAP在大数据时代的挑战

amp Apache 源码笔记数据时代挑战阅读

2023-09-14 09:00:25 时间

自从建了Spark交流的QQ群之后，热情加入的同学不少，大家不仅对Spark很热衷对于Storm也是充满好奇。大家都提到一个问题就是有关storm内部实现机理的资料比较少,理解起来非常费劲，下文分享Apache Storm源码阅读笔记 OLAP在大数据时代的挑战。

自从建了Spark交流的QQ群之后热情加入的同学不少大家不仅对Spark很热衷对于Storm也是充满好奇。大家都提到一个问题就是有关storm内部实现机理的资料比较少,理解起来非常费劲。

尽管自己也陆续对storm的源码走读发表了一些博文当时写的时候比较匆忙有时候衔接的不是太好此番做了一些整理主要是针对TridentTopology部分修改过的内容采用pdf格式发布方便打印。

文章中有些内容的理解得益于徐明明和fxjwind两位的指点非常感谢。

storm.pd...[许鹏].1473672493.pdf
二 OLAP在大数据时代的挑战数据的价值

在涉及具体的技术前先想一想为什么需要OLAP这样的系统它有什么价值或者说在公司或部门这是不可取代的么可以带来哪些价值是直接变现还是间接变现。如果不能回答或回答不了那么就是一个很大的问题这其实意味着数据的质量存在问题。没有质量的数据体量再大也毫无价值。

假设已经有很好的oltp系统那么oltp系统在数据量不大的情况下继续扮演olap角色也还可以。一旦业务红火那么oltp中的analyze部分势必会分离出来也就是olap和oltp相互单独存在。

olap中存储大量历史数据数据存储成了olap中要解决的第一个也是首要问题这个需求的解决方案有多种可以是HDFS 也可以是NoSQL数据库也可以是Distributed RDBMS 当中的取舍要视具体情况而定。后面会涉及具体的考虑维度。

数据同步和ETL

如何将数据从oltp迁移到olap 这个同步机制需要考虑数据一致性 zero data-loss, 实时性要求等等。

在大量甚至是海量的历史数据中如何快速定位到所要符合条件的记录数据量如果在TB级以上就需要考虑使用solr或是elasticsearch

花了好多代价保存下来的海量数据只是用了做简单明细查询任何老板都不能容忍一定要在历史的数据进行复杂的分析才行。这时候有一个好的分布式计算引擎就很有必要了。如spark/presto/impala

数据挖掘是一种比数据分析更为复杂的数据分析呵呵个人理解有些绕。这个时候什么算法啦什么机器学习啦可以上场了。

big data or fast data

数据分析中还需要考虑到另一个重要约束就是时间如果希望分析结果愈快愈好那么就需要采用如druid这样的系统。

如果数据规模在10TB以下数据包含结构化和半结构化数据明细查询中条件比较固定不存在全文搜索。需要在比较短的时间内如秒级得到复杂分析结果可以考虑使用distributed rdbms.

如果数据规模远远超过10TB 那么就需要将数据存储/数据查询/数据分析交由不同的系统来处理这个时候就需要组成一个技术栈来解决总量。如HDFS/solr or elasticsearch/Spark or Presto or Impala. 为了提升分析的效率除了从distributed computing engine侧进行优化之外还需要从存储侧进行优化采用先进的存储格式如parquet/orc/carbondata将会极大的提升分析性能。

Apache Storm与Apache Spark对比随着实时数据的增加，对实时数据流的需求也在增长。更不用说，流技术正在引领大数据世界。使用更新的实时流媒体平台，用户选择一个平台变得很复杂。Apache Storm和Spark是该列表中最流行的两种实时技术。让我们根据它们的功能比较Apache Storm和Spark，并帮助用户做出选择。本文的目的是Apache Storm Vs与Apache Spark无关，不是要对两者进行判断，而是要研究两者之间的异同。什么是Apache Storm与Apache Spark？要了解Spark Vs Storm，让我们首先了解两者的基础！ Apache Storm Apache Storm是一个
uname -m -oecho /usr/local/apache/lib /etc/ld.so.confhwclock -w #将时间写入BIOSconfig.

猜你喜欢

基于Java+SpringBoot+Vue企业资源规划系统设计与实现
hadoop2.7.1 nutch2.3 二次开发windows环境
Java实现 LeetCode 451 根据字符出现频率排序
深入剖析tomcat之一个简单的web服务器
xlrd.biffh.XLRDError: Excel xlsx file; not supported
（转）windows环境vue+webpack项目搭建
【设计模式】适配器模式
WEB自动化（4）使用selenium将网站验证码截图保存为本地图片
Centos常规文件作用

相关主题

shell &&
&&与&
js || &&
&amp与&
nohu和&
void*&
JS_&&||
++i && i++
&和&&

zl程序教程

当前栏目

Apache Storm源码阅读笔记&OLAP在大数据时代的挑战

相关文章