IT系统分析师如何学习大数据
2023-04-18 14:37:57 时间
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢?
学习大数据的最佳方法就是先从了解信息系统是如何工作着手,尤其是数据库和基础设施。同样在开始前还需要了解大数据工具,如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。
系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能包含了各种来源的结构化数据和非结构化 数据——数据仓库、Hadoop、NoSQL、内存数据、文件以及应用程序——所以你必须学会组织数据,以便系统有效的处理他们。确保你的主数据一致性, 以避免出现多个版本的数据——多个不同步的数据库。
数据保护同样重要;要熟悉组织的数据安全处理过程,同样还需要了解安全、合规性以及治理流程。根据数据敏感程度的不同、考虑屏蔽、编校或加密保护。
大数据源的定义
数据仓库HadoopNoSQL内存数据文件数据应用程序数据
在接触这个项目之前的最后一步,考察客户对服务质量的要求。他们需要分析多大的数据,以及这些数据的响应速度。例如,对于大型数据库,近乎实时响应的需求会 需要将其放置在内存或者闪存缓存中。IBM的BLU Accelerator 和SAP HANA都十分适合在内存中快速读取的应用场景。此外,理解你用户的预期结果——他们正试图得到的答案。如果你知道他们需要的结果,就可以组织数据与系 统,以更有效的达到目标。
相关文章
- Beats 入门实战(1)--简介
- Spring事务(六)-只读事务
- Spring事务(五)-事务隔离级别
- java_day07
- 为什么用Redis做排行榜?
- 推荐一款工具,辅助估算线程池参数
- 啥是Session?
- 用过Redis吗,它使用在哪些地方(使用场景)?
- Mybatis插件应用之数据脱敏
- ElasticSearch 实现分词全文检索 - Restful基本操作
- ElasticSearch 实现分词全文检索 - Java SpringBoot ES 索引操作
- springboot中使用mybatisplus自带插件实现分页
- 记录一下今天所学 9.22
- CTO 说了:谁再用 Redis 过期监听实现定时任务,立马滚蛋!
- Disruptor生产和消费模式详解及高级应用(并行模式)
- Mybatis 一级缓存和二级缓存原理区别 (图文详解)
- 7、System类
- Kafka为什么性能这么快?4大核心原因详解
- 我的JSP&Servlet之旅、01 HTTP基础、模型架构
- Java swing实现应用程序对数据库的访问