大数据的由来
大数据概念的的兴起也就是最近不到10年的时间,我们在了解了数据的几个基本概念之后,我们再来看一下大数据出现的背景。数据量大。什么是数据?狭义上讲数据就是数值,也就是我们通过观察、实验或计算得出的结果;从广义上讲,数据的含义更加广阔,也可以是文字、图像、声音等。当前我们所说的数据一般是指广义上的数据。
初识大数据
什么是大数据?大数据的特点是什么?大数据与传统数据之间有什么关系?大数据与我们有什么关系?尽管许多书籍直接解释了大数据的概念和特征,但根据个人经验,如果我们首先了解数据的概念和特征,那么对我们来说,将更容易理解大数据。
有关数据的几个问题
什么是数据?从狭义上讲,数据是一个数值,它是通过观察,实验或计算获得的结果;从广义上讲,数据的含义更广泛,也可以是文本,图像,声音等。我们当前所指的数据通常指广义上的数据。
数据的特征是什么?数据类型很多(语言,文本,值,图像,音频和视频等),并且数据的质量也不均匀。真与假很难区分。数据存储媒体是不同的(口头传输,纸质书籍,数字磁盘)。数据的特征被简单总结。以下几句话:很多,凌乱,混乱。
数据做什么?数据本身的主要功能是记录事物及其发展。人们可以根据这些记录的数据对事物进行分析,并获得相关的规律和结果(例如基于实验数据的相应计算公式),并获得当前或将来事物的规则和结果做出相应的决策和行动。
大数据的起源
大数据概念的兴起在过去不到十年的时间里。在理解了数据的几个基本概念之后,让我们看一下大数据出现的背景。
关于数据的起源,早在远古时代,人们就已经在石头和树木上记录了相应的数据。后来,人们使用竹简,棉丝等来记录和传输数据。在这一阶段,数据的记录和分发非常困难。有限;纸张的出现和印刷的发明之后,数据的记录和传播首次取得了长足的进步,但此时的数据量仍然很小,传输速度相对较慢,传输范围较广。相对狭窄人们对数据的分析和使用非常有限;在诸如计算机和磁盘之类的存储介质问世之前,人们记录数据以及计算和分析数据的能力有了质的飞跃。随着互联网的出现和通信技术的不断进步,数据的产生和传播速度以及数据的传播范围迅速增加,并且数据呈现爆炸性增长。人们几乎可以实时了解世界上的所有重大事件,并且人们已经进入了所谓的大数据时代。
大数据的基本概念
大数据与传统数据之间的异同是什么?只是数量增加了吗?我们处理大数据的方法是否与传统数据相同?大数据与我们的生活之间有直接关系吗?
大数据与传统数据之间的异同是什么?现在更加认识的大数据特征是关于大数据“ 4V”的陈述,即大数据与传统数据之间的异同,即海量数据,各种数据类型,快速数据处理速度快,数据值密度低。
数据量(Volume)
数据类型(Variety)
处理方式(Velocity)
数据价值(Value)
传统资料
数据量少,增长率降低
单一数据类型,主要是数字和文本
手动计算和推导,独立处理,及时性低
值密度高,基本上所有有用的信息都被存储
大数据
数据量很大,并且数据量层呈指数增长
丰富的数据类型,很大一部分的视听数据
分布式处理,及时性高
价值密度低,需要从大量数据中挖掘价值
那么我们应该使用什么方法来处理这些数据呢?根据大数据和传统数据的特征,在处理这些海量数据时,我们的思维应有所变化。在《大数据时代:生活工作与思维的大变革》一书中指出,当我们处理大数据时,思维应该发生三个变化:全量而不是抽样,效率而不是精度,相关性因果关系。
全量而不是采样。在以前的数据存储和计算能力的限制下,通常在数据分析中使用采样方法。通过分析一些数据可以获得相应的结论,然后将其扩展到整个数据集。在大数据时代,数据存储和计算不再是瓶颈。可以将整个数据集用于全局数据分析,以快速获得相应的结果。
效率而不是准确性。在过去的抽样分析中,必须确保样本分析的准确性,以便在全局数据中得到提升,以免在全局数据中数据分析结果的误差会增大,这使得数据分析和验证更加麻烦效率低。在大数据时代,直接分析全局数据,分析结果的误差直接基于所有数据,并且可以在可接受的误差范围内直接使用分析结果,而不必担心分析误差的扩散。
相关性而非因果关系。在过去的数据分析中,分析的目的通常是了解事物背后发生的原理,但是在大数据时代,数据的因果关系并不那么重要。人们经常关注事物将如何发展,而不是为什么要发展数据。随着这种发展,事物之间的关联性变得更加重要。
相关文章
- 从本体论开始说起——运营商关系图谱的构建及应用
- 如何成为一名数据科学家?
- 从未见过的堂兄杀了人,你的DNA是关键证据
- 20个安全可靠的免费数据源,各领域数据任你挑
- 20个安全可靠的免费数据源,各领域数据任你挑
- 阿里云李飞飞:All in Cloud时代,云原生数据库优势明显
- 基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)
- 大数据告诉你:10年漫威,到底有多少角色
- TigerGraph:实时图数据库助力金融风控升级
- Splunk利用Splunk Connected Experiences和Splunk Business Flow 扩大数据访问
- 大数据开发常见的9种数据分析手段
- 以免在景区看人,我爬了5W条全国景点门票数据...
- 【实战解析】基于HBase的大数据存储在京东的应用场景
- 数据科学家告诉你哪些计算机科学书籍是你应该看的
- Kafka作为大数据的核心技术,你了解多少?
- Spring Boot 整合 Redis 实现缓存操作
- 大数据学习必须掌握的五大核心技术有哪些?
- 基于Antlr在Apache Flink中实现监控规则DSL化的探索实践
- 甲骨文再次被Gartner评为分析型数据管理解决方案魔力象限领导者
- 爬取吴亦凡微博102118条转发数据,扒一扒流量的真假