科普篇:什么是大数据
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
到底多少数据量才算大数据?到底是结构化的,还是非结构化的?到底是要精确的真实的?......
如果我们冷静的思考一下,就会发现,大数据与我们息息相关(大数据已经融入了我们衣食住行的每个角落),但同时又会发现,大数据所涉及到的这些特殊技术,离我们又是那么的遥远。
我们还是来看看,大数据到底改变了什么?它其实就是通过海量的数据处理,让我们做决策时变的更轻松,更靠谱。比如我们在网上购物时,它首先会告诉你某个商品有多个人评价,评价越多,也就意味着越多人买;当你点击去之后,就可以看到好评度是95%,还是98%?如果是在360浏览器中打开的话,还有一个价格趋势,告诉你历史价位走势如何,其他电商平台是不是更便宜?除此之外,还有其他同类或同价位商品的推荐与排名等。有了这些信息,你就掌握了做一个购买决策时的几个关键信息:
1、这款商品好不好卖?
2、这款商品口碑好不好?
3、这个价格便不便宜,现在是不是最便宜的时候?
4、有没有其他更好的商品?——这个时候,是否将这个商品改进购物篮并付款,做这个决定变得非常轻松。
那它是怎么做到的呢?就是化繁为简,将海量的数据,归纳整理为几个简单的指标。
相关文章
- Amazon GameTech 架构最佳实践系列 —— MOBA/FPS架构篇
- 将 Amazon DynamoDB 数据流式传输到集中式数据湖
- Amazon DynamoDB 的十年之约
- 通过使用 Amazon Graviton2 提升 EMR 的性价比
- 使用 Amazon Personalize 的用户细分功能来提高广告投放效果
- 亚马逊云科技连续七年被评为《2021 Gartner Magic Quadrant for Cloud Database Management System》—— 云数据库魔力象限领导者
- 在亚马逊云科技 Marketplace 上的 SaaS 架构设计 —— 计费系统设计的最佳实践
- 在Amazon Athena 上使用 Partition Projection 与 Glue Partition Indexes 效能比较
- java jdbc preparestatement_JAVA JDBC prepareStatement 添加数据
- Python Day5
- 在亚马逊云科技数据存储中保护敏感数据的最佳实践
- 利用 AWS Batch 来为容器化负载调用海量云端算力
- Amazon Redshift 跨数据库查询入门指南(预览版)
- Amazon Glue 实现 JDBC 数据源增量数据加载
- 使用 Amazon Glue 来调度 Amazon Redshift 跑 TPC-DS Benchmark
- 【Java】------- Java dataTable 循环数据使用示例代码
- 使用 Amazon Redshift 构建分层数据仓库分析 OLTP 数据
- 使用 Athena Federated Query 为 Tableau Server 提供多种数据源的统一管理和联合查询能力
- 数据压缩java_Java实现数据压缩 zlib
- 使用 Debezium 将 MySQL 数据导出到 Amazon S3