zl程序教程

您现在的位置是:首页 >  其他

当前栏目

大数据时代已来临,你准备好了吗?

2023-03-31 11:05:42 时间

昨日,在亮马河大厦举办了2011大数据世界论坛。

大会现场

覆盖金融,电信,政府,医疗,能源,公共事业,零售,物流等行业对大数据存储,挖掘均有巨大需求,本次论坛集各家所长,共同解决一个问题:面对海量数据,你准备好了吗?

从几拍字节的数据仓库到社交媒体数据,从基于云计算的应用程序到传感器和移动设备,从电子商务处理到地理空间信息,海量数据的时代已经来临。在已经到来的大数据量时代,数据存储发生了什么变化吗?是的,发生了巨大的变化,存储形式仿佛转了一个圈,又回到了文件式存储。据统计,包括视频、音频、图片、微博等在内的非结构化数据将占企业数据的80%左右,到2012年数据存储基本会是以文件形式存储。

在这个大时代来临之时,您是否还记得1TB的数据仓库被视为大储量的年代?如今,您只需要付出不到100美元就可以从当地零售商处购买到存储量为1TB的存储设备,而许多数据仓库的存储量已经超过了拍字节。

不过持续增长的数据量仅仅是海量数据的一半构成内容,海量数据同时带来了数据的多样性,复杂性以及速率的大规模增长。这种变化具有破坏力吗?是的,它具有破坏力,你做好准备迎战它,击败它了吗?这是一次商机吗?是的,这是一次商机,那么你做好准备去利用它了吗?该如何击败,该如何利用?答案只有一个:数据挖掘,挖掘出商机无限,挖掘出潜在信息。

在大众点评网CEO张涛看来,数据挖掘是一家互联网公司必不可少的。实际上,不只是互联网公司,数据挖掘对于任意一家公司都是必不可少的。

#p#

什么是数据挖掘?

简单地说,数据挖掘是指从大量数据中提取或“挖掘”知识。该术语实际上有点用词不当。注意,从矿石或砂子挖掘黄金称作黄金挖掘,而不是砂石挖掘。因 此,数据挖掘应当更正确地命名为“从数据中挖掘知识”,遗憾的是这个词有点长。“知识挖掘”是一个较短的术语,但不能反映从大量数据中挖掘。毕竟,挖掘是 一个很生动的术语,它抓住了从大量的、未加工的材料中发现少量宝贵金块这一过程的特点(见图1-3)。这样,“数据挖掘”成了流行术语。还有一些术语具有 和数据挖掘类似但稍微不同的含义,如从数据中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。

许多人把数据挖掘视为另一个常用的术语数据中的知识发现或KDD的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。知识发现过程如图1-4所示,由以下步骤的迭代序列组成:

1. 数据清理(消除噪声和不一致数据)

2. 数据集成(多种数据源可以组合在一起)

3. 数据选择(从数据库中提取与分析任务相关的数据)

 

图1-3 数据挖掘:在你的数据中搜索知识(有趣的模式)

 

图1-4 数据挖掘作为知识发现过程的一个步骤

4. 数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)

5. 数据挖掘(基本步骤,使用智能方法提取数据模式)

6. 模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式;见1.5节)

7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

步骤1~4是数据预处理的不同形式,为挖掘准备数据。数据挖掘步骤可能与用户或知识库交互。有趣的模式提供给用户,或作为新的知识存放在知识库中。注意,根据这种观点,数据挖掘只是整个过程中的一个步骤,尽管是最重要的步骤,因为它发现用来评估的隐藏的模式。

我们同意数据挖掘是知识发现过程的一个步骤。然而,在产业界、媒体和数据库研究界,术语数据挖掘比长术语从数据中发现知识更流行。因此,本书选用术 语数据挖掘。我们采用数据挖掘功能的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程。基于这种观点,典型的 数据挖掘系统具有以下主要成分(见图1-5):

 

图1-5 典型数据挖掘系统的结构

#p#

数据挖掘到底能做什么?

数据挖掘能做以下七种不同事情(分析方法):

  1. 分类 (Classification)
  2. 估值(Estimation)
  3. 预言(Prediction)
  4. 相关性分组或关联规则(Affinity grouping or association rules)
  5. 聚集(Clustering)
  6. 描述和可视化(Description and Visualization)
  7. 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

数据挖掘中的算法

“数据挖掘算法”是创建数据挖掘模型的机制。为了创建模型,算法将首先分析一组数据并查找特定模式和趋势。算法使用此分析的结果来定义挖掘模型的参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。

算法创建的挖掘模型可以采用多种形式,这包括:

  • 说明在交易中如何将产品分组到一起的一组规则。

  • 预测特定用户是否会购买某个产品的决策树。

  • 预测销量的数学模型。

  • 说明数据集中的事例如何相关的一组分类。

【编辑推荐】

  1. 初探数据挖掘中的十大经典算法
  2. 为您介绍几款开源的数据挖掘工具

数据挖掘算法的类型

包括了以下算法类型:

  1. 分类算法基于数据集中的其他属性预测一个或多个离散变量。
  2. 回归算法基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。
  3. 分割算法将数据划分为组或分类,这些组或分类的项具有相似属性。
  4. 关联算法查找数据集中的不同属性之间的相关性。这类算法最常见的应用是创建可用于市场篮分析的关联规则。
  5. 顺序分析算法汇总数据中的常见顺序或事件,如 Web 路径流。

数据挖掘,越来越多的体现在企业的数据报表上,也会为我们带来越来越明显的效益。所以,您做好准备了吗?做好准备迎接新的时代,利用多样化数据的准备了吗?

【编辑推荐】

  1. BI应用:数据分析和数据挖掘时代来临
  2. 初探数据挖掘中的十大经典算法
  3. 为您介绍几款开源的数据挖掘工具