zl程序教程

您现在的位置是:首页 >  大数据

当前栏目

《数据科学与大数据分析——数据的发现 分析 可视化与表示》一1.3 新的大数据生态系统中的关键角色

数据数据分析 分析 可视化 发现 关键 1.3 表示
2023-09-11 14:17:44 时间

本节书摘来自异步社区《数据科学与大数据分析——数据的发现 分析 可视化与表示》一书中的第1章,第1.3节,作者【美】EMC Education Services(EMC教育服务团队),更多章节内容可以访问云栖社区“异步社区”公众号查看

1.3 新的大数据生态系统中的关键角色

在1.2.4节介绍的大数据生态系统中,新的生态参与者已经涌现,进行数据的策划(curate)、存储、生产、清除和处理。此外,为了应对日益复杂的业务问题,就需要采用更先进的分析技术,这就推动了新角色、新技术平台和新分析方法的出现。本节将介绍可以解决这些需求的新角色,在后续章节还会介绍一些分析方法和技术平台。

如图1.12所示,大数据生态系统需要三类角色。在麦肯锡2011年5月发布的“大数据全球研究”报告中对这些新角色进行过描述。


a9911c944b02d4725c91c66f3971bde68b9df236

第1类:深层分析人才。这类人才精通技术,具有较强的分析能力。他们拥有多项技能,具有处理原始数据和非结构化数据的能力,并且可以应用复杂的大规模分析技术。这类人深入学习过各种量化学科,比如数学、统计学和机器学习。这类人所做的工作一般是在一个强大的分析沙箱或者工作区中进行大规模的数据分析实验。符合这个群体的职业包括统计学家、经济学家、数学家和新兴的数据科学家。

麦肯锡研究报告预测,到2018年美国将会有14万到19万个深层分析人才的缺口。这并不是指市场所需要的深层分析人才的总量,而是表示市场人才需求量和市场可用人才的缺口。这个预测只是反映了美国人才的短缺,相信这个数字在全球范围内会更大。

第2类:数据专业人员。这类人才技术深度较浅,但是具有统计学或机器学习的基本知识,能够定义那些使用高级分析可以回答的关键问题。该组成员通常具有处理数据的基本知识,而且了解一部分数据科学家和其他深层分析人员所做的工作。数据专业人员包括金融分析师、市场研究分析师、生命科学家、营运经理以及业务和职能部门的经理。

麦肯锡研究报告预测,到2018年美国将会有150万数据专业人员的缺口,这个数字是深层分析人才缺口的10倍。经理、董事和领导者们需要开始具备一定的数据专业专员的素质,这样他们才能拥有更宽阔的视野,知道哪些问题可以使用数据来解决。

第3类:技术和数据支持人员。这类人才掌握的专业技术知识可以用于支持分析项目,例如,配置和管理分析沙箱,以及管理企业和其他组织内的大规模数据分析架构。这类人员需要具备计算机工程、编程和数据库管理相关的技能。

这三类人群只有紧密合作才能解决大数据所带来的复杂挑战。大多数组织机构对报告中提到的后两类人比较熟悉,但是对第一类人(深层分析人才)了解不多。关于深层分析人才,本节将重点介绍数据科学家这一新的角色,讲解数据科学家具体要做什么和所需要掌握的技能。

下面是数据科学家经常进行的3类任务。

将业务的挑战转化为分析的问题。具体而言,就是剖析业务问题,考虑问题核心,并判断哪种分析方法可以用来解决问题。这个概念将在第2章中进一步讲解。 设计、实施、部署大数据的统计模型和数据挖掘技术。这类任务也是通常人们理解中的数据科学家的职责:运用复杂或高级的分析方法和数据来解决各种业务问题。本书第3章到第11章将详细介绍业界流行的几种分析技术和工具。 产生能被用于指导实践的洞见。需要注意的是,使用高级方法解决数据问题本身不一定会带来新的商业价值。重要的是要能够从数据中分析出有效见解并进行有效传播。第12章将简述如何实现这一点。

数据科学家通常应该具备以下5项主要技能和行为特征,如图1.13所示。

量化分析技能:比如数学或者统计学。 技术能力:比如软件工程、机器学习和编程技能。 怀疑性的和批判性的思维:数据科学家需要以全面的方式仔细检查自己的工作,这一点非常重要。 好奇心和创造力:数据科学家应该热衷于数据,寻求创造性的方式来解决和描述信息。 沟通和协作能力:数据科学家必须能够清晰地阐述数据项目能带来的商业价值,并具备和他人(包括项目出资人和利益相关者)协作的能力。


388584ab39591a85ba6a6f353d8b70ce4bf3eb63

一般而言,数据科学家习惯于使用上述技能来获取、管理、分析和可视化数据,然后再就数据讲令人信服的故事。下节将讲解几个大数据分析案例,看看数据科学家如何利用大数据来创造新价值。


大数据数据分析架构探究(二) 上一篇提到机器与机器之间交流,这里解释一下意思,其实说的是机器与机器间像人一样交流,但交流的密度更甚于人与人之间,甚至于远远超过人,因为它突破了很多人的限制。首先最重要突破的限制是交流的频率和交流的网络,交流的频率就是人与人交流一条消息的平均时间和机器与机器交流的时间的对比。
大数据数据分析架构探究 从范式角度来讲,维度建模是以2NF的方式来描述数据,实体关系建模是以3NF的方式进行数据描述,由于分布式数据架构的兴起,使得维度建模得到了技术支持。换句话讲,现在数据增长的速度,对于现在的数据技术架构不再是技术瓶颈。
玩转大数据系列之二:数据分析与处理 经过了数据采集和同步之后,就可以在阿里云上进行数据分析和处理,来玩转您的数据了。本文向您介绍在阿里云大数据各产品中,以及各产品之间怎样来完成您的数据处理和数据分析。
异步社区 异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。