从学界到业界:关于数据科学的误解与事实
在从学界(粒子物理学博士后研究员)进入业界(数据科学领域)时,Emily Thompson也曾有过犹疑。而现在,在担任Insight项目总监10个月之后,她对数据科学家有了自己独特的看法。近日,她在一篇文章中就当前人们对数据科学的误解谈了自己的看法,主要涉及数据科学家的职责、应用领域、工作环境、职业发展、技能集合等方面。
误解一:“‘数据科学家’只是‘业务分析师’的一种花哨叫法,他们本质上是相同的”
在数据科学领域,业务分析师仍然占了很大一部分,而数据科学家也构建数据产品,创建软件平台,实现可视化和仪表板,开发前沿机器学习算法。“数据科学家”与“分析师”的最大差别可能是角色的独立性水平。传统的业务分析师需要别人给他们提供已经做过清理并打包好的数据供他们使用;而数据科学家必须是熟练的程序员,他们能够抽取、转换、加载数据,对其他团队的依赖较少。
误解二:“数据科学没什么用,我未必会进入广告行业,或成为一名股市分析员”
数据科学的应用领域同数据科学领域本身一样多样化。计量金融和广告是使用数据挖掘的两个相对传统的行业。医疗行业正在经历一场数据革命。可穿戴技术让收集、聚合、分析大量个人数据成为可能,从如何恰当地锻炼到睡眠如何影响情绪。多媒体是另一个数据科学的重大应用领域。比如,像News Corp.、The New York Times和Bloomberg等大型媒体公司都雇用数据科学家研究读者行为和读者保持;Netflix通过数据分析实现影片推荐;湾区创业公司 Samba TV借助机器学习技术实现内容推荐。
误解三:“我希望对世界产生积极的影响……为公司赚钱似乎与此存在利益冲突”
为营利公司工作与对人们的生活产生积极影响并不冲突。例如,Premise是一家实时经济数据跟踪平台。他们使用机器学习技术来发现一些不易发现的问题,比如,帮助发展银行将钱投资到有需要的邻国,Stitch Fix使用机器学习技术从库存商品中选择客户喜欢的衣服等等。
误解四:“在学术领域,我自己说的算,我喜欢这种自由。我不认自己适合公司结构的环境”
企业结构确实跟学术组织不同,但现如今,在以数据为中心的企业中,那种狂人风格也不是那么普遍。如果你是初创公司最初的成员之一,那么你还有机会影响公司的发展方向。而像Facebook和LinkedIn这样的大公司会分成若干较小的工作组,以保留初创公司的工作氛围。虽然可能会有团队负责人,但数据科学团队是高度协作的。而且,越来越多的公司实现了在家工作策略,数据科学家可以拥有“无限”假期。
误解五:“我觉得,如果不知道未来10年我的职业生涯是个什么样子,就贸然离开学术界,风险太大。要是我就职的公司跨了怎么办?”
不管在哪里,职业生涯都不是可以预测的。数据科学家在一家公司任职的时间平均为3到4年。数据科学家会留在有挑战的岗位上,但一段时间之后,会寻找新的挑战。好处是,数据科学领域有许多选择,而且正在不断发展,对数据科学家的需求很高。在任何一家公司任职,不管成功与否,都会获得宝贵的经验。在找第一份数据科学工作时,最看中的应该是一个可以从同事那里学得大量知识的协作环境。另一个需要关注的点是,在从学界进入业界时,要努力构建一个强大的关系网络(参加聚会、出席数据大会),它能为你提供建议和其他团队的内部信息。
误解六:“数据科学是泡沫”
有人认为,一旦数据分析实现自动化,数据科学家的角色就不存在了。但数据量正呈指数增长,没有任何迹象表明从数据中寻找答案的需求会慢下来。即使数据科学的某些部分可以自动化,但这个行业仍然需要数据科学家的技能。数据可能会很乱,无法应用恰当的工具或者无法了解所有相关的特性,这会产生有误导性的结果。而且,受过良好训练的数据科学家对数据有更好的理解,他们是大数据时代应对数据挑战的最佳人选。
误解七:“我担心自己不具备成为数据科学家的技能”
编码能力强很重要,但数据科学不全是软件工程。数据科学家集编码、统计分析和判断思维于一身。广受欢迎的硬技能、统计知识、编码能力是一名优秀数据科学家的基本工具。还有一项不容易明确定义的技能,就是博士研究员阶段所接受的良好训练。但是,要成为一名数据科学家,并一定要有物理、统计或计算机科学学位。June Andrews的研究显示,在LinkedIn从事数据科学工作的人所拥有的学位差别很大。数据科学本身就具有多学科的特点,而且一些公司开始使用领域专属的数据。因此,只要有量化思维,喜欢摆弄数据,对数据如何引导你提出和回答问题心存好奇,那么你就可以脱离学术界,进入数据科学领域。
原文发布时间为:2015-11-17
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号
相关文章
- 55个实用的大数据可视化分析工具!
- 大数据其实没那么有用,但是炒作它的人确实是都赚钱了
- 用数据目录解决数据蔓延的问题
- Facebook如何运用机器学习进行十亿级用户数据处理
- 足球比赛中的实时数据是如何统计出来的?人工 or 人工智能?
- Hadoop 3.0: YARN Resource自定义资源配置说明
- 大数据处理为何选择Spark,而不是Hadoop
- 大数据告诉你,中国人债务负担有多重
- 中国癌症大数据出来了!每年126万例癌症死亡本可避免……
- 北京焦灼?上海颓废?看大数据如何解读城市性格
- 收集数据太困难?这里为你准备了71个免费数据集
- 大数据看哪里的“百万富翁”最多
- 大数据为青年人兴趣社交"画像"兴趣广泛多元
- 2018,怎么缓解大数据的尴尬
- 后Hadoop时代的大数据技术思考:数据即服务
- 大数据时代下,DBA的角色发生了什么变化?
- 干货:最受欢迎编程语言c与大数据开发实践
- 2017饮酒大数据报告:酒瓶可绕地球129圈
- 数据告诉你:中国城市谁在腾飞?谁在衰落?
- 如何设置大数据和人工智能来转换在线游戏