《数据分析实战:基于EXCEL和SPSS系列工具的实践》——第3章 数据采集与整理 3.1 数据采集的几条重要原则
本节书摘来自华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章,第3.1节,作者 纪贺元,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
数据采集与整理巧妇难为无米之炊,对于数据分析而言,数据收集是极其重要的一步。我曾经听到有人说过,只要有数据,分析嘛,总归做得出来的,我个人基本同意这个观点。
但大多数情况下,我们面临的都不是现成的数据,需要有一个企业外或企业内的数据收集过程,例如宏观经济数据的收集、市场调查数据的采集等,下面就来看看数据采集需要注意的几条重要原则。
3.1 数据采集的几条重要原则 3.1.1 要足够“复杂”先说一个跟客户接触的例子。一个国企学员课间休息时来问我:“老师,我们领导经常批评我,说我们写的工作报告(数据报告)太简单了,你能看看我们写的报告吗?”我到他电脑前面看了一下,报告确实挺简单的,感觉就是几百个字吧,再看看数据,大概只有6列的样子,难怪领导不满意。
可见,在采集数据的时候,必须要注意数据的复杂性,如同1.1节所说,要综合考虑数据量、复杂度、颗粒度等因素。
都说通过实例说明体会更深,下面再来看另一个例子。数年前,我参与了一家建筑涂料公司发展规划的制作,该公司希望通过对各种信息数据进行分析,从而对未来5年中国的产品发展市场份额有一个整体规划和了解。
让我们看看他们收集了哪些数据,如图3-1所示。
可以看到,要收集的数据不少,但事实上,想要搞清楚企业在未来数年中可能出现的市场态势,即使这些数据都能够顺利找到,可能仍然是不够的。
3.1.2 要足够“细”“细”实际上就是颗粒度的意思,稍微有点数据收集经验的人大概都知道,要收集年度的数据其实相对比较容易,如果粒度为季度,可能就会有点问题了,到月则很难了,至于每周的数据,那就更不要想了。
不过,也不是每个公司都如此,曾有证券公司做定量分析的人说过,证券数据分析虽然不好做,但是有一点好,起码不用为数据发愁,因为证券系统可以提供最细到1分钟的数据,自然,任何周期的数据和指标都可以自己计算得出。
3.1.3 要有“跨度”这里讲的“跨度”涉及两个方面,一是数据的时间跨度;二是数据的属性跨度。
中国有句老话就是“路遥知马力,日久见人心”,在数据方面也是如此。数据的时间跨度有时候也称为“数据年龄”,对于同样的数据指标而言,若“数据年龄”分别为5年和1年,差距其实是挺大的。数据年龄越长,往往越能说明问题。
属性跨度稍微难理解一点,实际上就是尽量要找不同的数据,如图3-1,我们找了宏观经济的数据,例如GDP、经济发展增速;也找了全国人口变迁、流动的数据,还找了竞争对手市场占有率的数据等。总之,所找的数据越“杂”,数据跨度就越大,往往也就越能说明问题。
3.1.4 要有可行性数据收集的一个重要思考维度就是可行性,做过数据采集的人都知道,有时候数据采集的难度之大,会让你觉得这个事情都做不下去了。
我供职过的企业曾经给中国移动的几个省分公司做过供应商,有一次A省分公司让我们了解移动客户的情况,并且给出了一个“客户画像”(这在当时是一个流行的术语,直到现在还有客户提及),那个时候不像现在,手机号码是实名制的,当时中国移动的各个省分公司的全球通手机号比例一般都在20%以下,大部分的手机用户都是神州行和动感地带的,我们根本不知道用户特征,甚至不知道客户的性别。这种情况下,要进行数据收集是很困难的。
还有一个是营销活动数据的收集案例,我们曾经为中国移动的某省分公司收集过营销活动的数据,目的是想知道移动做了营销活动之后,客户的反应情况。当时移动做业务营销的主要方式是短信群发,判断客户对营销活动有反应的终极标准是客户订制了该业务,当然也有一些客户是到移动营业厅或拨打移动客服号1860(当初的客服号,现在改成10086)咨询了该业务。可以想象,在当时的条件下收集这样的数据是何其困难。
数据分析必备的43个 Excel 函数! Excel是我们工作中经常使用的一种工具,对于数据分析来说,这也是处理数据最基础的工具。很多传统行业的数据分析师甚至只要掌握Excel和SQL即可。
数据分析实战——EXCEL实现复购率计算 复购率指消费者对该品牌产品或者服务的重复购买次数,重复购买率越多,则反应出消费者对品牌的忠诚度就越高,反之则越低。
相关文章
- 接口自动化框架脚手架-从Excel读取用例发起调用做断言
- C#7.2——编写安全高效的C#代码 c# 中模拟一个模式匹配及匹配值抽取 走进 LINQ 的世界 移除Excel工作表密码保护小工具含C#源代码 腾讯QQ会员中心g_tk32算法【C#版】
- Html Table用JS导出excel格式问题 导出EXCEL后单元格里的000412341234会变成412341234 7-14 会变成 2018-7-14(7月14) 自定义格式 web利用table表格生成excel格式问题 js导出excel增加表头、mso-number-format定义数据格式 数字输出格式转换 mso-number-format:"@"
- EXCEL,熟悉又不熟悉的项目管理工具
- 《数据分析实战 基于EXCEL和SPSS系列工具的实践》一2.2 选择称手的软件工具
- 《数据分析实战 基于EXCEL和SPSS系列工具的实践》一第3章 数据采集与整理
- pandas中read_excel 与to_excel 的学习
- Excel 函数教程之VLOOKUP实用教程与10个适用于初学者和高级用户的VLOOKUP案例(教程含数据excel)
- Excel VLOOKUP实用教程之 10 在使用 VLOOKUP 函数时处理错误?(教程含数据excel)
- Excel VLOOKUP实用教程之 08 VLOOKUP如果实现区分大小写的查找?(教程含数据excel)
- Excel VLOOKUP实用教程之 06 vlookup如何从使用通配符进行部分查找?(教程含数据excel)
- 基于C#语言利用Microsoft.office.introp.excel操作Excel总结
- 读取Excel还用POI?试试这款开源工具
- Python Excel自动化之 如何根据某一列快速对比两excel文件不同并输出不同内容
- Excel VLOOKUP实用教程之 03 使用下拉列表作为查找值vlookup?(教程含数据excel)
- 《数据分析实战:基于EXCEL和SPSS系列工具的实践》——1.3 数据分析的几大抓手
- 《数据分析实战:基于EXCEL和SPSS系列工具的实践》——3.2 用“逐步推进法”推测需要的数据
- 自己封装的poi操作Excel工具类
- EXCEL excel中运用ctrl+D、ctrl+enter、ctrl+E批量填充数据
- python openpyxl 操作excel xlrd.biffh.XLRDError: Excel xlsx file; not supported错误修改
- 利用Excel批量高速发送电子邮件
- 在Excel VBA中,单元格的.interior.color的值是什么格式的?