zl程序教程

您现在的位置是:首页 >  大数据

当前栏目

大数据对CPI调查的挑战和启示

数据 挑战 调查 启示
2023-09-11 14:18:25 时间

近年来,以海量数据为基础,以网络信息技术为支撑,以数据挖掘和分析为途径,以提高生产力为目标的大数据浪潮席卷全球。面对“大数据热”,作为重要民生指标之一的居民消费价格指数——CPI应积极成为参与者,而不是旁观者。CPI调查如何利用大数据?其中既有挑战,也有启示。

三要素挑战传统

《大数据时代》作者舍恩伯格认为,大数据思维区别于传统数据思维主要有三个转变:一是要全体不要抽样;二是要效率不要绝对精确;三是要相关不要因果。这种大数据思维对以抽样调查为基础、以“三定一直”为手段,以同质可比为原则、以原因分析为目标的CPI调查带来了挑战。

抽样调查和“样本=总体”。传统CPI调查在进行制度与方案设计后,通过抽样调查,实现对总体情况的描述和推测。按目前CPI调查制度,全部262个基本分类中,除了鲜菜、鲜瓜果等少数类代表规格品数量较多外,绝大多数基本分类所需的最低代表规格品数量仅为1-3个。实践中,受人力、物力、财力限制,除少数大城市规格品数量较多外,多数市县只达到制度要求的最低水平或略多一点。但从消费市场看,改革开放以来,消费品和服务的种类呈现了爆炸式的增加,以与居民生活密切相关的食用植物油为例,食用植物油按照原材料不同可以分为花生油、大豆油、玉米油、菜籽油、葵花籽油、棕榈油、茶油、橄榄油、芝麻油、亚麻籽油等,如果算上不同品牌,衍生出来的具体规格品数量可能有数百种甚至更多,而现行方法制度规定最低规格品数量为3个。尽管传统CPI抽样调查具有成本优势,能较好保证样本数据的精确度和可靠性,但也存在前期准备要求高、信息量有限、难以扩大规模等缺陷。随着互联网的高速发展,现代信息技术不断进步,大数据使CPI有机会和条件获得和使用全面数据,实现“样本=总体”。

同质可比和效率优先。同质可比是传统CPI编制遵循的一个基本原则,在价格调查中如不注意同质可比,会造成价格指数的非正常变化。相对于准确性,大数据更青睐数据的完整性和效率,如果这一思维引入CPI调查,在有人力、物力、财力和时间限制的条件下,忽略同质可比,接受大数据效率优先是可行的,也是必须的。面对数以十万计的海量数据,按照传统的数据审核模式进行逐笔审核、比较,检查是否同质可比是难以想象的。但忽略同质可比这一传统原则,对现行CPI调查是一个颠覆。

为什么和是什么。目前的CPI调查遵循传统的统计分析模式,是一种因果关系的分析思路,重点要知道“为什么”。而大数据通过搜集海量数据,观察数据与数据之间的相关关系,重点搞清楚“是什么”。如果CPI分析引入大数据相关关系的分析思路,虽然能更好地发现一些以前难以发现或不曾注意的联系,但可能无法知道为什么会有这种联系。

数据采集方式、分析服务水平有待改善

改进数据采集方式。随着大数据时代来临,传统CPI采价方式存在的缺陷有望得到改善和弥补。比如,在超市收银管理系统中增加一个价格采集模块,可以查询、筛选、导入所需的规格品价格和信息,并传送到统计数据平台。如能实现,不仅采价频率可以实现全年365天无休,选择的规格品也可以是这家超市的所有商品,并且采集的是实际成交价,几乎不会出现价格错误。

完善权数编制。在大数据背景下,如果能有效获取商务、医疗等相关部门数据资料,以及大型超市、商场、电商历史销售明细,将为CPI调查的小类、基本分类权重分配提供更具说服力的参考依据。

提高分析服务水平。在大数据时代,政府价格调控不仅需要事后分析,更需要事前预测,并且预测的准确度越高,对决策的帮助越大。如果能及时获取价格行政记录、商超价格数据、电商价格资料,并把这些庞杂无序的数据进行整理、分析、归纳,变成有用的信息,不仅有利于佐证和评估官方CPI数据,还有利于由事后总结研究向事前分析预警转变。

对接系统、审核数据有难度

调查对象配合意愿低,数据获取难。大数据应用面临的首要问题就是数据如何及时全面获取,目前主要存在两大难点。一是企业普遍配合度不高,基本不愿意提供相关数据。究其原因,除顾虑信息安全、商业秘密外,企业并不能从中得到实惠是最大制约因素。二是企业管理系统各不相同,也不愿意直接开放服务器。由于商业形态复杂,既有跨国连锁企业、国内大型连锁超市,也有地区性百货公司、区域内便利店等。各企业所用管理系统各不相同,开发语言有差异,数据存储格式有差别,要开发通用的软件系统直接读取系统数据或制定通用的数据使用办法存在困难,这也给利用大数据带来技术障碍。

与现行CPI系统对接非易事。大数据应用与消价调查工作相结合,一大关键点就是海量数据进行标准化加工与CPI系统能不能有效对接。一是海量数据如何进入CPI系统,依靠人工录入是完全不可能的。二是规格品计量单位如何对接,比如,很多食品以千克为单位,而企业的销售单位往往是袋、瓶或件。如果折算为千克,需要大量细致而繁琐的工作,并且还需要根据企业变化而变化,进行动态调整。

数据量激增,审核难度大。大数据是超大量数据,再加上混杂性和多样性,其误差很难防范和控制。在大数据应用过程中,数据量会急剧增加,如果只是采集部分价格,难以达到大数据应用目的;如果采集全体价格,仅一个企业的数据量就会超过现有的调查数据总量。随着数据获取方式发生变化,数据质量控制成为难点。直接调用企业内部数据减少了中间环节,但如果仅有价格数据,缺少其他对应信息,将给数据质量控制带来困难。实际工作中,工作人员可能需要进行人工甄别,避免出现异常价格数据。

缺乏大数据应用、开发、分析能力。大数据获取是大数据在CPI调查应用中的一大难点,但不是最大难题。获取数据后的审核、分析、评估、挖掘才是大数据应用的关键。比如,大数据分析的方法研究就超过了单一学科领域,需多学科联合。但现阶段CPI调查既缺乏相应的技术支持,更缺乏相关人才,对大数据挖掘工具以及相关建模还多有空白区。

谨慎推广,加强人才储备

做好顶层设计,建立健全相关制度。要将大数据引入CPI调查需要做好顶层设计,要解决两个问题。一是修改完善目前的调查制度,使之适用于大数据应用,形成制度保障。二是设计好科学、合理、可操作的CPI应用大数据的实施方案。

积极研究,谨慎推广。大数据在CPI中的应用即使在发达国家也是新事物,缺乏借鉴,需要摸着石头过河。为避免试错成本过高,应先做好相关理论研究,发现问题,解决问题,在取得阶段性成果的基础上选择具备条件的地方开展大数据应用试点,最终根据试行结果决定是否扩大推广。

加强相关人才培养和储备。现阶段系统上下缺乏相应的技术支持,更缺乏相关人才。虽然短期可以通过服务外包、聘用专家的方式应急,但从满足长期调查需要看,需要建立大数据应用的人才培养体系,培养、储备一批能够整理和分析大数据的人才。

提高企业参与热情。目前企业普遍配合度不高,除法律制度规定、技术手段保障其信息安全和商业秘密外,还应为其提供有用的服务,与调查对象共享成果。比如,对数据的深度挖掘分析,帮助企业提高效率和收益等,只有实现互惠互利,企业有良好预期,才可能积极配合,提供支持。

本文转自d1net(转载)


浅谈-大数据工程师面临的困境和要学习的技术 读书的时候,语文老师总会让同学看看作者的生平简介,谈谈作者为什么会写出这篇文章,文章诞生的背景是什么背景,一方面是让同学理解文章,另外一方面是让同学感同身受。 鄙人,不是大厂,也不算外包,算是靠在阿里系的一家创业公司的交付部门的小小大数据工程师,心比天高,命比纸薄。 当然,也和上学没有好好学习有关系,怨不得其他人。 回到正题,咋们先从我的个人经历聊一下大数据工程师现在面临的困境和我的一些解决思路。
大数据就业前景,分析的太到位了 大数据广泛应用于电网运行、经营管理及优质服务等各大领域,并正在改变着各行各业,也引领了大数据人才的变革。大数据就业前景怎么样?这对于在就业迷途中的我们是一个很重要的信息。