zl程序教程

您现在的位置是:首页 >  大数据

当前栏目

大数据现象是怎么形成的?

数据 怎么 现象 形成
2023-09-27 14:26:24 时间

"大数据"的起源(历史故事)

早在1971 年,“互联网”一词尚未诞生时,智利总统萨尔瓦多·阿连德就已经下令打造一个由电报机组成的网络系统。这个社会主义实验产物,旨在使用类似计算机网络的系统来统筹管理国民经济,曾经在1972年成功解决卡车司机大罢工导致的食品短缺危机。后来因皮诺切特政变上台、阿连德身亡而遭废弃。

这个项目被称为“协同控制工程”(Project Cybersyn),它是一台超级“计划机器”。它能够实时地将数据从智利的国有工厂传输到位于圣地亚哥的一个运营中心。在那里,这些收集到的数据被输入一个模拟软件中,用来监督生产情况,并在物料不足或配额未达成的情况下发出警报。这种工作方式与如今被称为“大数据”的技术极其相似。尽管工程最终失败了,它仍然为如今被称为“工业互联网”的网络打下了基础,它证明了:通过传感器、网络和软件互相连接的机器远比单独工作时更富有成效。

“协同控制工程”最酷炫的部分是指挥中心的操作室,它坐落于圣地亚哥市中心的国家电信公司内院。这个一个六边形、直径10米的房间,房间中间放置着七张橙白交织的玻璃纤维旋转椅,椅子上一侧扶手密布按钮,另一侧设计了烟灰缸和酒杯槽。全面实行无纸化办公,不使用任何桌子和纸笔。这个房间充满了未来感,很像库布里克电影《2001太空漫游》中的场景。

操作室墙上是四块颜色丰富的显示屏,触摸椅子扶手中的按键,屏幕上就可以显示数以百计的图片和数据,提供与经济运行有关的统计资料。还有一面屏幕被作为模拟器使用,通过设定不同价格、产量配额和能源配额,即可估算国家经济走势。不过限于当时技术,屏幕上的内容必须由四位身手敏捷的女职员手动记录。

最有趣的是,屏幕上还预留了显示整个国家情绪指数的位置。如何知道国民情绪呢?这个工程有个伟大的设想:在智利的每家每户客厅里安装一个传感器,两极标注“幸福”与“不幸”,人们每天根据自己的心情指数拨动传感器,这种幸福数据将通过电视或无线电波返回到中央规划,在操作室屏幕上产生一个国民幸福指数。饱含人文关怀!也许也应该预留“智利民族复兴指数”显示窗口,实时显示完成进度。

阿连德为何如此科幻?他是阿西莫夫读得比马克思还多的领导者吗?事实上对于如何管理国民经济,他有自己独特的想法。1970年,阿连德通过自由选举上台时,他面对的是从上届政府手中继承的一片混乱的矿山和工厂,其中一些被工人占领,一些被私人持有,只有极少数尚能有效率地运作。当务之急是将国家重点产业国有化,因此阿连德自然想建立一个“超现代信息系统”,这个系统可以向政府官员显示全国的工厂如何运行,以及国民如何快乐,并且这一切都得是实时的!

阿连德于是任命了一位名叫费尔南多·弗洛雷斯的年轻人,要求他负责全盘统筹国有化运动。弗洛雷斯是当时前卫的“控制论”的追随者,他的最大偶像是英国控制论大师斯塔福德·比尔。受命当年7月,费尔南多·弗洛雷斯写信向比尔求助。收到信的比尔大感意外,随即欣然前往智利,着手打造这个庞大网络。

接下来的两年间,比尔没日没夜地工作。他的付出带来了惊人的回报:以异乎寻常的快节奏,一套崭新的信息交互系统在 智利狭长的国土上初具雏形,从北方炙热的沙漠到南部冰冷的草原,它携带各个工厂的日常信息、重要原材料的流动、旷工率等数据开始了运作。

外界如此描述这位生于1926年的科学天才的成就:首次将控制论应用于管理,并致力于开发通讯技术在控制社会、生物和技术系统中的作用。智利经济中央计划机器工程名字中的cybersyn一词即是cybernetic synergy(“协同控制论”)的缩写。“Cybernetic”是法国科学家安培(没错,就是那个电流单位)创造的新词,1948年,另一位控制论理论家诺伯特·维纳(Norbert Wiener)在《动物与机器》一书中将其借用过来,改造成现在所知的“控制论”的意思。法国科学家安德烈-马里·安培(André-Marie Ampère,1775年-1836年)首先提出“cybernetic”一词,经后人发挥,它变成了今日“赛博空间”一词的词源。

由cybernetic一词反向构词(back-formation)出来的“cyber-”词根后来衍生出“与网络有关的”之义,其中最著名的单词成员是“cyberspace”:赛博空间。赛博空间即起源于控制论。

诺伯特·维纳的《动物与机器》全称《控制论:或关于在动物和机器中控制和通讯的科学》,是一本狂野的书。这可以从其章节名字上看出来:第一章:牛顿时间观和柏格森时间观;第二章:群与统计力学;……第五章:计算机与神经系统;第六章:格式塔与普世;第七章:控制论与精神病理学;……第九章:论学习与自生机器;第十章:脑波与自控系统。作为医学博士的阿连德估计对此会兴致盎然。

斯塔福德·比尔很快地造出了“协同控制工程”的原型。在系统中,由计算机标记出需要立即处理的问题,或帮助模拟每一个决策的长期后果。通过分析海量数据,它理论上可以像先知般提醒管理者任何可能导致不稳定的因素。1972年,在机器的帮助下,智利政府成功解决卡车司机大罢工导致的食品短缺危机。

但是理想与现实毕竟存在差距,尤其在当时技术受限的情况下。1972年12月30日,阿连德亲临指挥中心,兴奋地按下了转椅上的一个按钮,“嘟”,“蓝屏”了,啊不,更准确地说是,屏幕上跳出了一堆错误信息。他忙不迭地安抚工作人员,“别害怕,继续工作。”

在另一个例子中,某水泥厂经理发现即将到来的煤炭短缺可能导致公司停产,于是亲赴煤矿解决了问题。过了几天,他收到了“协同控制工程”的通知——要当心煤炭危机!由于存在严重的信息延迟,工厂后来并没有多少动力去报告真实数据。

阿连德对该计划深信不疑。比尔确定,即便对相关理论一窍不通,这位当过医生的总统也会“本能地理解”自己对网络的生物学特性的看法。更重要的是,两人都坚信,协同控制工程并非旨在监视和控制人民,而是允许工人参与管理,并与中央政府建立互信真诚的合作。

“计算机和孩子一样,官老爷离不开它。”1972年,智利乡村歌手安格尔·帕拉这样唱道。 “智利被计算机掌握了!”1973年,英国《观察家报》在头条这样宣称。

1973年9月11日,皮诺切特将军领导军队发动了针对阿连德的军事政变。阿连德在总统府前中弹身亡。多年来,阿连德的支持者几乎一致认为他是被政变军人杀害的。近年来,他死于自杀的这一版本慢慢开始为人接受。皮诺切特上台后,不能容忍中央经济规划,试图让经济在自由市场的环境下发展,这个疯狂的“协同控制工程”随即遭到废弃。后来,人们在仓库中发现了500台崭新的电报机——没人知道这东西怎么用。

皮诺切特与阿连德对经济的不同看法,背后是市场与计划之争,这牵扯到20世纪经济思想史中著名的社会主义核算争论(Socialist calculation debate)。这场争论集中于计划经济把生产资料的分配作为资本市场的替代品的应用,以及就效率和生产力而言哪种安排方式能优于资本主义。争论产生于奥地利经济学派之间,代表人物是路德维希·冯·米塞斯和弗里德里希·哈耶克,二人否定了社会主义计划经济的可行性。

哈耶克以坚持自由市场资本主义、反对社会主义经济而著称。比尔和哈耶克互相认识。比尔曾经在日记中写道,1960年他在美国伊里诺斯州开会时,向与会者展示了“协同控制工程”的设想,同时参会的哈耶克甚至当面夸赞这个想法。哈耶克后来一度成为皮诺切特的经济顾问,同他与米塞斯的共同好友、芝加哥学派的领军人物米尔顿·弗里德曼在智利开展新自由主义试验,为两人学术生涯留下饱富争议的话题。

阿连德下台后比尔的命运。1973年6月,激进军人出动坦克包围总统府时,比尔不得不离开智利首都以避风头。9月11日,在伦敦发表了一番力挺阿连德的演说后,刚打算飞回圣地亚哥的比尔被报纸上的一条消息震惊:智利爆发军事政变,阿连德身亡。在圣地亚哥,与“协同控制工程”有关的一切都被军政府丢进了垃圾堆,但管理控制论仍在繁荣发展。比尔也并没有放弃追求。晚年,这位不安分的理想主义者先后试图在乌拉圭、委内瑞拉、加拿大等国重建类似的系统,一次次被当地官僚阻止。1980年,他致信津巴布韦总统罗伯特·穆加贝,希望激起他对国家信息网络的兴趣,后者没有回应。

阿连德的助手费尔南多·弗洛雷斯政变后锒铛入狱。1976年,他因大赦国际的努力而获释,移居美国并在加州大学伯克利分校进修,研究马丁·海德格尔和J·L·奥斯汀(《如何以言行事》作者)。

“协同控制工程”技术上失败的原因:真正的大数据需要同样强大的软件对其进行分析。相对的,也需要远超过“协同控制工程”计划所用的电报机和大型主机性能的硬件、存储设备和带宽来提供支持。这是当时的技术条件远远无法满足的。“大数据”的首要条件是能处理海量信息。比如在信息爆炸的起源之一——天文学上,可以看出,我们的数字世界如何极速扩张:2000年斯隆数字巡天(Sloan Digital Sky Survey)项目启动的时候,位于新墨西哥州的望远镜在短短几周内收集到的数据,已经比天文学历史上总共收集的数据还要多。到了2010年,信息档案已经高达1.4×2的42次方字节。2016年,智利即将投入使用的大型视场全景巡天望远镜(Large Synoptic Survey Telescope)能在五天之内就获得同样多的信息。

资料来源:答主晓帆防务
链接:https://www.zhihu.com/question/295746505/answer/2367598204

"大数据"一词的来源

大数据这个术语的出现大概可追溯到Apache的开源项目Nutch。当时,大数据——Big Data——是用来描述为更新网络搜索索引需同时进行批量处理或分析的大量数据集。

随着MapReduce和Google File System(GFS)的发布,从2009年开始,大数据才开始成为互联网行业的流行词汇,也吸引了越来越多的关注。物联网、云计算、移动互联网、手机与平板电脑、PC以及遍布各个角落的各种各样的传感器,无一不是大数据的来源或承载方。

可以说,大数据就在我们的身边——从阿里巴巴、1号店、京东商城等电子商务数据,到QQ、MSN等即时聊天内容,再到Google、Bing、百度,又到社会网络与微博数据等,都在生产、承载着大数据。

随着大量的数据的产生也给数据处理和挖掘带来许多困难,信息处理量的增大(注:据统计,Facebook对某一主题进行搜索时,需在超过50TB的数据中迅速找出相关内容;在eBay存储了超过2PB的数据以备查询需要),很多传统方法(如RDBMS、SQL查询等)都不能直接应用在对海量数据的处理上,否则时间开销将会变得非常大。

对大数据的挖掘与分析变得愈发重要。而通过对Google、百度、Bing、Facebook、网页文本、微博消息等的挖掘与分析,使人们的行为和情绪的细化测量成为可能。挖掘用户的行为习惯和喜好,从凌乱纷繁的大数据背后找到符合用户兴趣和习惯的产品和服务并对产品和服务进行有针对性地调整和优化,本身就蕴含着巨大的商机。

资料来源:答主NLPIR
链接:https://www.zhihu.com/question/295746505/answer/622194066

大数据现象是怎样形成的?

(1) 数据产生方式的改变

(2) 人类的活动越来越依赖数据

(3) 各行各业也越来越依赖大数据手段来开展工作

当数据量、数据的复杂程度、数据处理的任务要求等超出了传统数据存储与计算能力时,称之为“大数据(现象)”。

大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理。大数据有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

在这里插入图片描述