zl程序教程

您现在的位置是:首页 >  其他

当前栏目

Facebook打破Hadoop最大容量上限

2023-04-18 14:44:23 时间

你可能会认为,100拍(petabyte)字节对于任何公司来说都是非常大的数据量级了。但是对于社交网站明星Facebook而言,100拍字节的数据根本不算什么。

由于拥有10亿用户,以及需要每隔30分钟分析一次105太(terabyte)以上的字节,Facebook对数据处理的胃口已经堪称“哥斯拉”级别。为了优化产品性能和广告业绩,脸谱需要关注和分析这些数据中的许多内容,其中包括与27亿“喜欢”(Like)按钮功能有关的数据,以及每天25亿被共享的内容项目。Hadoop是Facebook网站使用的一个关键工具,其不仅被用于分析,而且还被作为推动Facebook网站内信息传送等众多功能的引擎。这一沉重的工作负载迫使Facebook推出了支持地理分布式Hadoop数据存储的Prism项目。

得益于诸如在Hadoop上处理A/B测试结果等技术,Facebook能够确定针对具体地区,或以性别、年龄、兴趣爱好等标准划分的特定群体推出的功能和广告的效率。通过这些积极的结果,脸谱能够改进功能,明确目标市场。

Facebook的业务分析师正在以各种方式拓展公司的业务。他们主要依靠的是可让他们同时使用Hadoop和标准商业智能工具的Hive,以及由Facebook自主开发的闭源终端用户工具HiPal。Hive为一个由Facebook推出的开源项目,其被广泛地使用在企业内部的访问层,以查询使用SQL子集的Hadoop。为了让业务人员更加容易地使用它们,脸谱推出了HiPal。HiPal为一款图形工具,它能够与Hive对话,并且具有数据发现、查询编辑、制图和仪表盘创建等功能。

在原生Hadoop容量方面,Facebook已经达到了它们的***上限。Facebook近期宣布,该公司目前拥有全球***的Hadoop集群,数据容量达到了100拍字节。不过,Facebook也表示这还不够大。Prism项目将把Hadoop的容量推向一个新高度。

目前的问题是,Hadoop必须将数据限制在一个物理数据中心。尽管Hadoop为批处理系统,但是它们还是被紧密耦合在一起。同时,在Hadoop集群的服务器中,它们无法接受超过数毫秒的延迟。通过Prism,系统增加了一个逻辑抽象层,因此Hadoop集群能够跨多个数据中心运行,从而有效地提升了容量方面的限制量级。

Facebook表示,他们很快将会把Prism变成一个开源项目。对于企业界而言,这无疑将成为一个可与2006年雅虎公开Hadoop源代码相媲美的壮举。虽然目前还不清楚Prism对其他公司具有多大的实用性,但是对于其他大型企业来说,他们刚刚也在Hadoop和NoSQL方面遇到了与Facebook相同的问题。

Facebook技术研发的背后是该公司业绩未达到华尔街预期的紧迫感。不过,近期Facebook移动业务盈收方面的好消息稍微缓解了华尔街对其的失望情绪。事实上,无论Facebook是否能够持续从移动业务中获得盈利,还是从免费服务中产生充足的营收,增加广告宣传是一个日益紧迫的问题。无论采取哪种模式,基于Hadoop的分析方式将成为Facebook的大数据技术选择。Prism等新项目则让几年前看似无法逾越的限制正在被打破。