两个案例:展现高效的压缩的重要性
在开发智能实时应用时,你可能经常会通过数据平台来分析和解密大数据中的模式和洞察。这些应用所依赖的后端架构常常会是分布式、可容错和可横向扩展的大数据处理技术。但也有一些情况下,压缩表现形式也是有用的,甚至是必须的。移动设备和(物联网里的)传感器的兴起带来了把计算从云顶移向边缘的软件和设备。另外内存计算也趋向于更快,造成很多流行的(分布式)系统也把数据缓存起来进行运算操作。
为了能更好地说明这一观点,让我来介绍两个最近的案例。通过它们来展现高效的压缩表现形式的重要性。一个案例是移动计算领域的,另外一个则是来自于目前非常流行的分布式计算框架。
◆ ◆ ◆
深度神经网络和智能移动应用
斯坦福大学CVA(并发的极大系统集成架构)研究组的韩松(Song Han)在他最近的一次报告里介绍了一个帮助在移动设备上优化深度神经网络的研究。深度神经网络在最近取得了长足的进步,并在计算机视觉、语音识别和机器翻译等领域取得了非常好的效果。同时移动计算平台的流行也意味着很多移动应用也希望获得这一能力(深度神经网络)。但挑战是深度学习的模型一般都很大,从而很难成为移动应用(因为要被下载到移动设备上,还要经常更新)。如果是采用基于云的解决方案,则对于特定的应用和行业,网络延迟和隐私又会成为问题。
一种解决方案就是显著地降低深度学习模型的大小。CVA的研究人员最近提出了一个由三个步骤组成的压缩深度神经网络的通用模式:
图1:压缩神经网络尺寸的模式比较样图。本·骆易家授权使用
初期试验的结果显示他们的压缩模式可把神经网络的大小减少35到50倍,而压缩后的神经网络的准确度和最初的网络的准确度差不多。CVA的研究人员还为压缩深度神经网络设计了配套的高能效的ASIC加速器,这也预示着为未来的智能移动应用所特别设计的下一代软硬件。
◆ ◆ ◆
Succinct:在Apache Spark里搜索和点查询压缩过的数据
Succinct是一个“压缩”的数据存储方式。可以让很多点查询方法(搜索、计数、求范围、随机查询)直接对输入数据的压缩模式进行操作。Succinct使用的压缩技术在实际应用中可以获得和gzip差不多的压缩率,同时不需要二级索引、数据扫描或解压缩等技术来支持上述的操作。Succinct并不保存数据文件本身,仅仅是压缩后的形式。通过让用户直接对压缩过的数据直接进行操作,Succinct同时具有低延迟和第存储空间两大优点。
图2:定量比较数据扫描、数据索引和Succinct。因为Succinct是用压缩方式存储数据,并直接对压缩后的形式进行操作,它可以在内存里存放并使用大的多的数据。
作为斯坦福AMPLab实验室的一个研究项目,Succinct已经在2015年年底作为Apache Spark的一部分发布了。这意味着Spark的使用者可以利用Succinct来对文件进行压缩,并可以直接使用搜索查询(包括对压缩的RDD进行正则表达式查询)、计数和范围查询。另外,已经基于Succinct的文件(非结构化)应用接口开发了新的抽象,这就可以把Spark作为文本或键值对型的存储,并使用现有的DataFrame的API来做搜索、计数、范围查询以及随机查询。
拥有了这些新的能力放大了Apache Spark的软件栈,从而可以开发出很多有趣的数据应用。
初步和ElasticSearch的比较结果显示了很大的希望。同时对用户更重要的是Succinct是一个活跃的项目。Succinct团队已经计划在未来的版本中添加很多新的增强功能,包括Succinct Graphs(支持查询压缩的图)、在压缩的数据上支持SQL,以及对于数据预处理和压缩的改进(目前是每核每小时压缩4GB数据)。他们还正在进行一个研究性质的项目,叫做Succinct Encryption(Succinct加密,支持对压缩和加密的数据的查询)。
◆ ◆ ◆
作者:本·罗瑞卡是OReilly的首席数据科学家和关于数据方面的内容策略主管。在多个领域里(包括直销市场、消费者和市场研究、精准广告、文本挖掘和金融工程),他曾经进行了商业智能、数据挖掘、机器学习和统计分析的工作。他层效力于投资管理公司、互联网创业企业和金融服务公司。
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号
【翻译】结构化日志的价值 - 更好地理解系统 一种比较可行的克服这些困难的方案是以一种一致的、明确的和机器可读的格式来记录系统中最有价值的信息。这种方法称为结构化日志记录。在配套工具的支持下,这些追踪数据有助于更深入地了解你的系统的运行活动,使你能够理解组件之间的相互作用。
大纲笔记软件 Workflowy 综合评测:优点、缺点和评价 Workflowy 大纲编辑器的鼻祖。 • Workflowy 速度极快,只需打开应用程序并开始输入。在线拖放文件,无需切换应用程序。 • 支持轻松添加文件和图片,支持全局搜索、支持移动端应用。
对数据可视化工具应当具备的核心能力和价值的几点思考 可能大家都听说过这样一句话 字不如表、表不如图 ,其实背后所表达出来的意思是对于复杂难懂且体量庞大的数据而言,图表的信息量要大得多,这也是数据可视化的核心价值所在。
好的媒体处理框架都具备这三点特征 从 2017 年开始,音视频应用平台开始逐步关注带宽成本以及观看体验,腾讯从那个时候开始研发极速高清的技术,在研发过程中他们遇到了哪些挑战?业界在高清视频方面又有哪些技术方案?本期,我们采访了腾讯专家工程师赵军,他结合自己的实践经验给出了答案。以下是采访文章整理,期待对你有所启发~
相关文章
- (尚023)Vue_案例_交互添加
- PaddleNLP语义检索参考案例
- 案例 天线抬不起头来
- SpringBoot2.0基础案例(01):环境搭建和RestFul风格接口
- 【软件测试面试题】大厂头条:如何定位bug?实际案例拿offer还不简单......
- 【MATLAB教程案例24】基于matlab的有参图像质量评价仿真与分析,包括MSE,PSNR,NK,AD,SC,MD,NAE
- 86 网站点击流数据分析案例(统计分析-访客分析)
- 30 爬虫 - 爬取内涵段子网站案例
- 《深度学习导论及案例分析》一第3章 受限玻耳兹曼机3.1 受限玻耳兹曼机的标准模型
- 设计一个发送验证码的案例【DOM】
- SpringData MongoDB 入门案例
- 《例说8051:单片机程序设计案例教程》——1-3 8051的开发流程与工具
- 《Android传感器开发与智能设备案例实战》——第2章,第2.1节安装Android SDK的系统要求
- 测试职业困惑案例一:不断的学习和进步
- Network 官方案例