高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
图像领域,已经限制不住AI算法大牛们的身手了。
现在,随着视频产业火热发展,相关算法也正成为计算机视觉研究的新潮流。
毕竟日常生活中,无论是视频通话、还是网课直播,都涉及大量的视频处理算法。
但如果这些算法性能不高的话,视频就会出现卡顿、降低分辨率的情况,体验极差。
(想象视频通话时,画面卡成PPT的情况,已经开始生气了……)
因此,降低视频算法计算量,一直是国内外AI视觉算法大牛们致力研究的问题。
最近有两篇CVPR 2021的论文,就引起了视频圈的不少关注。
它们教算法模型学会了自己“省算力”,将视频处理算法的计算效率提升了几倍不止,性能也并不下降!
教AI自己省算力,计算量-78%
用卷积神经网络处理视频,其实是一个计算量巨大的任务。
这里的“计算量”并非指视频大小,而是卷积处理图像的方式——将图像完整地“扫”一遍。
但真正的视频,往往存在大量变化不大的场景(甚至10帧内只有一只手在动):
![高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”](https://s3.51cto.com/oss/202106/16/1c6d2c97305c5991a790a2eee9efdb08.jpg)
这种情况下,如果还将每个像素都处理一遍……仿佛已经感受到GPU在燃烧了。
![高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”](https://s4.51cto.com/oss/202106/16/78d76cc568d609ba09d539c53e4d1812.jpg)
那么,能否教AI学会高效“偷懒”,不浪费任何多余的算力呢?
当然可以,而且有2种方法。
在第一篇论文中,提出了名为Skip-Convolutions(跳跃卷积)的新型卷积层,它能将前后两帧图像相减,并只对变化部分进行卷积。
没错,就像人的眼睛一样,更容易注意到“动起来的部分”。
![高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”](https://s3.51cto.com/oss/202106/16/2c4d080de93b6361cbbe98b9df9b6fa0.jpg)
很快啊,计算量一下子从10.2GMACS(每秒10^9次定点乘累加计算)降到了0.4GMACS,不到原来的4%!
![高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”](https://s5.51cto.com/oss/202106/16/c6e7b644526bf496d9097859db081289.jpg)
注意,不止是上面的姿态估计,这个卷积层适用于任何神经网络算法,包括光流、语义分割、分类任务等。
在最新的语义分割任务中,相比于经典视频AI算法HRNet,这个算法就将计算量减少了78%,延迟降低65%,性能还不下降。
而第二篇论文采用了一个新方法,让AI模型“自行控制计算量”。
论文提出了一个名为FrameExit的网络,由多个级联分类器组成,可以随着视频帧的复杂度,来改变模型所用的神经元数量。
在视频前后帧差异大的时候,AI会用整个模型计算;前后帧差异小的时候,则只用模型的一部分计算。
![高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”](https://s5.51cto.com/oss/202106/16/2ffb0fb6b510ca0cea297e8ba24bfcc3.jpg)
也就是说,要是某一帧看起来不需要复杂计算的话,用更小的模型处理就够了。
相比于其他模型,这种方法最高甚至能提升5倍的性能。
同时,神经网络检测的精确度(mAP)不仅没有下降,甚至还增加了!
![高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”](https://s2.51cto.com/oss/202106/16/203492e79bbc936f714d023c9c4303d7.jpg)
目前,第二篇论文已经入选CVPR 2021的Oral。
重要的是,这两篇论文背后的单位,竟然都是高通,一个与所有手机用户息息相关的公司。
看来我们又能用上更多性能更棒的手机视频应用了。
手机视频应用,性能超级加倍
这两项AI视频感知技术,高通已经在研究落地了。
不得不说,即使是落地的方向,也都是我们平时手机视频应用的刚需。
![高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”](https://s6.51cto.com/oss/202106/16/003dd7f8e832033b02c1f2fbd24c485a.jpg)
除了能优化视频处理算法以外,这类感知技术还能让更多AI视频模型被用到手机上。
首先是针对视频处理算法的优化。
例如,对于我们常见的线上视频会议、网课等视频通话场景来说,如果视频处理算法模型不好,实时通话的质量就会非常差。
甚至可能因此出现卡顿的情况,然后直接掉帧,比语音通话的观感还差。
![高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”](https://s5.51cto.com/oss/202106/16/743ed2795d61e4e9030d74dcfc5bd282.jpg)
但如果用上这类视频感知技术,AI就能对视频中的部分像素进行智能处理,极大地降低视频通话所需的图像计算量,让通话过程变得更流畅。
又例如,我们的手机在对视频文件进行智能剪辑处理时,往往会出现耗电量大、文件加载慢的问题。
但如果用这类算法对视频剪辑应用进行处理,不仅能优化算法本身,还能让剪辑过程变得更加丝滑。
事实上,也正是由于这类视频感知算法,让更多AI模型能被应用到手机中。
以小米11为例,它的其中一项视频编辑功能,是对视频中的一部分画面进行时间暂停,另一部分则保持播放,就像一个人对另一个人施加了“时间停止”魔法。
这类视频算法模型,此前的计算量非常大,原本在论文中要用GPU才能实现。现在用手机就能实现“时间停止”,还是实时的:
不止是一段视频,就连其中的特殊帧也能被暂停,并做成一段很有意思的视频:
又例如,各大AI视觉论文中常见的图像增强算法,以往主要是针对拍照实现,无法被应用到视频中。
但现在,由于视频计算量的下降,它已经能用在实时视频拍摄中了,甚至包括视频会议这样的场景。
以OPPO Find X3 Pro的夜景摄影为例,正常拍摄下逆光、或是夜景的视频效果,在AI的计算下也能将脸看得清清楚楚:
甚至就连我们常见的视频智能稳定、视频插帧,之所以能应用到手机视频上,也离不开视频感知算法对智能帧间对比、超分辨率算法等技术的加持。
例如,这是vivo X60 Pro+的视频智能稳定效果:
事实上,上面这些已经被应用到手机中的AI黑科技,背后都有着骁龙888的算力和处理性能支持。
也就是说,高通已经将不少AI视频处理算法,从“几张纸”的论文变成了实际的手机视频应用。
“隐形”AI黑科技,身边其实就不少
不止是手机应用,在这些算法的加持下不断“进阶”。
在智慧医疗、智能工厂、XR等“未来”场景逐渐成为现实的背后,同样有着无数的AI黑科技。
以我们常见的VR设备为例,由于有了AI算法的加成,摄像头也能实现由内向外更精准的追踪。
![高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”](https://s5.51cto.com/oss/202106/16/e00de71e41807a751d6806c2e78186c2.jpg)
结合5G进行视频传输后,有了AI加持的VR设备,不仅能给孩子们进行科普教育、还能让医生能够给病患更细致地讲解病情。
![高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”](https://s3.51cto.com/oss/202106/16/ac5828482f3d3eae1f5d5b0531fadc82.jpg)
又例如,现在出门去医院看病,只需要一个码,就能将包括病案信息、诊疗进度、最新诊疗结果在内的相关病情信息汇集在码中。
利用东大集成研发的“小码哥”进行扫描后,医生就能快速获取全部信息,及时进行诊断。
同时,物联网医疗设备和AI数据分析还能简化健康监控,建立一个真正“互联”的医院,让患者也能在不同地区、时间及时查看病情结果。
![高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”](https://s6.51cto.com/oss/202106/16/820a79cabd39acf5112baac41040d297.jpg)
又例如,利用AI+边缘计算+5G,就能做出替代人眼进行质量检测和瑕疵识别的智能化数字生产线,让工厂节省大量人力成本。
不仅如此,工业搬运机器人也能通过5G+AI,对摄像头所收集的视频流数据在云端或边缘侧进行智能分析,从而实现远程操控。
但用户并不需要了解其中的每一个细节。
因为,高通这样的前沿科技公司,正将这些技术难点一一攻克。
![高通CVPR神研究:视频处理计算量降78%,教卷积层自己“挑像素”](https://s4.51cto.com/oss/202106/16/8df3685f8375249cdb2e8da730ef4baf.jpg)
△高通在AI方向的应用布局
然后,再以产品的方式呈现出来,让每一个用户都能无差别地享受最新科技突破。
黑科技有多复杂?
那不是大多数用户需要考虑的。
两篇CVPR 2021论文地址:
[1]
https://arxiv.org/abs/2104.11487
[2]
https://arxiv.org/abs/2104.13400
相关文章
- 【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
- CLB运维&运营最佳实践 ---访问日志大洞察
- vnc方式登陆服务器
- 轻松学排序算法:眼睛直观感受几种常用排序算法
- 十二个经典的大数据项目
- 为什么使用 CDN 内容分发网络?
- 大数据——大数据默认端口号列表
- Weld 1.1.5.Final,JSR-299 的框架
- JavaFX 2012:彻底开源
- 提升as3程序性能的十大要点
- 通过凸面几何学进行独立于边际的在线多类学习
- 利用行动影响的规律性和部分已知的模型进行离线强化学习
- ModelLight:基于模型的交通信号控制的元强化学习
- 浅谈Visual Source Safe项目分支
- 基于先验知识的递归卡尔曼滤波的代理人联合状态和输入估计
- 结合网络结构和非线性恢复来提高声誉评估的性能
- 最佳实践丨云开发CloudBase多环境管理实践
- TimeVAE:用于生成多变量时间序列的变异自动编码器
- 具有线性阈值激活的神经网络:结构和算法
- 内网渗透之横向移动 -- 从域外向域内进行密码喷洒攻击