装在手机里的3D姿态估计,模型尺寸仅同类1/7,误差却只有5厘米
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
长久以来,三维姿态估计都在追求准确性上一路狂奔。
但精度提高的同时,也带来了计算成本的上升。
而刚刚被CPVR 2021接受的论文中所提出的模型,MobileHumanPose却可以同时做到又小又好。
还是放在手机上都能hold得住的那种。来感受一下这个feel:
这种动作的健身操也没问题:
![装在手机里的3D姿态估计,模型尺寸仅同类1/7,误差却只有5厘米](https://s4.51cto.com/oss/202110/08/dc4c87595943078686093da3c3bf5b23.jpg)
据了解,这个模型的尺寸,只有基于ResNet-50的模型的1/7,算力达到了3.92GFLOPS。
而且平均每关节位置误差(MPJPE),也只有大约5厘米。
那么这一模型到底是如何在有限的算力下产生极佳性能的呢?
基于编码器-解码器结构的改进
这是一个从基本的编码器-解码器结构改良得来的模型。
在编码器用于全局特征提取,而解码器进行姿态估计的基础架构上,研究团队对其主干网络、激活函数,以及Skip concatenation功能都进行了修改。
先来看研究团队选择的主干网络,MobileNetV2。
他们在MobileNetV2的前四个倒置残差块(Residual Block)处修改了通道大小,获得了性能提升。
![装在手机里的3D姿态估计,模型尺寸仅同类1/7,误差却只有5厘米](https://s6.51cto.com/oss/202110/08/7fcc9cf6d126205cd1d375ec09283fd1.jpg)
接下来,将PReLU函数用于实现激活功能,其中ai为学习参数 yi是输入信号。
![装在手机里的3D姿态估计,模型尺寸仅同类1/7,误差却只有5厘米](https://s3.51cto.com/oss/202110/08/54b6b0607e22707bf3fcd063a9df4c24.jpg)
这一函数中的可学习参数能够在每一层网络都获得额外的信息,因此在人体姿势估计任务中使用参数化PReLU时可提升性能。
![装在手机里的3D姿态估计,模型尺寸仅同类1/7,误差却只有5厘米](https://s4.51cto.com/oss/202110/08/e88d01be2d2fa1425e495f612bcd093e.jpg)
△修改了激活函数后的baseline
现在,模型的效率已经不低了,但考虑到推理速度,团队使用Skip concatenation结构。这一结构能从编码器到解码器中导出低级别特征信号(Lowlevel feature signal),不会降低性能。
![装在手机里的3D姿态估计,模型尺寸仅同类1/7,误差却只有5厘米](https://s5.51cto.com/oss/202110/08/a5d08322b0ce3086cb4f2ee4dcddacea.jpg)
参数量减少5倍,计算成本降到1/3
团队使用Human3.6M和MuCo-3DHP作为三维人体姿势数据集,他们提出了MobileNetV2的大小两个模型。
在Human3.6M上,MobileNetV2大模型实现了51.44毫米的平均每关节位置误差。
![装在手机里的3D姿态估计,模型尺寸仅同类1/7,误差却只有5厘米](https://s4.51cto.com/oss/202110/08/67d4d7c01dec2bfeebc1d1c3e86defd1.jpg)
且其参数量为4.07M,对比同类模型的20.4M(chen)减少了5倍,计算成本为5.49GFLOPS,是同类模型的1/3不到(14.1G)。
![装在手机里的3D姿态估计,模型尺寸仅同类1/7,误差却只有5厘米](https://s3.51cto.com/oss/202110/08/612695b35d1f58b516d62c953ee983de.jpg)
对于多人三维姿势估计任务,研究者使用RootNet来估计每个人的绝对坐标,在MuPoTS的20个场景中进行了实验:
![装在手机里的3D姿态估计,模型尺寸仅同类1/7,误差却只有5厘米](https://s3.51cto.com/oss/202110/08/87ff477c24ca6068bf8354bf657c9a35.jpg)
实验结果证明,对比Zerui Chen等研究者提出的获ECCV 2020的三维人体姿态估计方法,MobileNetV2在一般场景中的性能都更好,且在少数场景中取得了最佳性能:
![装在手机里的3D姿态估计,模型尺寸仅同类1/7,误差却只有5厘米](https://s6.51cto.com/oss/202110/08/ebaaf559039eb2cd6e2c17b2a4972f54.jpg)
在模型效率上,MobileNetV2的大模型效率为2.24M/3.92GFLOPS,远超同类模型的13.0M/10.7GFLOPS(Zerui Chen)。
而小模型也能实现56.94毫米的平均每关节位置误差,有224万个参数,计算成本为3.92GFLOPS。
作者介绍
论文的三位作者皆毕业于韩国高等技术研究院,一作Sangbum Choi为该校的电机及电子工程专业硕士。
![装在手机里的3D姿态估计,模型尺寸仅同类1/7,误差却只有5厘米](https://s6.51cto.com/oss/202110/08/b93d4ca037fe0ba18acd8aa4ac7bafd3.jpg)
论文:
https://openaccess.thecvf.com/content/CVPR2021W/MAI/html/Choi_MobileHumanPose_Toward_Real-Time_3D_Human_Pose_Estimation_in_Mobile_Devices_CVPRW_2021_paper.html
开源地址:
[1]https://github.com/SangbumChoi/MobileHumanPose
[2]https://github.com/ibaiGorordo/ONNX-Mobile-Human-Pose-3D
相关文章
- Flask中的请求上下文和应用上下文
- 腾讯入资东方金信数亿元,共建大数据生态体系
- 浅谈大数据开发工程师的两年工作经验总结
- 大数据应用案例:Dealer Tire通过大数据预测消费者何时需要轮胎
- 医疗大数据:如何实现商业化变现?
- 大数据分析建模及其应用建议
- 招聘行业大数据应用场景分析
- 大数据入门学习必读好书推荐,请收藏!
- 区块链与大数据的整合,未来必然趋势
- 如今的大数据究竟发展到了什么阶段
- InterSystems IRIS医疗版助力东华医为推动中国医疗行业数字化转型
- 大数据产业进入提质增效关键期
- 社交网络大数据的应用有多大的价值
- 大数据安全防护方法研究与建议
- InterSystems IRIS 数据平台通过AWS云应用商店认证
- 大数据在医疗行业中的5种应用
- 中国大地保险数据管理应用中心大数据应用平台案例分析
- 大数据在应急管理中的应用
- 大数据:产业链条将更为完备
- 2019年大数据发展将走向何方