手机1秒生成3D全息图,MIT团队新作
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
一张图片的焦距,能在老鼠玩具和日历尺之间自由切换:
甚至能完成图片上任一物体的对焦,呈现出不同物体在不同深度时的照片:
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s2.51cto.com/oss/202103/11/e09952f3528199a1abca44a7daecde09.jpg)
这张具有神奇魔力的图片,就是集成了“全部物体信息”的全息图。
生成这类全息图,往往需要大量计算才能完成。
然而,来自MIT的团队开发了一种新算法,不需要复杂仪器、也不需要等几个小时,生成这样一张全息图,只需要在智能手机上耗费不到1秒的时间。
要知道,就在去年11月份,三星的科学家们生成3D全息视频所用的处理器,尺寸还是太大,没能整合到手机上:
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s3.51cto.com/oss/202103/11/1b9658349e76ca425952885144a2d9a7.jpg)
那么,这种快速生成3D全息图的方法,究竟是怎么做到的?
用神经网络快速“切蛋糕”
首先,全息图是什么?
举个例子,visa信用卡上的鸽子,就利用了全息图来做防伪标志。
全息图即“全部的信息”,这种图片包含物体的幅度和相位信息。
普通照相机,拍摄出来的照片只包含物体的幅度信息(亮暗),相位信息(远近)却无法直接保存。
这也是为什么,我们平时看见的2D照片“没有立体感”。
此前,计算机要想360°全方位生成全息图,通常得从多个角度进行干涉、衍射,再将相位信息拼合起来,与振幅信息叠加后生成图片。
多角度生成相位信息,就像是在一个球形蛋糕上精准地切割8刀,将之分成8块,对每块进行相位重现:
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s4.51cto.com/oss/202103/11/672467a108f79d413628e28d42e95aa3.jpg)
然而,这种方法所需要的计算量往往巨大,耗时很久,完全无法在智能手机上运行。
因此,MIT团队思考,能不能采用深度学习的方法,只通过3个角度,就把“蛋糕”分成8块,来生成全息图?
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s6.51cto.com/oss/202103/11/fdaa97d8cb3fe036333512d9d05a61dc.jpg)
他们精挑细选出了4000张包含幅度、相位信息的图像,以及这些图像对应的3D全息图,用来训练神经网络。
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s5.51cto.com/oss/202103/11/7837bff14f310189d62105c40a972719.jpg)
整体思路大致如下:获取物体的相位信息后,生成点云,再结合残差神经网络,生成整体的全息图。
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s2.51cto.com/oss/202103/11/e297aceaa58af658588441db7886a513.jpg)
那么,这种全息图的效果如何呢?
可对焦任意物体,内存占用不到1MB
事实证明,利用神经网络进行预测,只需要不到640KB的内存就能生成全息图。
如果在消费级GPU上,这种神经网络模型,每秒能生成60张分辨率为1080p的彩色3D全息图。
而在智能手机如iPhone 11 Pro上,每秒能生成1.1张全息图;至于Google Edge TPU上,每秒则能生成2张全息图。
以动画角色大雄兔(Big Buck Bunny)为例,右下角是它的深度图。
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s2.51cto.com/oss/202103/11/555b92db461e1ad0aef3ae86dad1f70b.jpg)
从图中可见,利用神经网络(右)生成的全息图像,几乎和用原有方法(左)生成的全息图像一模一样。
而且,无论是远处的小黄花,还是近处的兔子眼睛,都能完美对焦。
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s2.51cto.com/oss/202103/11/43c7b684a3a8aa55091515ef89ccbda3.jpg)
表面上看起来是一样的话,具体到幅度和相位信息上如何呢?
从图中可见,利用神经网络预测的幅度和相位信息,也与真实值非常接近。
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s4.51cto.com/oss/202103/11/24294efb4294fa32aebf811dabb4953e.jpg)
即使是现实中的照片,也与实际生成目标非常接近了。
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s3.51cto.com/oss/202103/11/918212f839851fafd447358dc339a695.jpg)
当然,从细节来看的话,还是略微有一点差距。
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s4.51cto.com/oss/202103/11/960a57dedc9034bf6e843a81ccef35d2.jpg)
相比于现有的VR和AR方案,3D全息图是3D可视化的另一个实现方案。
但在使用VR的时候,用户实际上是盯着2D显示屏,产生3D错觉,因此可能会产生视觉疲劳、头晕等症状。
而3D全息图则允许眼睛调整焦距,即交替地对前景和背景进行聚焦,能有效缓解这种症状。
下一步,团队计划添加眼球追踪技术,让用户的眼睛看向哪里,哪里就生成部分高清全息图。
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s4.51cto.com/oss/202103/11/54a01b911f14641d86bf78d60b0439e5.jpg)
在这种方案下,计算机只需要部分生成全息图,实时运用下,效果也能更快更好。
以及,索尼赞助了这项研究,所以……
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s4.51cto.com/oss/202103/11/0dfbd29fb57ece7715c4cfed4be75da1.jpg)
作者介绍
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s5.51cto.com/oss/202103/11/8d16291c7a4d6487ac20a99336bfd99e.jpg)
论文一作史亮,2014年毕业于北航,硕士毕业于斯坦福,目前于MIT就读博士,研究方向包括VR/AR,以及机器学习和计算机图形学。
![手机1秒生成3D全息图,MIT团队新作,索尼投钱支持](https://s3.51cto.com/oss/202103/11/a3b1bc93f6cf3aba227674c8ac01f0bd.jpg)
论文二作李北辰,2018年毕业于清华大学,目前于MIT就读博士,研究方向是机器学习在计算机图形学中的应用。
论文地址:
https://www.nature.com/articles/s41586-020-03152-0.pdf
相关文章
- 一个Java程序员对2011年的回顾
- 大数据发展历程
- Android高级进阶之路【一】Android中View绘制流程浅析
- 可信服务管理(Trusted Service Manager)介绍
- GIS应用|快速开发REST空间分析服务
- 未来十年微软长盛不衰的两项战略
- 领域驱动设计模式的收益与挑战
- cocos 3.0 一键打包android平台应该注意的细节
- 数智化时代,驱动企业转型升级的“三驾马车”是什么?
- 基于MINA构建高性能的NIO应用
- 使用Rainbond实现离线环境软件交付
- 工作流引擎 jBPM 5.2 发布
- 微信小程序Minium自动化测试(三)
- 桌面应用抢先体验,这次有点料!
- 甲骨文Java专利遭拒 起诉Android侵权受挫
- 云计算的应用领域及发展前景
- Java效率真的很低吗?Android为何要采用?
- Android高级进阶之路【二】十分钟彻底弄明白 View 事件分发机制
- 庖丁解牛之-Android平台RTSP|RTMP播放器设计
- 手机直付,超级方便