Facebook：把握好三维世界，才能把握好AR/VR的未来

aquila00 · 发表于 2019-10-30 22:35:04

hi188｜编辑

近期正在韩国首尔国际计算机视觉大会（ICCV）上，一大波的AI研究继而公布，Facebook计划发表40多篇论文，其中我们关注到2D照片下三维场景重建与内容理解，等等3D图像分析的研究。
这些有什么作用呢，我们知道随着5G技术和千兆宽带的普及，届时的互联网媒介形式势必也会迎来改变，其中以AR/VR体验的三维形态的媒体内容被看作重点方向。
随着场景形态逐渐向三维转变，届时将会迎来一个高度逼真的虚拟世界，而三维内容的理解也将变得更为重要。例如现在的AI技术可以很好的识别2D照片/视频中的物体、动作等等，而到了三维场景中又会迎来新的玩法。

Facebook AI研究院今天发布的一篇博客中，着重提到了其在3D内容理解上的努力。
文章中提到，想要了解周围的世界的前提是，AI必须能够理解三维视觉场景，这种需求不仅仅体现在机器人、导航、AR/VR等方面，甚至在2D照片/视频中也得能够正确识别出其中的一个杯子的三维形状等等。
以下的几项研究，正在以不同但互补的方式来推进三维场景解析技术的发展。

Mesh R-CNN，一种可以精准预测现实环境中2D图像中物体的3D形状的框架，其可以检测复杂的对象，比如椅子腿儿、被遮挡的家具等；5 n( t% I; h# u! ]0 p, Q7 X) y% i
C3DPO，一种在2D关键点注释中，提取出可变性对象的3D模型的方法，已用于14个类别的对象，通过2D关键点标注实现，无3D标注信息；
/ g* S7 k! Y( q) B, v+ ^8 N
通过新方法学习图像像素与3D形状之间的关联，大大降低对注释训练的依赖，从而更接近可以实现更多种类对象3D重建的自我监督系统；
9 X, L5 `* w! M, `* s) V$ p! S
VoteNet技术，可在LiDAR或其它3D传感器输入可用时，进行对象检测，该系统完全基于3D点云技术，精度更高。
4 B2 u4 c. v- C8 U# I( X
6 N: r- k# k% {- v1 |2 J
- i* }& |- e9 b

如何更好的解析出3D形状
包括Mask R-CNN在内的很多图像解析AI框架，往往是在2D环境中进行工作，在3D环境下可能并不适用。不过，凭借2D环境中的感知技术作为积累，Facebook重新设计了一个3D对象重建的AI模型。
该模型的特点是可在现实的场景图片中去预测3D对象的形状，而这其中的挑战在于光学部分，例如：是否有遮挡，是否有杂波以及其它拓扑的对象。
为了应对挑战，首先通过网格预测分支加强Mask R-CNN在2D对象分割系统，并构建Totch3d（Pytorch库）从而实现：Mesh R-CNN，其通过Mask R-CNN进行对象的检测和分类。然后通过新型网络预测模型推测3D形状，该预测包含体素预测和网格细化共同构成。

最后通过Detectron2完成整套框架的结构，即：输入RGB图像--检测物体--预测3D形状的过程。
据悉，Facebook的新型方法支持成对图像和网格的完全监督学习预测3D形状，为了进行训练，Facebook还是用10000对图像和网格组成的Pix3D数据集，这个数据集比其它训练数据集（通常10万个图像、需进行标注）要小很多。
最终在两个数据集上进行Mesh R-CNN的评估，效果比较理想。在Pix3D数据集上，能够检测所有类别对象，并能预测出被遮挡的家具的完整形状；而在ShapNet数据集上，体素预测和网格细化的混合法比以前要好7%。

准确预测、并重建现实世界中无约束的场景形状，无疑是增强未来AR\VR等其它类似体验的重要工作。联想到Facebook在今年OC6公布的共享空间和3D重建体验，以及未来面向AR和机器视觉等众多体验的合集LiveMap，这些都是技术的基础。
尽管如此，和2D图像相比，3D图像在收集注释数据的工作上要复杂得多，且更为耗时，这也是3D形状预测数据集比2D对应数据集进展要落后的原因，而接下来Facebook也在探索更多不同的方法，利用监督学习和自我监督学习来重建3D对象。
使用2D关键点重建3D对象类别
对于那些无法使用网格和图像训练、且无需完全重建静态对象/场景的案例，Facebook开发了一种新的代替方案：C3DPO，其通过大量丰富的2D关键节点数据，进行监督学习实现更好的重建结果。而C3DPO以弱监督的方式解析出3D几何形状，且被证明适合大规模部署。

其中特定部分（例如人体关键、鸟翅膀）的2D关键点，成为了该方法中重新构建对象几何形状、变形或视点变化的线索。这些3D关键点利用价值也很高，例如在VR中创建逼真的面部和全身网格模型时。
简单来讲，C3DPO是一种能重建包括数十万具有上千个2D关键点的数据集方法，并且针对三种不同的数据集、14种以上的非刚性物体类别，进行精度重建。另外，和Mesh R-CNN类似，C3DPO同样支持那些有遮挡或部分缺失图像。
而C3DPO模型还具备两个创新，一是，在给定一组单眼2D关键点的情况下，C3DPO将以标准方向预测相机视点的参数和3D关键点位置；二是，Facebook提出一个新的正则化技术，其包括与3D重建网络模型共同学习的第二个辅助深度模型，它解决了因分解3D视点和形状带来的冲突。正是基于这两项创新，才是C3DPO的方法比传统的数据统计模型表现更好。
根据Facebook描述，这种3D模型构建在以前是无法实现的，主要由于此前基于矩阵式分解的方法有很多限制，与C3DPO采用的深度网络模型不同，其能够“小规模”运行。为了解决3D重建带来的变形问题，此前往往通过同一时间多张图像合成解决，这对硬件要求更高，而C3DPO则可以在硬件无法进行3D拍摄（例如飞机等体型特别大的物体）的情况下实现3D重建。
另外还有从图像集学习图形像素与形状的映射关系，以及提升3D系统中对象检测能力的两个论文本文不再解读，感兴趣可阅读原文了解。
总而言之，3D计算机视觉领域还有很多值得探究的领域，还有很多问题尚未被解决，还需要像此前进行2D计算机视觉探索那样继续前行。随着数字世界的不断推进，我们将会转向使用3D照片、AR、VR等技术，因此未来需要更准确的理解场景中对象、交互动作等一系列复杂的问题。Facebook表示：能够开发出向人类一样理解现实世界，并与之互动的AI系统是其长期目标。诚然，这就需要不断缩小物理空间和数字化的虚拟空间之间的隔阂与距离，而在3D视觉方面就还有很多工作需要大家共同努力。
随着数字世界的不断推进，我们将会转向使用3D照片、AR、VR等技术，因此未来需要更准确的理解场景中对象、交互动作等一系列复杂的问题。
Facebook表示：能够开发出向人类一样理解现实世界，并与之互动的AI系统是其长期目标。诚然，这就需要不断缩小物理空间和数字化的虚拟空间之间的隔阂与距离，而在3D视觉方面就还有很多工作需要大家共同努力。
参考：
https://ai.facebook.com/blog/pushing-state-of-the-art-in-3d-content-understanding/

（END）

账号		自动登录	找回密码
密码			立即注册

Facebook：把握好三维世界，才能把握好AR/VR的未来

本帖子中包含更多资源

相关帖子

浏览过的版块

站长推荐 /6