CVPR2023 | 3D Data Augmentation for Driving Scenes on Camera

3D Data Augmentation for Driving Scenes on Camera

摄像机驾驶场景的 3D 数据增强

摘要翻译

驾驶场景极其多样和复杂，仅靠人力不可能收集到所有情况。虽然数据扩增是丰富训练数据的有效技术，但自动驾驶应用中现有的摄像头数据扩增方法仅限于二维图像平面，在三维真实世界场景中可能无法最佳地增加数据多样性。为此，我们提出了一种名为 Drive-3DAug 的三维数据增强方法，旨在增强三维空间中摄像头拍摄的驾驶场景。我们首先利用神经辐射场（NeRF）重建背景和前景物体的三维模型。然后，将位置和方向经过调整的三维物体放置在预定义的背景有效区域，就可以获得增强的驾驶场景。因此，可以有效地扩大训练数据库。然而，三维物体建模受限于图像质量和有限的视角。为了克服这些问题，我们对原始 NeRF 进行了修改，引入了几何矫正损失和对称感知训练策略。我们在 Waymo 和 nuScences 数据集上评估了我们的方法在仅摄像头的单目 3D 检测任务中的应用。在 Waymo 和 nuScences 数据集上，我们提出的数据增强方法分别提高了 1.7% 和 1.4% 的检测准确率。此外，构建的三维模型可作为数字驾驶资产，并可用于不同的检测器或其他三维感知任务。

论文总结

论文《3D Data Augmentation for Driving Scenes on Camera》提出了一种名为Drive-3DAug的3D数据增强方法，用于丰富自动驾驶应用中的训练数据。该方法利用神经辐射场（NeRF）重建背景和前景对象的3D模型，然后将这些对象放置在背景的预定义有效区域中，以创建增强的驾驶场景。作者通过引入几何校正损失和对称感知训练策略来解决3D对象建模的挑战。所提出的方法在Waymo和nuScenes数据集上进行了摄像头仅用单目3D检测的评估，显示出在检测准确性上的显著提升。构建的3D模型也可以用于不同的检测器或其他3D感知任务。

主要要点和关键论点包括：

驾驶场景多样化，手动收集所有案例是不可能的。
自动驾驶中现有的针对摄像头数据的数据增强方法限于2D图像平面。
提出的Drive-3DAug方法使用NeRF重建背景和前景对象的3D模型，在3D空间中增强驾驶场景。
该方法通过引入几何校正损失和对称感知训练策略，改进了训练数据库并克服了3D对象建模的限制。
Drive-3DAug在Waymo和nuScenes数据集上的摄像头仅用单目3D检测中实现了检测准确性的提升。
构建的3D模型可以用于不同的检测器或其他3D感知任务。

架构

图 2. 用于三维数据增强的 Drive-3DAug 概览。驾驶场景被分解为多个背景和物体。对于每个背景和物体，我们使用多帧视图，通过基于体素的 NeRF [41]，分别对其进行重建。为了进一步提高重建质量，我们在 NeRF 中引入了对称约束、几何矫正和深度监控。我们利用训练有素的三维模型在三维空间中编辑场景，并通过渲染组成的新场景生成图像，以完成以下三维感知任务。

架构说明

以下是该架构说明的具体含义：

驾驶场景分解：Drive-3DAug首先将驾驶场景分解为多个背景和对象。这意味着场景中的每个元素（如车辆、行人、道路、建筑等）被单独识别和处理，以便独立重建。
基于体素的NeRF重建：对于每个背景和对象，Drive-3DAug使用多帧视图通过基于体素的NeRF（神经辐射场）技术分别进行重建。这种方法允许从一组稀疏的2D图像中重建出每个元素的3D模型。
重建质量改进：为了进一步提高重建质量，Drive-3DAug引入了对称性约束、几何校正和深度监督。这些技术帮助确保重建的3D模型在形状、结构和深度上更加准确和真实。
- 对称性约束：假设对象在某些方向上是对称的，以帮助改进形状的重建。
- 几何校正：调整重建过程，以纠正可能的几何畸变，确保3D模型的正确比例和定位。
- 深度监督：使用深度信息作为额外的监督信号，以提高重建的深度准确性。
3D空间中的场景编辑：通过对训练好的3D模型进行操作，Drive-3DAug在3D空间中编辑场景。这可能包括移动、旋转或添加新的对象到场景中，以创造新的训练数据。
新场景的图像生成：编辑后的新场景通过渲染生成2D图像，这些图像可用于后续的3D感知任务。渲染过程考虑了新组合场景的光照、视角和其他视觉效果，以生成逼真的图像。

总之，Drive-3DAug为驾驶场景的3D数据增强提供了一个全面的框架，通过分解、独立重建和编辑场景中的各个元素，并引入先进的技术改进重建质量，最终生成用于3D感知任务的高质量训练数据。

Drive-3DAug中的NeRF应用

在Drive-3DAug中，使用NeRF来重建背景和前景对象的3D模型具体涉及以下几个步骤：

3D场景重建：首先，使用NeRF技术从自动驾驶场景的2D图像中重建整个场景的3D模型。这包括场景中的静态背景以及动态的前景对象。
背景和前景分离：通过适当的方法将重建的3D场景中的背景和前景对象分离开来。这可能涉及到使用额外的信息或技术来识别和区分场景中的不同组成部分。
数据增强：一旦背景和前景对象被成功重建和分离，就可以在3D空间中对它们进行各种操作，如移动前景对象、改变它们的位置或向场景中添加新的对象。这样做可以生成新的、多样化的训练数据，增强自动驾驶系统的3D感知能力。