CVPR2023 | 3D Data Augmentation for Driving Scenes on Camera

news/2024/7/10 1:04:32 标签: 3d, 目标检测, 算法, 人工智能, 计算机视觉

3D Data Augmentation for Driving Scenes on Camera

摄像机驾驶场景的 3D 数据增强

摘要翻译

驾驶场景极其多样和复杂,仅靠人力不可能收集到所有情况。虽然数据扩增是丰富训练数据的有效技术,但自动驾驶应用中现有的摄像头数据扩增方法仅限于二维图像平面,在三维真实世界场景中可能无法最佳地增加数据多样性。为此,我们提出了一种名为 Drive-3DAug 的三维数据增强方法,旨在增强三维空间中摄像头拍摄的驾驶场景。我们首先利用神经辐射场(NeRF)重建背景和前景物体的三维模型。然后,将位置和方向经过调整的三维物体放置在预定义的背景有效区域,就可以获得增强的驾驶场景。因此,可以有效地扩大训练数据库。然而,三维物体建模受限于图像质量和有限的视角。为了克服这些问题,我们对原始 NeRF 进行了修改,引入了几何矫正损失和对称感知训练策略。我们在 Waymo 和 nuScences 数据集上评估了我们的方法在仅摄像头的单目 3D 检测任务中的应用。在 Waymo 和 nuScences 数据集上,我们提出的数据增强方法分别提高了 1.7% 和 1.4% 的检测准确率。此外,构建的三维模型可作为数字驾驶资产,并可用于不同的检测器或其他三维感知任务。

论文总结

论文《3D Data Augmentation for Driving Scenes on Camera》提出了一种名为Drive-3DAug的3D数据增强方法,用于丰富自动驾驶应用中的训练数据。该方法利用神经辐射场(NeRF)重建背景和前景对象的3D模型,然后将这些对象放置在背景的预定义有效区域中,以创建增强的驾驶场景。作者通过引入几何校正损失和对称感知训练策略来解决3D对象建模的挑战。所提出的方法在Waymo和nuScenes数据集上进行了摄像头仅用单目3D检测的评估,显示出在检测准确性上的显著提升。构建的3D模型也可以用于不同的检测器或其他3D感知任务。

主要要点和关键论点包括

  • 驾驶场景多样化,手动收集所有案例是不可能的。
  • 自动驾驶中现有的针对摄像头数据的数据增强方法限于2D图像平面。
  • 提出的Drive-3DAug方法使用NeRF重建背景和前景对象的3D模型,在3D空间中增强驾驶场景。
  • 该方法通过引入几何校正损失和对称感知训练策略,改进了训练数据库并克服了3D对象建模的限制。
  • Drive-3DAug在Waymo和nuScenes数据集上的摄像头仅用单目3D检测中实现了检测准确性的提升。
  • 构建的3D模型可以用于不同的检测器或其他3D感知任务。

架构

图 2. 用于三维数据增强的 Drive-3DAug 概览。驾驶场景被分解为多个背景和物体。对于每个背景和物体,我们使用多帧视图,通过基于体素的 NeRF [41],分别对其进行重建。为了进一步提高重建质量,我们在 NeRF 中引入了对称约束、几何矫正和深度监控。我们利用训练有素的三维模型在三维空间中编辑场景,并通过渲染组成的新场景生成图像,以完成以下三维感知任务。

架构说明

以下是该架构说明的具体含义:

  1. 驾驶场景分解:Drive-3DAug首先将驾驶场景分解为多个背景和对象。这意味着场景中的每个元素(如车辆、行人、道路、建筑等)被单独识别和处理,以便独立重建。

  2. 基于体素的NeRF重建:对于每个背景和对象,Drive-3DAug使用多帧视图通过基于体素的NeRF(神经辐射场)技术分别进行重建。这种方法允许从一组稀疏的2D图像中重建出每个元素的3D模型。

  3. 重建质量改进:为了进一步提高重建质量,Drive-3DAug引入了对称性约束、几何校正和深度监督。这些技术帮助确保重建的3D模型在形状、结构和深度上更加准确和真实。

    • 对称性约束:假设对象在某些方向上是对称的,以帮助改进形状的重建。
    • 几何校正:调整重建过程,以纠正可能的几何畸变,确保3D模型的正确比例和定位。
    • 深度监督:使用深度信息作为额外的监督信号,以提高重建的深度准确性。
  4. 3D空间中的场景编辑:通过对训练好的3D模型进行操作,Drive-3DAug在3D空间中编辑场景。这可能包括移动、旋转或添加新的对象到场景中,以创造新的训练数据。

  5. 新场景的图像生成:编辑后的新场景通过渲染生成2D图像,这些图像可用于后续的3D感知任务。渲染过程考虑了新组合场景的光照、视角和其他视觉效果,以生成逼真的图像。

总之,Drive-3DAug为驾驶场景的3D数据增强提供了一个全面的框架,通过分解、独立重建和编辑场景中的各个元素,并引入先进的技术改进重建质量,最终生成用于3D感知任务的高质量训练数据。

Drive-3DAug中的NeRF应用

在Drive-3DAug中,使用NeRF来重建背景和前景对象的3D模型具体涉及以下几个步骤:

  1. 3D场景重建:首先,使用NeRF技术从自动驾驶场景的2D图像中重建整个场景的3D模型。这包括场景中的静态背景以及动态的前景对象。

  2. 背景和前景分离:通过适当的方法将重建的3D场景中的背景和前景对象分离开来。这可能涉及到使用额外的信息或技术来识别和区分场景中的不同组成部分。

  3. 数据增强:一旦背景和前景对象被成功重建和分离,就可以在3D空间中对它们进行各种操作,如移动前景对象、改变它们的位置或向场景中添加新的对象。这样做可以生成新的、多样化的训练数据,增强自动驾驶系统的3D感知能力。

        通过这种方式,Drive-3DAug能够在3D空间中灵活地增强驾驶场景,提供更丰富和多样化的数据,以训练和改进自动驾驶系统的性能。这种基于NeRF的3D数据增强方法,相比传统的基于2D图像的增强方法,能够更好地模拟和理解复杂的3D场景和对象间的相互作用,从而提高3D目标检测和场景理解的准确性。


http://www.niftyadmin.cn/n/5429129.html

相关文章

Django框架的全面指南:从入门到高级【第128篇—Django框架】

Django框架的全面指南:从入门到高级 Django是一个高效、功能强大的Python Web框架,它被广泛用于构建各种规模的Web应用程序。无论是初学者还是有经验的开发人员,都可以从入门到掌握Django的高级技巧。在本指南中,我们将带你逐步了…

Gateway网关在url参数带有特殊字符的情况下转发失败(响应400)

本文主要分享了,SpringCloud Gateway网关在url参数带有空格或者特殊字符的情况下,转发失败导致响应错误码400的解决方案。 响应400错误码的2种场景: 1.参数带空格,Gateway会误认为该空格是切割符,如?phone 135****6…

SVN修改已提交版本的注释

目录 一、需求分析 二、问题分析 三、解决办法 一、需求分析 ​开发过程中,在SVN提交文件后,发现注释写的不完整或不够明确,想再修改之前的注释文字​。 使用环境: SVN服务器操作系统:Ubuntu 20.04.6 LTS SVN版本&…

SQL中的distinct的使用方法

1. distinct含义与使用方法 distinct用来查询不重复记录的条数,即用distinct来返回不重复字段的条数(count(distinct id)),其原因是distinct只能返回他的目标字段,而无法返回其他字段。 注意事项 distinct 【查询字段】,必须放…

用Java基于Spring框架搭建一套支持多数据源的web系统框架

在使用Java Spring框架搭建支持多数据源的Web系统框架时&#xff0c;你可以按照以下步骤进行&#xff1a; 步骤一&#xff1a;添加依赖 首先&#xff0c;在pom.xml文件中添加Spring Boot和相关数据库依赖&#xff1a; <dependencies><!-- Spring Boot Starter Web …

自动控制原理--matlab/simulink建模与仿真

第一讲 自动控制引论 第二讲 线性系统的数学模型 第三讲 控制系统的复域数学模型(传递函数) 第四讲 控制系统的方框图 /video/BV1L7411a7uL/?p35&spm_id_frompageDriver pandas, csv数据处理 numpy&#xff0c;多维数组的处理 Tensor&#xff0c;PyTorch张量 工作原理图…

Ps 滤镜:中间值

Ps菜单&#xff1a;滤镜/杂色/中间值 Filter/Noise/Median 中间值 Median滤镜可用于减少或消除图像中的噪点和杂色&#xff0c;同时能较好地保留图像边缘和细节信息。 中间值滤镜通过计算一个像素周围一定区域内的像素值的中间值&#xff08;即这些值的中位数&#xff09;&…

基于Verilog的简易CPU设计

前言 本篇文章将简单讲解CPU之间各部分的功能及接线&#xff0c;并提供Verilog模拟CPU的各个组成部分。该CPU可以完成一些操作&#xff0c;如&#xff1a;加减法&#xff0c;与或&#xff0c;指令跳转等&#xff0c;最后提供testbench用于测试该CPU的工作情况是否符合预期。 C…