本文讨论了3D视觉感知领域中的一个特定问题,即纯视觉的鸟瞰图(BEV)的无监督领域自适应(UDA)。纯视觉的BEV模型在移动机器人、自动驾驶和虚拟现实等领域中具有重要作用,因为它具有全面的3D理解、丰富的语义信息、高计算效率和低部署成本方面的优势。在将源域(训练数据环境)训练的纯视觉BEV模型应用到目标域(与训练数据不同的新环境)时,通常会遇到性能下降的问题,这是由于源域和目标域之间的差异导致的。尽管无监督领域自适应在2D计算机视觉任务中已经广泛研究,但在纯视觉BEV感知中如何减小源域和目标域之间的差异仍然是一个具有挑战性且相对欠缺研究的问题。
为了解决这个问题,本文提出了一个名为DA-BEV的新框架,这是第一个针对纯视觉BEV感知的领域自适应框架。DA-BEV利用图像视图特征和BEV特征之间的互补性来解决BEV领域自适应的挑战。具体而言,该框架通过引入可学习的查询来促进图像视图特征和BEV特征之间的交互,并在领域自适应过程中使它们相互适应。在这个过程中,BEV特征中的全局3D信息有助于适应图像视图特征,而图像视图特征中较少变化的2D信息有助于适应BEV特征。DA-BEV框架设计了两种基于查询的领域自适应技术:基于查询的对抗学习(QAL)和基于查询的自训练(QST),这两种技术相辅相成,共同实现了有效的无监督BEV感知自适应。
本文的主要贡献有三个方面。它提出了一种基于查询的领域自适应策略,利用了图像视图特征和BEV特征的互补性,适用于无监督的BEV感知自适应。它设计了DA-BEV框架,这是一个引入基于查询的对抗学习和基于查询的自训练的框架,有效地解决了领域自适应BEV感知的问题。最后,通过广泛的实验,DA-BEV在不同数据集和任务(如3D物体检测和3D场景分割)上展示了其在BEV感知自适应方面的优越性能。
DA-BEV框架利用图像视图特征和BEV特征之间的互补性来解决BEV领域自适应的挑战。它设计了一种基于查询的领域自适应方法,通过引入可学习的查询来实现图像视图特征和BEV特征之间的交互以及它们的协同适应。直观地说,BEV特征中的全局3D信息有助于适应图像视图特征,而图像视图特征中的局部2D信息,由于领域变化较小,有助于适应BEV特征。基于这一理念,本文设计了两种基于查询的领域自适应技术:基于查询的对抗学习(QAL)和基于查询的自训练(QST)。
在DA-BEV框架中,为了捕获图像视图特征中的较少领域差异,引入了一个图像视图特征解码器和一组可学习的图像视图查询。图像视图查询和图像视图特征之间的交互产生图像视图查询特征,该特征输入到多标签分类头中,以预测每个对象类别的概率。图像视图特征通过多标签分类损失函数进行训练。为了捕获BEV特征中的全局3D信息,直接使用现有的BEV查询与BEV特征交互,生成解码的BEV查询特征。由于BEV特征编码了相机配置,并且是使用3D物体注释进行训练的,解码的BEV查询特征包含了丰富的全局3D信息,包括物体在3D BEV空间中的位置。这有助于适应那些在BEV空间中几乎不捕获全局3D信息的图像视图特征。
本文提出的DA-BEV框架是一个创新的领域自适应方法,用于解决纯视觉BEV感知中源域和目标域之间的差异问题。通过利用图像视图特征和BEV特征之间的互补性,DA-BEV框架能够有效地进行无监督BEV感知自适应,并在不同任务和数据集上展示出卓越的性能。