探索新兴技术的意义 (探索新兴技术-OccNeRF)

3D

最近几年来,由于其独特的优势,3D占据预测任务已经得到了学术界和工业界的广泛关注。3D占据预测通过重建周围环境的3D结构为自动驾驶的规划和导航提供详细信息。目前大多数的方法都依赖于来自LiDAR点云的标签来监督网络训练。在本文中,作者提出了一种自监督的多相机占据预测方法,名为OccNeRF。该方法通过参数化的占据场解决了室外场景无边界的问题,并重新组织了采样策略,然后通过体渲染来将占据场转换为多相机深度图,并通过多帧光度一致性进行监督。该方法还利用预训练的开放词汇语义分割模型生成2D语义标签,以赋予占据场语义信息。

近年来,随着人工智能技术的快速发展,自动驾驶领域也取得了巨大进展。3D感知作为实现自动驾驶的基础,为后续的规划决策提供了必要的信息。传统的方法中,激光雷达可以直接获取准确的3D数据,但其传感器成本高且扫描点稀疏,限制了其在实际应用中的使用。相比之下,基于图像的3D感知方法成本低且有效,因此越来越受到关注。

多相机3D目标检测在一段时间内是3D场景理解任务的主流,但它无法应对现实世界中无限的类别,并且还受到数据长尾分布的影响。相比之下,3D占据预测能够很好地弥补这些缺点,因为它可以通过多视角输入直接重建周围场景的几何结构。现有的大部分方法都关注于模型设计和性能优化,并依赖于LiDAR点云生成的标签来监督网络训练,但这在基于图像的系统中是不可用的。换句话说,我们仍然需要使用昂贵的数据采集车来收集训练数据,并且浪费大量没有LiDAR点云辅助标注的真实数据,这在一定程度上限制了3D占据预测的发展。因此,探索自监督的3D占据预测是一个非常有价值的方向。

下图展示了OccNeRF方法的基本流程。该模型以多摄像头图像作为输入,首先使用2Dbackbone提取N个图像的特征,然后通过投影和双线性插值获得3D特征(在参数化空间下),最后通过3DCNN网络优化3D特征并输出预测结果。为了训练模型,OccNeRF方法通过体渲染生成当前帧的深度图,并引入前后帧来计算光度损失。为了引入更多的时序信息,OccNeRF会使用一个占据场渲染多帧深度图并计算损失函数。同时,OccNeRF还会渲染2D语义图,并通过预训练的开放词汇语义分割模型进行监督。

ParameterizedOccupancyFields的提出旨在解决相机与占据网格之间存在感知范围差距的问题。理论上,相机可以拍摄到无穷远处的物体,而以往的占据预测模型只考虑较近的空间范围(例如40m范围内)。在有监督方法中,模型可以根据监督信号学会忽略远处的物体;但是在无监督方法中,如果仍然只考虑近处的空间范围,那么图像中存在的大量超出范围的物体将对优化过程产生负面影响。基于此,OccNeRF采用了ParameterizedOccupancyFields来建模范围无限的室外场景。OccNeRF中的参数化空间分为内部和外部。内部空间是原始坐标的线性映射,保持了较高的分辨率;而外部空间表示了无穷远的范围。在生成parameterized occupancy fields时,OccNeRF首先在参数化空间中进行采样,通过逆变换得到原始坐标,并将原始坐标投影到图像平面上,最后通过采样和三维卷积得到占据场。

为了实现训练占据场的多帧深度估计,OccNeRF采用了多帧深度图预测。这种方法可以利用多帧图像序列提供的时序信息来提高深度估计的准确性。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...