现有的深度边缘检测网络通常采用编码器-解码器架构,其中包含上下采样模块,以提取多层次的特征。这种结构限制了网络输出准确且细致的边缘检测结果。为解决这一问题,国防科技大学iGRAPELab在AAAI2024上提出了一种新的解决方案。
中提出了一种用于二维边缘检测任务的扩散概率模型方法,它通过学习迭代的去噪过程来获得边缘结果图。为了在保持性能的同时降低计算资源消耗,该方法在隐空间中训练网络,并引入了不确定性蒸馏模块以进行优化。同时,该方法还使用解耦架构来加速去噪过程,并提出了相应的自适应傅立叶滤波器来调整特征。基于这些设计,该方法能够以有限的资源进行稳定的训练,并使用更少的增强策略来预测清晰准确的边缘图。
大量实验在四个公共基准数据集上进行,结果显示,该方法在准确度和精细度方面优于其他方法。通过扩散概率模型来进行边缘检测的过程如图1所示。该方法具有以下优势:
- 提出了领域内首个用于边缘检测任务的扩散模型DiffusionEdge,无需任何后处理即可预测更细更准确的边缘图。
- 针对扩散模型应用时的难点,设计了多种技术以保证在隐空间中稳定学习,并自适应地过滤傅里叶空间中的隐特征。
- 在四个边缘检测公共基准数据集上进行的大量对比实验展示了DiffusionEdge在准确度和精细度方面的卓越性能。
以往基于深度学习的方法通常使用编解码结构集成多层特征,或者整合多个标注的不确定性信息来提高边缘检测的准确度。这些方法生成的边缘结果图对于后续任务来说可能过于粗糙,且严重依赖后处理步骤。尽管已经有许多工作在损失函数和标签修正策略方面进行了探索,以输出更细的边缘,但该领域仍需要一种无需任何额外模块即可直接满足准确度和细节的边缘检测器,而无需后处理步骤。
扩散模型是一类基于马尔可夫链的生成模型,通过学习去噪过程来逐渐恢复目标数据样本。扩散模型在计算机视觉、自然语言处理和音频生成等领域表现出了卓越性能。当将图像或其他模态的输入作为额外条件时,它在感知任务中也显示出巨大的潜力,例如图像分割、目标检测和姿态估计等。DiffusionEdge方法的总体框架如图2所示。受以前的工作启发,该方法在隐空间中训练具有解耦结构的扩散模型,并将图像作为额外条件输入。该方法引入了自适应傅里叶滤波器进行频率解析,并通过交叉熵损失来优化隐空间,以保留来自多个标注者的像素级不确定性信息,并减少对计算资源的要求。
为了解决扩散模型当前面临的采样步数过多和推理时间过长的问题,该方法借鉴了DDM的思想,同样使用解耦的扩散模型架构来加速采样推理过程。该方法的解耦前向扩散过程由显式转移概率和标准Wiener过程的组合来控制。为了训练解耦的扩散模型,该方法需要同时监督数据和噪声分量,训练目标可以通过参数化来实现。由于在原始图像空间中训练扩散模型的计算成本太高,DiffusionEdge方法将训练过程转移到具有4倍下采样空间大小的隐空间中。如图2所示,该方法首先训练了一个自编码器和解码器网络,其中编码器将边缘标注压缩为一个隐变量,而解码器用于从该隐变量中恢复原始边缘标注。在进行基于U-Net结构的去噪网络训练时,该方法固定了自编码器和解码器网络的权重,并在隐空间中进行去噪过程的训练。这样一来,该方法大大降低了网络对计算资源的要求,同时保持了良好的性能。