日期:2024年07月24日
近日,计算机科学领域顶级期刊《Information Fusion》(一区TOP,IF 14.7)报道了人工智能学院机器视觉团队在3D目标检测领域的研究进展。相关成果以“MSHP3D: Multi-stage cross-modal fusion based on Hybrid Perception for indoor 3D object detection”为题在线发表。
3D物体检测旨在定位和识别3D场景中的物体,在自动驾驶、机器人操作和增强现实等各种现实应用中发挥着至关重要的作用。与已经充分研究的2D图像问题不同,3D场景通常由点云表示,点云是由RGB-D相机和激光雷达等深度传感器捕获的无序、稀疏和不规则的点集。这种表示与传统的图像和视频数据有很大的不同。将现有的2D技术直接扩展到3D检测是一个重大挑战。
最近基于体素的点云检测方法已经证明了显著的效率。然而,这些方法往往难以学习全面的点特征表示。此外,点云数据的固有局限性导致几何结构不完整,语义信息不足,给检测器准确分类物体带来了挑战。相反,图像通常具有高分辨率和丰富的纹理信息,可以弥补不完整的点云三维几何形状。为了解决这些问题,本文提出了一种新的两阶段3D目标检测框架MSHP3D,探索增强检测器对点云特征的判别能力的方法,并将2D图像信息充分集成到网络中,以提高基于体素的三维检测器的性能。MSHP3D首先使用三个相互感知增强模块增强细粒度点云的建模完整性和感知能力,这些模块分别利用扩展的感受野、通道相关性和对象级内容关系。初始跨模态融合模块和终端跨模态融合模块随后被集成到所提出网络的两个阶段。这些模块通过将来自图像的高级语义信息注入不同维度的点特征来增强场景表达。广泛的评估表明该方法在3D目标检测基准ScanNet V2和SUN RGB-D数据集上取得了具有竞争力的结果。利用混合感知的优越性能,MSHP3D显著超越基线,在SUN RGB-D上实现了最先进的目标检测结果。
图1:本文提出的方法与现有的两阶段检测方法的综合比较
图2:MSHP3D网络结构图
图3:SUN RGB-D (上) 和ScanNet V2 (下) 的定性结果。
河南大学人工智能学院为该论文的第一单位,机器视觉团队硕士研究生蒋向阳为第一作者,机器视觉团队张苗辉教授为通讯作者。该研究工作受到国家自然科学基金的支持。
论文链接: https://www.sciencedirect.com/science/article/abs/pii/S1566253524003695
微信扫码关注