近日,我校電子信息學院何志偉教授團隊的研究成果“P2P: Part-to-Part Motion Cues Guide a Strong Tracking Framework for LiDAR Point Clouds”被International Journal of Computer Vision(IJCV)錄用并在線發表。IJCV是中國計算機學會(CCF)認定的人工智能領域四個A類期刊之一,也是計算機視覺領域最重要的兩個頂級學術期刊之一,2024年影響因子19.5,年發文量僅180篇左右。該論文第一作者為電子信息學院2022級碩博連讀博士生聶佳浩,指導老師何志偉教授為該論文的通訊作者。這也是我校在讀研究生首次以第一作者身份在IJCV上發表科研論文。
探索:該論文圍繞激光雷達點云單目標跟蹤任務,首先對現有主流跟蹤框架進行了系統性的探索性實驗,旨在厘清不同跟蹤范式與結構之間的關系與優劣,如圖1所示。通過對比分析傳統外觀匹配方法、運動建模方法及其組合模型的性能表現,作者發現:與復雜的外觀匹配和運動建模相比,簡潔而高效的運動結構在激光雷達點云中同樣能夠實現高精度、高魯棒性的目標跟蹤。這一實驗結論為后續研究提供了明確方向,也凸顯了在稀疏、不規則的點云環境中,運動信息在目標定位任務中的核心價值。
圖1 探索實驗
架構:在上述探索結果的基礎上,論文設計了一種新穎的“部件對應部件”式細粒度運動建模機制。該方法通過挖掘目標在連續兩幀點云中的局部結構變化,實現對目標整體運動趨勢的精準建模。不同于傳統的剛體或全局中心運動估計方式,本方法強調對目標關鍵部件之間的對應關系進行細粒度建模,從而提升在復雜場景中對遮擋、形變和多目標干擾下的魯棒性與準確率。該方法有效結合了結構先驗與數據驅動建模,為點云運動建模提供了新的思路。基于這個設計,論文構建了一套通用的點云運動建模框架,如圖2所示。
圖2 模型框架
模型:基于這一框架,作者進一步提出了兩種模型變體:一種基于點表征,強調點級幾何特征的保留與匹配;另一種基于體素表征,更側重于局部空間一致性與計算效率的權衡。如圖3所示為模型的具體實施細節,兩種模型在結構實現上各有側重,能夠覆蓋不同應用場景下的需求,為后續工程部署和多場景遷移提供了可擴展性和靈活性。
圖3 模型實施細節圖
實驗:所提出的方法分別在KITTI、nuScenes和Waymo三大公開點云跟蹤基準數據集上進行了全面驗證。實驗結果顯示,無論是在準確率(Accuracy)、成功率(Success)還是運行速度(FPS)等指標上,所提方法均顯著優于當前主流方法,展現出兼具高性能與高效率的領先優勢,充分驗證了模型設計的有效性與推廣性。該成果為激光雷達點云目標跟蹤的實用化和產業化落地奠定了堅實基礎。
圖4 KITTI數據集上的性能對比圖
論文鏈接:https://link.springer.com/article/10.1007/s11263-025-02430-6
論文代碼:https://github.com/haooozi/P2P