2024, 46(11): 4236-4246.
doi: 10.11999/JEIT240257
摘要:
針對視覺-語言關系建模中存在感受野有限和特征交互不充分問題,該文提出一種結合雙層路由感知和散射視覺變換的視覺-語言跟蹤框架(BPSVTrack)。首先,設計了一種雙層路由感知模塊(BRPM),通過將高效的加性注意力(EAA)與雙動態(tài)自適應模塊(DDAM)并行結合起來進行雙向交互來擴大感受野,使模型更加高效地整合不同窗口和尺寸之間的特征,從而提高模型在復雜場景中對目標的感知能力。其次,通過引入基于雙樹復小波變換(DTCWT)的散射視覺變換模塊(SVTM),將圖像分解為低頻和高頻信息,以此來捕獲圖像中目標結構和細粒度信息,從而提高模型在復雜環(huán)境下的魯棒性和準確性。在OTB99, LaSOT, TNL2K 3個跟蹤數(shù)據(jù)集上分別取得了86.1%, 64.4%, 63.2%的精度,在RefCOCOg數(shù)據(jù)集上取得了70.21%的準確率,在跟蹤和定位方面的性能均優(yōu)于基準模型。