近日,中国科学院上海微系统与信息技术研究所仿生视觉系统实验室李嘉茂研究员、朱冬晨研究员团队在视觉目标检测领域取得了重要进展。团队围绕无人机侦察等复杂场景下的弱小目标检测提出了创新方法,成果被模式识别与人工智能领域的国际顶级期刊Pattern Recognition(PR,中国科学院1区SCI,IF=7.6)发表,论文题目为“DAWDet: A Dynamic Content-Aware Multi-Branch Framework with Adaptive Wavelet Boosting for Small Object Detection”。
目标检测是具身智能实现场景理解与环境交互的基石。在无人机侦察等典型应用中,受观测视角、拍摄距离、传感器分辨率等成像条件限制,所获取的图像中常包含大量微小且密集的关键目标。相较于常规尺度目标,小目标因像素占比极低,普遍面临特征表达能力弱、高质量正样本稀疏、信息丢失严重等固有挑战。然而,当前主流的先进检测模型多针对通用场景设计,往往更倾向于优化大、中型目标的检测性能,导致在小目标检测任务上存在明显的性能瓶颈。
为此,团队创造性提出了一种基于自适应小波增强的动态多分支目标检测模型DAWDet,通过设计多项针对性机制有效提升弱小目标检测性能。具体来说,团队首先设计了一种基于动态内容感知的多分支特征金字塔网络,通过自适应内容感知点采样以及精细化的网络拓扑结构,来获取更加丰富的小目标位置信息和语义信息。其次,团队提出了一种自适应匹配的标签分配策略,对不同质量的目标预测框进行差异性建模,通过设计的重叠转换函数来提升高质量小目标样本的回归分数。此外,针对小目标信息丢失严重的问题,团队在特征融合阶段设计了多个轻量的小波变换下采样层,针对性地捕捉小目标低频全局和高频局部细节信息,以此提升小目标特征信息的利用率。该模型在无人机场景数据集Visdrone-2019、可见光-热红外数据集RGBT-Tiny以及驾驶场景数据集SODA-D上性能全面超越目前先进目标检测器,在检测精度和模型规模方面均体现了明显优势,同时展现了在红外数据上的良好泛化性。

基于自适应小波增强的动态多分支目标检测模型


团队方法在RGBT-Tiny数据集(2025)上达到最优性能
本研究成果得到了科技部科技创新2030、中国科学院青促会、上海市优秀学术带头人等项目支持。上海微系统所仿生视觉系统实验室硕士研究生吴雨婷、博士后刘绍雷为论文共同一作,李嘉茂研究员、朱冬晨研究员为通信作者。