团队名称

 

1. 基于深度学习算法的可见光海面目标检测跟踪系统

 

项目背景

 

        近年来无人艇技术发展迅速。通过搭载高清摄像机或光电跟踪仪等设备和视觉检测技术,无人艇可以在危险海域对目标进行侦查、监视或跟踪, 逐渐成为保证海面安全不可或缺的技术。但是水面存在目标难以采样,目标形变、光照变化、尺度变化、目标遮挡、摄像头抖动等多种状况,这些问题增加了海面目标的视觉检测跟踪的难度,可能导致虚警、漏检或跟踪失败。本项目针对上述问题,基于yolov5和deepsort算法,设计了针对可见光海面目标检测系统。该系统由海面目标离线训练平台和海面目标在线检测跟踪平台组成,可对无人艇采集的可见光视频中实现海面目标的检测、识别与跟踪,具有较高的稳定性和实时性。

 

实施方案

 

总体系统搭建:

 

       基于深度学习算法的可见光海面目标检测跟踪系统主要分为两部分:一部分是位于数据处理伺服器的舰船图像离线训练平台,这一部分主要负责存储无人艇采集的各类可见光海面目标视频序列,同时负责离线舰船目标检测模型的离线训练;另一部分是位于指挥所、舰船或其他武器装备终端上的海面目标在线识别平台,根据舰船图像离线训练平台得到的海面目标检测的训练模型对无人艇所搭载的高清摄像头或光电跟踪仪回传的视频序列当中的海面目标进行检测、识别和跟踪。   

 

图1 可见光海面目标检测跟踪系统工作流程图

     

       可见光海面目标检测跟踪系统工作流程如图1所示,系统各模块的功能如下:

       1)海面目标样本序列库由无人艇在各个场景下采集回传的视频序列、参数和模型共同构建。在整套系统的使用过程中,随着无人艇回传新的目标序列,序列库也会不断的丰富自身;

        2)海面目标检测的离线训练平台是在yolov5检测器框架下,对海面目标样本序列库中目标进行识别训练,借此构建可见光环境下的海面目标特征知识库,用于进行舰船目标的识别和分类;

        3)海面目标数据采集模块用于在可见光环境下,使用无人艇对感兴趣的海面目标进行实时拍摄、并回传高分辨率的目标视频序列;

        4)海面目标检测识别模块是基于无人艇回传的海面目标序列,尝试从图像中检测感兴趣的一类或数类目标,并选取检测时得分最高的类作为识别结果,;

        5)海面目标跟踪模块在检测到存在海面目标后,开展后续的目标跟踪工作,将检测模块输出的目标框送入多目标跟踪器,处理后输出最终的结果。

       本项目综合考虑了可见光海面目标的特点及无人艇采集数据时所面临的干扰,设计的海面目标在线识别平台架构如下:为保证检测精度,选取了yolov5作为海面目标检测器和分类器;随后将检测结果送入多目标跟踪器进行跟踪,这里我们选择deepsort算法作为我们的多目标跟踪器。


海面目标识别检测模块:

 

       海面目标识别是整个系统中的第一个环节,也是最为基础的环节。作为后续识别、跟踪两个环节的基础,也是整个系统中要求最高的。由于整套系统是为侦查、监视等任务场景所设计,如果不能及时捕捉视野内的目标变化、错漏关键目标,后续的各项功能就会完全失效,极有可能导致严重的后果。在保证海面目标检测模块准确、稳定运行的同时,处理速度则是另一项关键指标。为了保证系统实时运行,全部流程的处理速度不能低于无人艇回传视频的帧率,再排除掉后续两个环节的耗时,对检测环节的速度提出了不小的挑战。

       综合考虑上述问题,本项目采用YOLOv5算法作为可见光海面目标检测算法。

       2016年,Joseph Redmon、Santosh Divvala、Ross Girshick等人提出了一种单阶段(one-stage)的目标检测网络。它的检测速度非常快,每秒可以处理45帧图片,能够轻松地实时运行。由于其速度之快和其使用的特殊方法,作者将其取名为:You Only Look Once(也就是我们常说的YOLO的全称),并将该成果发表在了CVPR 2016上,从而引起了广泛地关注。YOLO 的核心思想就是把目标检测转变成一个回归问题,利用整张图作为网络的输入,仅仅经过一个神经网络,得到bounding box(边界框) 的位置及其所属的类别。

       时至今日,YOLO算法已经更新到了第五代。YOLOv5是一种单阶段目标检测算法,该算法在YOLOv4的基础上添加了一些新的改进思路,使其速度与精度都得到了极大的性能提升,但是依然只需要一个神经网络就可以输出边界框。YOLOv5算法提供给了4个开源的处理网路,分别为:YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。这四种网络的体量依次增大,效果也随之变好,同时训练成本也逐级递增。本次研究中,经过反复试验,我们选择了体量最大,效果最好的YOLOv5x。

       YOLOv5整体架构可以大致分为4个通用的模块,具体包括:输入端、基准网络、Neck网络与Head输出端。具体架构如图2所示:

 

图2 YOLOv5总体架构

 

       1)输入端

       输入端表示输入的图片。该网络的输入图像大小为608*608,该阶段通常包含一个图像预处理阶段,即将输入图像缩放到网络的输入大小,并进行归一化等操作。在网络训练阶段,YOLOv5使用Mosaic数据增强操作提升模型的训练速度和网络的精度;并提出了一种自适应锚框计算与自适应图片缩放方法。

       2)基准网络

       基准网络通常是一些性能优异的分类器网络,该模块用来提取一些通用的特征表示。YOLOv5使用了Focus结构作为基准网络,并引入CSPDarknet53结构,使网络的稳定性和准确性有了较大提升。

       3) Neck网络

       目标检测网络在BackBone与最后的Head输出层之间往往会插入一些层,这部分位于基准网络和头网络中间位置的网络被称为Neck网络。Neck网络可以进一步提升特征的多样性及鲁棒性。在YOLOv5中,Neck网络用到了SPP模块、FPN+PAN模块,但是实现的细节有些不同。

       4) Head输出端

       Head用来完成目标检测结果的输出。输出层的锚框机制与YOLOv4相同,主要改进的是训练时的损失函数GIOU_Loss,以及预测框筛选的DIOU_nms。在损失函数方面,YOLOv5的损失函数由三部分组成,即:

                                                                                                    (1)

其中 是分类损失,采用BCE loss进行计算,且只计算正样本的分类损失; 是obj损失,采用的依然是BCE loss,这里的obj指的是网络预测的目标边界框与GT Box的CIoU,同时这里计算的是所有样本的obj损失; 是定位损失,采用的是CIoU loss,且只计算正样本的定位损失。针对不同的检测算法,输出端的分支个数不尽相同,通常包含一个分类分支和一个回归分支。两个分支的结果相融合,输出检测的最终结果(边界框)和分类结果(类标签)。

 

海面目标跟踪模块:

 

       对于完成检测、识别,并被判断为有必要进行进一步调查的海面目标,我们需要按照需求,监视并记录其后续动向。由于重要目标通常不止一个,因此我们添加了海面目标跟踪模块,实现舰船、漂浮物等常见海面目标的多目标跟踪功能。在这一阶段,我们采用了多目标跟踪(Multi-Object Tracking)中常用到的一种算法DeepSort,前身是Sort算法, 全称是Simple Online and Realtime Tracking。Sort最大特点是基于CNN的目标检测方法,并利用卡尔曼滤波算法+匈牙利算法,极大提高了多目标跟踪的速度,同时提高了目标识别的准确率。DeepSort相比于传统Sort算法中最大的特点是加入外观信息,借用了ReID领域模型来提取特征,减少了目标ID转换的次数。DeepSort算法在保证了稳定性的同时也保证了系统的实施运行速度,因此我们选择其作为我们的多目标跟踪器。Deep Sort算法的流程如图3所示。

 

图3 Deepsort算法流程 

 

对于多目标跟踪问题, Deep Sort算法按照以下五个步骤进行处理:

步骤1:给定视频原始帧

步骤2:使用目标检测器在原始帧中对感兴趣的目标进行检测,获取目标检测框。

步骤3:对所有目标框中对应的目标分割,并进行特征提取(包括表观特征或者运动特征)。

步骤4:进行相似度计算,计算前后两帧目标特征之间的匹配程度。对于一个充分训练过的特征提取网络,同一个目标在两帧之间的特征距离要尽可能小,不同目标的特征距离则应当足够大,以便后续关联。

步骤5:数据关联,为每个对象分配目标的ID。

       以上就是五个核心步骤,其中检测和关联的部分是算法的核心。检测的性能决定了整个算法的召回率,仅仅换一个更好的检测器,就可以将目标跟踪表现提升18.9%。这里我们将2.2中的检测结果直接导入,并采用CNN网络进行特征提取。而关联部分则决定了DeepSort算法的稳定性。

 

成果展示

 

(1) 系统程序界面:

 

图4 系统界面

 

        系统界面如图4所示。界面主要分为三个区域:(1)参数设置区域;(2)交互显示区域;(3)运行可视化区域。参数设置区域位于界面左上角,用户可以在此处对待处理文件路径和系统参数进行设置。交互显示区域位于界面右上角,文本框内将会显示系统运行的各种信息,同时包含了设置文件路径、更新参数和系统启动的按钮。运行可视化区域位于界面下方,分为检测/识别可视化窗口(左下)和跟踪可视化窗口(右下)。检测/识别可视化窗口中将会实时显示YOLOv5x的检测结果,以目标框的形式呈现,识别出的类别标签则会标注在对应目标框上方。跟踪可视化窗口中将会实时显示跟踪结果,同样以目标框的形式呈现,目标框上方会同时标注出目标类别和其对应的轨迹号,例如某一目标类别号为1,轨迹号为25,则跟踪可视化窗口中会将其标注为“C1-T25”。

 

(2) 运行结果——检测:

 

 

(3) 检测/跟踪结果实时显示界面:

 

 

 

 

2. 视频SAR弱小目标检测预跟踪系统

 

项目背景

 

       合成孔径雷达(Synthetic Aperture Radar, SAR)基于微波成像原理,相比于传统的光学成像具有全天时、全天候、穿透力强等优势,是军事领域中勘测地形和监视跟踪地面目标的重要设备。视频合成孔径雷达(Video Synthetic Aperture Radar, Video SAR)是基于SAR原理发展起来的一种新体制雷达,能够持续对感兴趣区域进行动态监测,输出多帧、连续、高精度成像。相比于传统SAR成像,视频SAR将成像结果以视频的形式给出,扩展信息获取的时间维度,动静结合,多维度特征地、直观地显示目标的位置、运动速度和运动方向等参数信息,为战场环境下的目标快速识别、威胁判断提供新的可靠支撑。目前基于视频SAR的动目标跟踪方法存在的技术瓶颈之一就是复杂动态背景强杂波噪声条件下时变数目多弱小机动目标跟踪问题,该技术瓶颈后还存在很多亟待解决的难点问题。

 

实施方案

 

研究内容1:基于相关滤波技术的单目标实时跟踪算法AD-PDA-BACF

 

       由于复杂场景中存在的相似杂波噪声干扰,背景感知相关滤波器(BACF)的相关响应输出图中包含多个局部峰值(称作响应图多峰),其中最大输出响应位置可能偏离真实目标位置,则目标估计不准确。对BACF算法而言,它会在目标周围抽取大量正负样本训练分类器,然而不准确的跟踪结果将会导致抽样模糊,进而引发正负样本标记误差,这些误差在分类器学习阶段逐渐累积,最终会导致跟踪漂移。

      为了解决响应图多峰问题,我们基于多峰量测提出一种外观-距离信息辅助概率数据关联(Appearance-Distance Information-assisted PDA,AD-PDA)算法估计目标状态。在此基础上,为了实现视频SAR阴影目标实时跟踪,我们联合AD-PDA算法和BACF算法提出了AD-PDA-BACF算法,算法跟踪流程如图5所示,其主要包含位置初始化模块、特征提取模块以及AD-PDA-BACF跟踪模块三部分组成。下面将对每个模块的内容做简要描述:

      (1)位置初始化模块:根据目标框在初始帧的可靠位置和特征信息,初始化BACF滤波器和目标模板模型。

      (2)特征提取模块:提取目标强度特征和FHOG特征并在通道维度上进行级联,获得目标多通道融合特征。

      (3)AD-PDA-BACF跟踪模块:首先基于BACF算法的相关响应输出选择多个量测作为关联门内量测;其次,根据目标运动和量测模型分别预测目标状态和量测;再次,计算混合关联概率,并采用AD-PDA算法估计目标状态;最后,基于当前时刻目标的估计状态,提取目标特征,并在线更新目标特征模板。

图5 AD-PDA-BACF算法流程图

 

研究内容2:基于检测前跟踪技术的多目标联合检测与跟踪算法ES-TBD和RP-TBD

 

       为了有效解决机动目标跟踪问题,我们提出一种新颖的基于胀缩搜索策略的DP-TBD(Expanding and Shrinking strategy-based DP-TBD,ES-TBD)算法。首先,ES-TBD基于目标上一时刻的状态,采用独立粒子滤波器,根据机动目标运动模型,对目标的可能转移状态进行大范围预搜索,生成膨胀预测子区域;然后,基于视频SAR量测模型,根据贝叶斯公式计算各预搜索路径的后验概率,更新独立粒子滤波器中预测粒子权重,并进行粒子重采样,有效减少相异粒子数目,收缩膨胀预测子区域,获得目标收缩预测状态;最后,目标状态更新。基于目标的收缩转移状态,进行幅度值函数递推积累,经过K帧积累后,通过门限判决和航迹回溯,最终获得目标个数和状态估计。

       图6显示传统DP-TBD算法和ES-TBD算法中的目标状态转移情况对比。目标在k -1时刻的初始状态为xk -1=[4,3,6,3]',候选转移状态数量Ns =4。蓝色星标表示目标的真实位置。图(a)显示传统DP-TBD算法目标状态转移情况。彩色实线框(红、绿、蓝、黄、紫色)表示目标可能的转移状态。可以看到,在k+1时刻,目标可能的转移状态不包含目标的真实状态。

       在ES-TBD算法中,采用膨胀收缩策略确定有效候选状态,图(b)显示了提出的ES-TBD算法目标状态转移情况。彩色虚线框(紫、蓝色)表示膨胀预测子区域,而红色实线框表示收缩预测子区域。与传统的DP-TBD算法相比,ES-TBD算法的搜索范围扩大了,因此,ES-TBD算法对机动目标检测和跟踪具有更强的稳健性。ES-TBD算法通过重采样机制从膨胀预测子区域中选择若干后验概率大的目标可能状态,形成收缩预测子区域,从而搜索到真实目标,同时保留了目标的最优路径。

      

图6 传统DP-TBD算法(a)和ES-TBD算法(b)中的目标状态转移情况对比

 

       为了检测和跟踪数目随时间变化的多个机动目标,我们研究发展了基于区域划分的DP-TBD(Region-Partitioning-based DP-TBD,RP-TBD)算法。RP-TBD算法流程图如图7所示。首先,对量测序列进行批次划分,采用滑窗法将图像序列分为若干量测批次,并对每个量测批次中的图像帧序列进行划分,确定公共量测帧序列和特有量测帧序列;其次,对图像子区域划分,确定量测批次中的每一帧图像(公共量测帧或特有量测帧)中的已知子区域和新子区域,最终获得量测批次中的已知子区域序列和新子区域序列;再次,利用已知子区域序列中的量测,采用附加值函数的独立PF算法跟踪已知目标和检测已消失目标;利用新子区域序列中的量测,采用ES-TBD算法检测和跟踪新出现的目标;最后,获得多目标跟踪航迹。

图7 RP-TBD算法流程图

 

成果展示

 

(1) 单目标跟踪结果演示:

 

       视频中展示了AD-PDA-BACF跟踪美国桑迪亚实验室发布的视频SAR-Victr数据集中目标的结果。该数据集共有398帧图片,在视频帧中左上角用蓝色字体标示图像帧序号。视频中用蓝色方框标示真实目标位置,用红色方框标示AD-PDA-BACF算法估计的目标位置。

 

 

(2) 多目标跟踪结果演示:

 

       视频中展示了RP-TBD算法跟踪美国桑迪亚实验室发布的视频SAR-Highway数据集中多目标的结果。跟踪可视化窗口中将会实时显示跟踪结果,同样以彩色目标框的形式呈现不同目标估计位置,目标框右下方会同时标注出目标的序号,如目标1被标记为T1,其在各帧的估计位置均采用蓝色方框标示。

 

文档与媒体

这个文件夹中没有文件或媒体文件。
文件夹
文档
{title}
现在由
  • thumbnail
    现在由

    {title}