关闭
高端服务

车辆姿态感知注意力增强的车辆重识别

所属栏目:农业论文 时间:2021-12-31

  摘要:由于不同道路监控视角下的车辆姿态不断变化,因此车辆重识别仍是智慧交通系统中一项具有挑战性的任务。现有的车辆重识别的方法大多数基于车辆的外观属性,但识别受光照和角度等因素影响导致识别效果较差。因此,本文设计了一种车辆姿态感知注意力增强网络以提高车辆在光照和角度等因素影响下的重识别效果。首先,将图片输入到卷积姿态网络中生成12个关键点重建车辆姿态信息,然后将输入图像车辆与目标图像车辆进行比较,提取出两辆车公共区域的特征;最后,计算车辆全局特征和局部特征之间的距离,并根据最终结果对识别结果进行排序。本文在VehicleID和VeRi776数据集上进行验证,实验结果表明,所提出的网络相较于其他模型top10的检测准确率提高了10%左右。

  关键词:关键点;车辆姿态;注意力机制;车辆重识别

车辆论文

  0引言

  车辆重识别是一种跨相机车辆跟踪技术,因此,车辆重识别任务在智能交通、刑事侦查和重大事件信息安全等方面具有广泛的应用。但是,在监控视角下车辆的视觉外观在不同的车辆姿态时有很大的不同,相反,从相同的角度看,两辆相似的车外观变化又很小。因此,从多个监控摄像头的外观、姿态、轨迹等方面搜索相同的车辆协助社会公共卫生安全的建立具有一定的重要意义。为了解决上述两个问题,目前的方法主要集中在元信息(例如,车辆属性,时空信息)来提高特征的表示能力,文献[1]就是采用一种基于属性的车辆重识别方法,它训练了具有各种属性的模型,并在数据集中搜索了具有相似属性的车辆,文献[2]使用三维边界框来纠正车辆的不同图像,然后提取颜色直方图,并将他们连接到一个特征向量,最后,他们训练了SVM分类器来判断两个图像是否具有相同的ID。

  最近,许多深度学习方法应用于车辆重识别,文献[3]介绍了一种基于孪生网络的度量学习方法,文献[4]采用一种区域感知深度模型进行车辆重识别,文献[5]则考虑了输入邻域之间的差异,文献[6]提出了一种精细的搜索框架,通过车辆属性和时空信息建模来进行车辆重识别;文献[7]引入了一个深层网络,将摄像机的视野、车辆类型和颜色融合到车辆的特征中,上述方法都侧重于学习车辆的全局表示。

  但是,在不同的监控视角下,整体外观会发生巨大变化,这导致全局功能的不稳定,并且也带来了第一个挑战。相反,局部特征通常提供稳定的判别线索,从而有利于获取更多车辆区别性特征。文献[8]基于车辆的车窗、车顶等局部特征并采用了焦点融合的方法对车辆进行了重识别;文献基于车辆关键点检测生成方向不变特征、文献[10]基于车辆的三个均匀分离的区域提取局部特征以获得显著性的车辆局部特征。文献[11]通过YOLO检测器检测每辆车的车窗,灯光和品牌,以产生判别特征。

  以上方法着重于预定义的区域,以学习细微的局部提示。但是,显著的提示(例如排气,贴纸和装饰物)由于其形状小而不易区分,并且可能出现在车辆的任何部分,增加了检测的复杂性,这导致了第二个挑战。上述方法只是从车辆的外观信息来进行重识别,而忽略了车辆的姿态等属性。目标关键点定位具有许多重要的应用,例如,面部对齐[12,13]、人体姿势估计[14,15]和目标定位[16]等。在大多数人脸识别框架中都进行基于关键点的人脸对齐[17]。

  关键点的位置非常有用,因为可以通过关键点很好地对齐学习的功能。但是,在现有文献中,对车辆关键点的研究还不够深入。本文提出的方法表明,车辆关键点可以指导学习和对齐,并提高整体车辆重识别的性能。因此考虑到同一车辆在同一视角下的姿态变化较大,本文提出了一个车辆姿态感知注意力增强框架,首先,将图像输入到CPM网络中判别车辆的姿态;其次,对输入图像与目标图像的交叉区域进行过滤,通过注意力网络对公共区域进行特征提取;最后,计算车辆全局特征和局部特征之间的距离,按相似度从高到低排序,筛选出相似度排名前10的目标车辆。

  1方法

  本文提出了一种车辆姿态感知注意力增强的车辆重识别方法,包括车辆姿态判别,公共区域特征提取以及全局与局部特征的相似度计算三部分。以下是对每个部分的详细介绍。

  1.1车辆姿态重建

  在本节中,主要介绍车辆框架重建以及姿态判别的方法,利用关键点检测和形状调整的框线来进行车辆姿态的判别。假设每辆车在3D中是由12个关键点的线框组成,这些关键点对应于车辆上易于识别的位置,比如前灯、反光镜、尾灯、车顶拐角、车轮等(圆点即为关键点)。

  给定输入的车辆图像,使用深度学习网络预测车辆的语义关键点,CNN输出12个带有突出显示的关键点的热图,接着,将输出热图作为输入,并显示热图中最大概率的关键点,关键点将车辆框架划分为3个平面,顶层、中间层和底层。第一层为前挡风和后挡风玻璃的上方角点,第二层为左前灯,左后灯,右前灯,右后灯,第三层为左前轮,左后轮,右前轮,右后轮。根据图像检测出来的关键点构成的车辆框架与形状框线模型进行对比分析,从而判断出车辆所处姿态。

  车辆可以粗略的看成是具有8个表面的模型,车辆底部在摄像头的下方是不可见的。八个部分(除车辆底部外)进行不同颜色的区域划分,分为顶部、前部、后部和侧面四部分,以便在后续中提取车辆的公共区域的特征。在监控视角下,车辆的左侧和右侧通常是不能同时出现的,并且在视觉上通常是对称的,基于这些观察,本文将车辆的姿态分为正面、背面、正右侧、背右侧、正左侧和背左侧六个车辆姿态,将判别后的车辆姿态作为第二部分特征提取的已知条件。

  1.2公共区域的特征提取

  在监控视角下,图像能够覆盖整辆车,因此可以捕获两辆车之间的每一个细微差异;其次,在大多数监控视角下,图像中的车辆框架的3个部分是可见的,因此目标车辆与输入车辆之间至少有两个相同的部分。在上述阶段之后,就可以获得车辆的公共区域的特征,本文采用公共注意力网络,以增强公共区域的特征,这有助于捕获同一车辆的稳定判别信息。本文提出的该注意力模型能够自动选择显著的区域,并且删除无用的信息,在车辆重识别问题中,本文模型需要关注输入车辆和目标车辆之间车辆重叠的区域,例如,为了从正左侧和正右侧的角度分辨两辆相似的车辆之间的区别,人们通常会关注车辆的共同的外观部分(比如车辆正面和顶部)以区分两辆车是否相同。

  因此,提出了一种车辆姿态感知的注意力模型。本文提出的注意力网络主要由三部分组成,首先,通过车辆的外观属性等训练深层的CNN网络,从而筛选出与目标车辆相似的车辆。其次,根据筛选出的相似车辆的图片,对车辆的关键点进行检测,从而重建车辆的线性框架图,进行车辆的姿态判别;最后,将输入车辆姿态与目标车辆姿态进行比较,从而获取公共区域。

  1.3车辆特征相似度计算

  在上述阶段之后,本文获得了注意力模型提取出来的局部特征,本节将结合全局特征对图像进行相似度计算。如果车辆某些区域不是公共区域,则相应区域的分数将相对较小,因此,只有得分高的特征图才有助于最终距离,本文通过构建全局特征的ID损失和三元组损失以及局部特征的三元组损失来优化网络,根据上述局部特征的距离计算三元损失。

  2实验

  2.1数据集

  本文选用VehicleID和VeRi776数据集来验证所提出方法的性能。VehicleID:是由监控相机收集的,该数据集包含26267种车辆以及221763张车辆图像,该数据集的训练集由13182辆车的100182张图像组成,测试集由2400辆车的19777张图像组成,VehicleID中的图像是从车辆前方视角和车辆后方视角中捕获的,它还提供了250种车辆模型的注释。VeRi776:是从实际监控场景中20个不重叠的交通监控摄像头中收集的,它包含776辆车的51035个边界框,该数据集划分了576辆车用于训练,200辆车用于测试,该数据集中的车辆包含三个视点,即正视图、后视图和侧视图,VeRi-776提供以下信息的注释:ID,型号,车辆颜色,摄像机之间的关系以及轨迹信息。

  2.2评价指标

  受文献[18]行人重识别的研究启发,本文采用top@1,top@5,top@10的平均精度(mAP)作为本实验的评估指标。

  2.3实验分析

  1)关键点回归分析在本节中,将根据回归的精度以及标签与车辆姿态之间的关系对关键点回归器进行全面的研究。为了训练和评估关键点回归器,在整个VeRi776数据集图像上手动标注12个关键点位置。在测试阶段,提取测试图像的响应图,并预测具有最大响应的关键点位置。如果回归的关键点位置与真实位置之间的距离小于阈值r0,则认为该点为正确的预测的关键点。否则为错误的预测关键点,在评估阶段中不可见的关键点将被忽略。

  2)注意模型的作用由于输入图像的每个车辆的姿态都不相同,对于车辆重识别任务相对困难,因此,本文考虑关注输入车辆与目标车辆之间的公共区域,从而探索注意力机制在基线中的意义。如果不使用注意力机制,mAP会降低10%左右,由于注意力模型可以通过深度k步建立,因此,对于变量k进行进一步评估以选出最佳性能的k值,显示了当k=2时达到了最高的mAP,因此,本文模型的k取值为2。如果不使用注意力模型,则结果不令人满意。

  3)全局和局部损失权重的选择本节通过实验验证了车辆姿态感知增强注意力模型对车辆重识别性能的影响,全局损失和局部损失之间不同权重对结果的影响,从中可以发现,本文所提出的车辆姿态注意力模型在mAP、top@1、top@5、top@10上都得到改善。

  3结论

  本文提出了一种车辆姿态感知增强注意力模型,抓住车辆姿态的属性,基于车辆关键点重构车辆的姿态,通过CPM网络划分车辆的姿态,通过注意力机制改进了特征提取的方式,进一步提取出车辆重识别中显著性的特征,最终计算全局特征与局部特征的距离。本文所提出的模型有助于获得同一车辆的稳定判别信息。并且在数据集上的实验数据表明,本文所提出的模型相较于其他模型在top10准确度上提高了10%左右。该技术可广泛引用语智能公共安全防护、智能交通环境感知领域,对于追捕违法车辆、治安防控、刑事侦破等社会重大公共安全卫生具有重要意义。

  参考文献:

  [1]FERISRS,SIDDIQUIEB,PETTERSONJ,etal.Large-scalevehicledetection,indexing,andsearchinurbansurveillancevideos[J].IEEETransactionsonMultimedia,2011,14(1):28-42.

  [2]ZAPLETALD,HEROUTA.Vehiclere-identificationforautomaticvideotrafficsurveillance[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognitionWork-shops.2016:25-31.

  作者:朱肖磊吴训成

更多学术问答


Copyright 2002-2023 www.qikanzj.com 京ICP备16051962号