朔方工业大学缠绵机系痔疮 肛交,北京 收稿日历:2022年6月23日;委用日历:2022年8月5日;发布日历:2022年8月15日 摘录 指标追踪算法是对给定指标的位置进行预估与定位从而结束抓续追踪。跟着硬件时代以及神经网罗的发展,指标追踪在精度与速率上远超传统算法,基于孪生神经网罗的追踪算法是现时无边学者主要征询的看法之一。本文主要对孪生网罗结构以及相干算法进行先容。率先先容孪生结构旨趣,其次凭据考订看法对存在的算法进行论述,随后先容经典数据集,临了对现存算法发展进行总结与预测。 关节词 指标追踪,孪生神经网罗 Algorithm Research of Siamese Neural Network in Target Tracking Minghan Li Computer Department, North China University of Technology, Beijing Received: Jun. 23rd, 2022; accepted: Aug. 5th, 2022; published: Aug. 15th, 2022 ABSTRACT Target tracking algorithm is to estimate and locate the position of a given target to achieve continuous tracking. With the development of hardware technology and neural network, target tracking is far more accurate and faster than traditional algorithms. Tracking algorithm based on siamese neural network is one of the main research directions of many scholars at present. This paper mainly introduces the siamese network structure and related algorithms. Firstly, the principle of siamese structure is introduced, then the existing algorithms are described according to the improvement direction, then the classical data sets are introduced, and finally, the development of existing algorithms is summarized and prospected. Keywords:Target Tracking, Siamese Neural Network 青柠视频在线观看BDCopyright © 2022 by author(s) and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
1. 绪论 指标追踪是现时缠绵机视觉领域的热门问题之一 [1] [2] [3] [4],无边领域中王人会触及到指标追踪,举例视频安防监控系统 [5] [6]、自动驾驶 [7]、医疗会诊 [8]、军事安全 [9] 等。按照追踪对象分为单指标追踪与多指标追踪,本文主要针对单指标追踪进行征询。单指标追踪的主要任务是在给定视频启动指标情景后,指标追踪算法大约对视频后续帧中该指标的位置进行预估与定位。由于视频中指标会受不同要素的影响而发生变化,举例指标体式变化、环境阴私指标自己、光照影响等,因此瞎想一个大约踏实高效准确的追踪器是相等具有挑战性的任务。 传统的指标追踪算法较为约略,主要基于光流法、粒子滤波以及均值漂移结束的,这类步伐很容易受到指标圭臬变化、布景复杂等要素的侵犯,何况由于缠绵历程较为复杂,导致履行速率较慢无法有推行上的进步 [10]。跟着通讯领域的发展,将相干滤波引入到了指标追踪中,基于相干滤波的指标追踪算法数见不鲜,比拟于传统的指标追踪算法,追踪速率大幅进步何况出现了好多追踪性能优良的追踪器,一定进度上处治了追踪速率与性能问题 [11]。 跟着深度学习的发展,卷积神经网罗在索取特征方面有较好的鲁棒性,逐步替代了传统手工瞎想的特征 [12] [13]。基于深度学习的追踪步伐主要分为两类:一类是与相干滤波相结合的算法,另一类是神经网罗通过端对端的磨练完成指标的特征索取与定位 [3]。其中孪生神经网罗既可较好地索取指标特征,在追踪速率上也较为优秀。 2. 孪生网罗结构 孪生结构最早在1993年由Bromley J [14] 等东说念主提议,用于考证签名的一致性。2010年Hinton [15] 等东说念主用孪生网罗来考证东说念主脸。2015年Sergey Zagoruyko [16] 等东说念主对孪生结构进行了考订,极地面提高了网罗判别的准确度 [17]。跟着神经网罗的发展,孪生网罗也逐步出目下缠绵机视觉领域的指标跟上,孪生结构的旨趣如图1。 其中,神经网罗1和神经网罗2是权值分享的神经网罗,这两个结构透澈相似的网罗将不同分输入分别映射到新的空间中,变成新的暗意,通过亏损的缠绵评价两个输入的相似度。 3. 历史发展与近况痔疮 肛交 SINT [18] 算法最早将孪生结构用于指标追踪,通过学习匹配函数复返后续帧中与指标最相似的patch从而结束较精确的定位。同庚,Bertinetto L [19] 等东说念主在追踪部分使用相似度量的想想提议SiamFC算法,采选孪生神经网罗结构如图2,将第一帧的指标动作模板图像,后续帧动作搜索图像,对模板图像和搜索图像进行放缩填充后,输入到相似的骨干网罗中,生成各自的特征图,以模板图像的特征图动作卷积核在搜索图像的特征图上滑动互卷积,进行相似性判断生成对应的置信图,得分最高的子窗口即为预测指标场地位置。 图1. 孪生网罗结构 图2. SiamFC结构图 SiamFC结构较为简单,在其时追踪及时性较好,但在面对指标形变较大、布景较为复杂、相似外不雅等情况下追踪遵循较差。后续好多孪生神经网罗的指标追踪算法王人是在SiamFC的基础上进行考订的,主要从骨干网罗结构、引入转头、结合注眼力机制等方面进行考订。 3.1. 骨干网罗结构 SiamFC的提议将孪生网罗结构动作指标追踪领域中一个新分支,借助神经网罗的发展,后续的算法在其结构上不断地优化,从而结束更高效准确的追踪器。应用神经网罗进行特征索取时时时使用AlexNet动作骨干网罗,网罗层数较浅且较为轻量是其受接待的原因。但网罗层数较浅就会导致特征索取的准确性较低,蒲磊等 [20] 瞎想了基于高层语义镶嵌的孪生网罗追踪算法,在依旧使用AlexNet网罗的前提下,在模板分支中构造语义镶嵌模块,磨练历程中不错将深层语义调度到较浅层的特征,进一步优化所有网罗学习特征的智力,增强特征的抒发,通过实验发现,在缠绵量不变的情况下,增加语义镶嵌模块能在精度和得胜率方面有更好的发达。Li [21] 等东说念主使用修改后的VGG16网罗动作骨干网罗,更深的网罗结构让其在大数据集上磨练遵循更好。陈 [22] 等东说念主在Li的基础上以VGG16动作骨干网罗瞎想了抗阴私的孪生网罗追踪算法,通过对比网罗输出的置信图和连通域进行指标阴私情况的判断,从而提高算法的抗阴私性。 张志鹏 [23] 等在文中将骨干网罗更换为更深层的网罗如ResNet、Inception,发现特征索取的遵循莫得高潮反而下跌了。主要原因是网罗加深导致感受野增加,使用padding会导致网罗在学习历程中出现位置偏差,从而影响了准确度。为了处治上述问题,文中提议了CIR残差块用来减轻padding带来的偏差影响。邵 [24] 等东说念主在SiamFC的基础上通过残差蚁合交融模板分支网罗索取不同层的特征,通过特征交融增大模子的表征智力,结合注眼力机制模块充分挖掘指口号义信息。通过实验发现遵循较前文有更好的发达。 3.2. 引入转头 面对追踪指标的圭臬发生变化时,SiamFC中使用搜索域的步伐增增多圭臬缠绵,但这么作念增加缠绵量的同期,无法适当圭臬的变化。为了处治这个问题,Li [25] 等东说念主鉴戒RPN (区域建议网罗)的想想,提议了SiamRPN算法,结构如图3,将追踪问题滚动为分类和转头两个分支,一个用于分离远景和布景,一个用于边框转头。后续引入转头的追踪算法也数见不鲜,其中又分为基于锚框的追踪算法和无锚框的追踪算法。 图3. SiamRPN结构图 3.2.1. 有锚框的追踪算法 基于区域建议网罗的想想是在特征索取生成的特征图上,基于锚点生成指定尺寸的锚框,凭据锚框与真确指标框的IOU值来治服指标是否在锚框中。在追踪算法的转头历程中凭据最好锚框与的确指标框的距离缠绵出来的亏损诊疗网罗参数。 SiamRPN算法使用的骨干网罗为AlexNet网罗,如前文提到,使用加深的骨干网罗会使性能大幅衰减,针对这种情况Li [26] 等对其进行考订瞎想了SiamRPN++,在磨练历程中加入位置平衡的采样计谋,以此来进一步智力网罗在磨练历程中出现的位置偏离问题,同期应用了多层交融,将浅层特征的细节信息和深层网罗的语义信息相结合从而进一步进步追踪性能。 区域建议网罗会产生渊博的锚框,从而影响追踪的精度和速率。尚 [27] 等东说念主针对冗余锚框的问题提议了导向锚框网罗,凭据孪生网罗中索取高层语义特征中的指标位置和体式散播来学习锚框的体式,锚框的位置预测通过使用1*1的卷积核与输入特征图进行卷积得到置信图,再通过激活函数获取与输入特征图相似大小的概率图。将概率与成就的阈值治服可能存在的位置,这么不错过滤掉90%的区域,大幅提高网罗遵循。 引入区域建议网罗大约隐敝图像金字塔对追踪产生的影响,然则大多数算法中生成的锚框为平行坐标轴的矩形框,当追踪指标旋转时会,锚框的看法不会发生变化,锚框中过多的布景信息会导致追踪遵循的下跌。为了处治这个问题,姜 [28] 等东说念主,提议了旋转区域提议的孪生神经网罗追踪算法,引入了AO-RPN网罗并结合残差网罗结构,在多个特征索取层使用AO-RPN网罗进行索取,特征交融后通过分类预测结束端到端的磨练。 3.2.2. 无锚框的追踪算法 基于锚框的追踪算法大约得回指标范围,在磨练历程中对分类预测的中心进行磨练,若是分类预测的中心出现偏差,就会导致转头框出现偏差;何况基于锚框的追踪算法会引入渊博参数与缠绵,从而影响追踪为止,无锚框(anchor-free)的算法也因此被提议。鉴戒指标检测中的FCOS [29] 算法,在特征图对应点上平直进行转头操作,预测该点与指标凹凸支配侧的距离进而预测指标位置。SiamCar [30] 中引入了中心度得分图,通过比较分类分支的得分图和中心度得分图,罗致出最好的指标中心点,凭据中心点和真确边框的距离得到预测框。SiamBAN [31] 引入缺乏卷积旨趣,进步追踪器的性能。针对之前孪生网罗追踪器的不对感性,SiamFC++ [32] 增加了转头分类分支以及质料评估分支。无锚点使得算法泛化智力更强,无先验学问使得全体结构愈加精真金不怕火,从而使得运行速率有一定的进步。 基于锚框与无锚框推行的区别在于基于锚框的追踪是具有先验学问的,大约较好的感受到物体的圭臬变化从而进一步转头,而无锚框自己不具有圭臬的感受智力,于是Ocean [33] 算法中提议了feature combination模子如图4,在特征编码时不同看法使用不同的dilated strides得到不同圭臬的感受智力。为了更好的学习特征,将旯旮点感受部分的预测框的偏差通过Object-aware模块诊疗,从而增强预测的准确性。 图4. Ocean算法模子 3.3. 结合注眼力机制 注眼力机制最早应用于当然谈话处理的任务中 [34],目的是处治长序列带来的淡忘气象。Volodymyr [35] 等东说念主将其应用在视觉领域,后Ashish Vaswani [36] 等东说念主提议了Transformer结构后,注眼力机制在当然谈话处理、缠绵机视觉等相干领域的网罗瞎想上被平淡应用。在缠绵机视觉中,注眼力机制的中枢想想是基于原有的数据找到其之间的关联性,凸起某些攻击特征。RASNet [37] 将注眼力机制模子引入到孪生神经网罗结构的追踪问题上,文中提议通用注眼力机制、残差注眼力机制和通说念注眼力机制,缓解深度网罗的过拟合问题,进步网罗的判断智力和适当智力。Yu Y等东说念主 [38] 提议了可变形孪生注眼力网罗 SiamAttn来增强孪生网罗追踪器的特征学习智力。包括可变形的自注眼力机制和互注眼力机制两部分。自注眼力机制通过空间注眼力和通说念注眼力可学习到广阔的凹凸文信息,并罗致性地增强通说念特征之间的相互依赖;而互注眼力机制则不错灵验地团员与换取模板和搜索区域之间丰富的信息。这种注眼力机制为追踪器提供了一种自适当模板特征隐式更新步伐。F. Du等东说念主 [39] 提议使用像素看法相干指引的空间注目模块和通说念看法相干指引的通说念注目模块,应用指标模板和感趣味区域之间的关系凸起焦点区域,增强感趣味区域的特征进行角点检测,从而进一步提高范围框预计的准确性。 3.4. 新趋势 3.4.1. 基于Transformer的追踪 Transformer [36] 结构是第一个只基于注眼力机制完成编码器–解码器功能的模子,在机器翻译的任务上相干于RNN与CNN来说有更好的遵循。随后Transform逐步应用到图像分类、图像分割等领域 [40],基于Transformer的孪生结构追踪器也逐步被提议。Transformer的结构如图5,左侧为编码器,右侧为解码器,Transformer提议了多Muti-Headed Attention为了师法卷积网罗不错进行多通说念识别多花式的遵循。 图5. Transformer结构图 在指标追踪任务中,连气儿帧之间存储着较为丰富的时期信息,大多数算法忽略了这一特征,Wang N [41] 等将Transformer结构引入到追踪框架中进行援助追踪,不修改模板匹配步伐,将编码器妥协码器分离为两个并行分支,联结视频流中的禁锢帧,在帧间传递时期凹凸文信息。TransT [42] 中借助Transformer的想想引入凹凸文增强模块ECA与交叉特征增强模块CFA来完成特征交融的功能。Zhao M [43] 等考订Ocean算法,使用Transformer结构完成孪生网罗中的相互关操作,以此来得回全局和丰富的凹凸文相干性。 基于Transformer的许多算法在性能方面不如CNN,直到Swin-Transformer [44] 的出现。Lin L [45] 等将特征索取网罗平直换成Swin-Transformer,提议了透澈基于注眼力机制的追踪算法SwinTrack,在孪生结构的基础上,平直使用Transformer结构进行特征索取与特征交融,在无边具有挑战的数据集上王人处于进步位置。 3.4.2. 轻量型追踪 为了追求追踪精度,追踪的模子越来越复杂,无法平衡的速率与精度,于是轻量型的追踪算法也成为有价值的征询看法。LightTrack [46] 使用神经架构搜索来瞎想更轻量高效的指标追踪器,比拟于之前性能较好的Ocean算法,参数目减少90%以上,速率也快了12倍。E.T.Track [47] 对Transformer架构进行轻量化操作,提议了Exemplar Transformer来代替卷积,相干于其他基于Transformer的追踪算法比拟速率快了8倍,何况在CPU上运行速率可达47FPS。FEAR [48] 中提议了两个轻量化模子,模子较LightTrack更小,追踪准确率更高。 4. 经典数据集 在单指标追踪看法较为经典的数据集(表1)有OTB系列、VOT系列以及GOT-10K,OTB50和OTB100提供51和98个视频序列,每个帧使用11个不同的属性和垂直范围框进行注视。VOT针对多达60个视频序列提议了几个挑战。它引入了旋转范围框以及对对象追踪注视的平淡征询。GOT-10K包含10,000个视频序列以及手工标注的150万个范围框,使用WordNet英文词汇数据库动作骨架搭建。 基于神经网罗的追踪算法出现后,具有挑战性的追踪评测数据集也随之增多。比较具有代表性的数据集有UAV123、LaSOT、TrackingNet等。 LaSOT数据集包含1400个序列,是较大的密集注视追踪基准,每个序列王人包含来自田野的各式挑战。早期的数据集时时属于微型数据集,关于磨练大型网罗较为不利,何况短时基准的评估可能无法响应追踪器在推行应用中的推行性能,LaSOT的大鸿沟数据集大约提供更为可靠的评估为止。 TrackingNet数据集包含了30,643个视频片断,通过YouTube视频采样有更真确的场景,该数据集囊括了当然场景下的各式情形,包含了各式帧率,分辨率,凹凸文场景以及指标类别。 UAV数据集引入了无东说念主机拍摄视频,通过低空拍摄面容构建了包含123个高清视频,每个视频序列有完好的标签。在视频序列中指标的矩形框的长宽比跟着无东说念主机的畅通变化较为昭彰,是以关于追踪器的圭臬自适当条目较高。测试序列中包括布景杂波、快速畅通、透澈阴私等属性。 表1. 经典数据集 5. 征询预测 比年来,指标追踪领域发展飞速,相干算法也数见不鲜,然则指标追踪依旧濒临着诸多挑战。处治环境对指标追踪的影响,更好地应用指标自己的特征以及平衡准确性、鲁棒性和及时性是具有挑战性的征询看法。 1) 环境变化影响追踪 指标在追踪历程中自身会发生形变、快速畅通的变化,何况指标场地环境也会影响指标自己,举例光照变化、指标阴私、布景侵犯等,现存的算法时时只对其中部分影响作念出诊疗,何况由于环境侵犯,指标丢失后较难追踪,因此驻扎环境变化影响指标是值得真切征询的问题 2) 更好地应用灵验信息 指标追踪是基于指标的特征的,指标周围以及布景中存在一些不错匡助判断物体位置的信息,充分应用指标布景信息与指标周围特征等援助信息对结束指标的准治服位具有一订价值。 3) 平衡准确性、鲁棒性和及时性 在推行环境中对指标进行追踪时时要在准确性和鲁棒性的基础上具备及时性,但为了提高追踪的准确性,目下大多算法的模子较为复杂,导致追踪速率相对较慢,平衡准确性、鲁棒性和及时性是具有征询价值的看法。 著述援用 李铭涵. 孪生神经网罗在指标追踪中的算法征询Algorithm Research of Siamese Neural Network in Target Tracking[J]. 东说念主工智能与机器东说念主征询, 2022, 11(03): 278-287. https://doi.org/10.12677/AIRR.2022.113029 参考文件痔疮 肛交 |