运动目标检测应用「CVPR2021:在线目标检测中运动模糊的改进处理」
Improved Handling of Motion Blur in Online Object Detection
摘要
我们希望检测特定类别的物体,以便在线视觉系统在现实世界中运行,目标检测已经非常具有挑战性,如果相机在汽车或手持电话上拍摄的图像模糊不清,那就更难了。大多数现有的努力要么专注于清晰的图像,易于标记真相,要么将运动模糊视为许多通用的损坏之一,相反,我们特别关注自我运动引起模糊的细节。我们探索了五类补救措施,每种补救措施都针对导致清晰图像和模糊图
论文题目:
Improved Handling of Motion Blur in Online Object Detection
摘要
我们希望检测特定类别的物体,以便在线视觉系统在现实世界中运行,目标检测已经非常具有挑战性,如果相机在汽车或手持电话上拍摄的图像模糊不清,那就更难了。大多数现有的努力要么专注于清晰的图像,易于标记真相,要么将运动模糊视为许多通用的损坏之一,相反,我们特别关注自我运动引起模糊的细节。我们探索了五类补救措施,每种补救措施都针对导致清晰图像和模糊图像之间性能差距的不同潜在原因。例如,首先去模糊图像会改变其人类可解释性,但目前只能部分提高物体检测。其他四类补救措施涉及多尺度纹理、分布外测试、标签生成和模糊类型调节。令人惊讶的是,我们发现自定义标签生成旨在解决空间歧义,领先于所有其他方法,显著提高了对象检测。此外,与分类的结果相比,通过将我们的模型调整为定制的运动模糊类别,我们看到了一个值得注意的提升。我们在模糊的COCO图像和真实世界的模糊数据集上实验验证和杂交不同的补救措施,产生了一个简单实用的最受欢迎的模型,具有优越的检测率。
1. 简介
在大多数手持摄影中都有一点动态模糊,模糊越来越难以忽视,因为图像越来越多地是在移动中捕捉的,例如由一个带平衡架的机器人或自动驾驶汽车拍摄。正是这些正在进行的情况促使我们探索:运动模糊严重程度对物体检测有多大影响?对此我们能做些什么呢?检测很重要,因为它支撑着许多其他任务,比如跟踪和重新识别,我们最初的范围进一步缩小到自我运动引起的模糊。
不出所料,模糊的严重程度与检测失败相关,图1显示了一个示例,一个理想的算法将使这种退化变得更加渐进,并且有一天可以使一个模型超越人类通过模糊的能力,比起单一的突破,更有可能需要多种方法的结合。就像“细节中的魔鬼”论文一样,任务细节和管道可能会产生影响。
我们的主要贡献是对五类补救措施的实证探索,这些补救措施被选择来应对降低检测准确性的五个原因。这里探讨的五个原因/补救措施是:
1)整个图像是否太模糊而无用?首先去模糊测试图像。
2)纹理不匹配沿模糊轴混淆模型?空间变换图像进行补偿。
3)测试时间模糊是否与训练数据不同?训练模型的分布外鲁棒性,和/或执行网络的测试时间调优。
4)训练标签是否不正确?自定义标签以匹配模糊检测任务,并重新考虑用于测试的标签。
5)自我运动模糊类型是否过于多样化?将模糊检测视为一个多任务问题。
总的来说,我们提出了一个新的模型,重点关注(4)和(5)中的补救措施,并为自我运动引起的模糊中的在线物体检测设置了一个新的标准。
2. 相关工作
去模糊:一个有价值的数据和潜在见解的紧密主题是图像去模糊,图像反褶积的第一个规范方法来自Richardson和Lucy,其中一个已知的点扩散函数(PSF) -模糊核-用于迭代最小化能量函数,以找到原始图像的最大似然估计。模糊去模糊可以是非盲的,其中模糊内核是已知的,或者它可以是盲的,其中内核要么是第一次估计-通常用最终结果进行优化-或者整个去模糊方法是不可解释的,并且从头到尾运行。去模糊也可以假设整个图像都是均匀的模糊核,或者由于相机自我运动(旋转、缩放)、景深效果或动态物体运动模糊而产生的可变非均匀模糊。
之前的工作使用了L0稀疏表示,暗图像区域和视频中的多帧。更多侵入性的方法利用硬件,包括使用编码快门,惯性测量,闪光帧信息集成,模糊图像爆发,高和低帧速率相机,或绑定到RGB传感器的事件驱动相机。一些深度学习去模糊方法是可解释的,但大多数是端到端,最近由Nah等人在高帧率GOPRO数据集上训练。我们探索使用最先进的去模糊方法作为预处理步骤,并测量这种基线的整体有效性。
Boracchi等生成了一种用于运动模糊核生成的统计模型,用于对图像恢复模型的性能进行基准测试,他们生成的模糊核被参数化以模拟相机抖动和曝光,使他们的核生成方法成为合成模糊增强训练的一个很好的候选者。尽管去模糊的美学驱动方法意味着有很多竞争方法可以从模糊中提取高频信息,但在在线视觉应用中使用可能是不切实际的,特别是考虑到网络对训练分布的变化非常敏感。
模糊和场景理解任务:与这项工作直接相关,Vasiljevic等探索模糊对ImageNet分类性能的影响和模糊增强策略,使用一组合成生成的模糊内核;然而,他们在训练和评估期间使用有限的100个17 × 17预生成的固定长度运动模糊内核和384 × 384的限制性图像分辨率。他们尝试了不同的模糊类型和细粒度模糊增强进行分类,但只考虑了分割模糊类型-而不是跨不同内核类型的模糊暴露;在图像分割中只探讨了离焦模糊。对于图像分割,他们使用软边界来评估网络的准确性,但没有探索在训练期间空间模糊性对模糊微调网络的影响,特别是因为只有散焦模糊(自然没有重心偏移)用于微调分割任务。Vasiljevic等人注意,知道模糊信息的先验可能是有帮助的,但不要探索这样的模糊估计器。总体而言,我们发现在视觉模型中构建显式鲁棒性以处理逼真的相机运动模糊需要更多的探索,特别是对于空间任务。
分布外鲁棒性:最近的工作将图像损坏(亮度、对比度、雪、噪声、模糊)与网络训练的分布内干净图像相比,视为分布外样本。ImageNet- c是ImageNet分类数据集的一个变体,它包含被15种不同类型的规范图像损坏的图像,并被用作分布外模型性能的基准。至关重要的是,ImageNet-C -以及其他如ImageNet-R和ImageNet-A -并不是用来训练的。相反,他们的论点是,一个模型泛化到训练集分布之外的图像的能力可以通过评估它在这些数据集上的表现来衡量。
虽然ImageNet-C包含运动模糊损坏,但该方法只考虑直线运动模糊内核。Michaelis等人使用来自ImageNet-C的相同损坏,通过增强MS COCO来产生用于检测的鲁棒性基准。COCO-C也包括直线模糊图像,但没有解决模糊所带来的空间模糊下标签的变化。我们称这种类型的朴素模糊为“非中心”,并说明了为什么它对空间推理很重要。
在数据增强领域,AutoAugment为模型和数据集对找到了最优的增强策略,可实现分类数据集的最先进精度,但在NVIDIA Tesla P100上训练ImageNet需要15,000个计算小时。Rusak等提出了一种在ImageNet-C上提高分类模型精度和鲁棒性的软序列噪声训练方案,主要是对抗像素噪声,不模糊。AugMix是一种增强策略,用于提高分类模型对分布外图像的鲁棒性。它涉及被随机图像增强链损坏的训练图像的alpha混合副本,它们使用相同的损坏,包括像素级值更改和空间增强。尽管AugMix论文也没有讨论空间增强应该如何影响空间标签,但在决定如何改变空间标签之后,我们探索了AugMix在模糊鲁棒性方面的有效性。Schneider等使用源训练集和小批量统计数据的加权平均来分析批处理归一化层中归一化激活的效果。他们的方法在ImageNet-C上达到了最先进的水平,并提高了ImageNet-C在香草Resnet-50分类模型上的鲁棒性,即使是在一个小批量的情况下。
虽然这些方法是一种很有希望提高模型对看不见的损坏的鲁棒性的方法,但拟议工作的目的是探索运动模糊对检测的具体影响,因此我们将精力集中在制造文献中可用的最逼真的模糊内核上。
3.运动模糊检测模型设计
为了改进在线对象检测,我们提出了一个统一的框架,允许我们测量不同补救措施及其组合的影响。该框架基于最先进的目标检测器fastrcnn,并对来自MS COCO检测数据集的数据进行了训练和测试。本节将解释基线和数据,建议的补救措施将在第4节中详细解释,并在第5节中进行评估。图2说明了基线模型和不同的增强替代方案。
3.1. 检测基线
为了重现性,我们使用在COCO上训练的预训练的Faster RCNN变体,可以通过Pytorch的torchvision库获得,作为我们所有实验的基线。我们使用ResNet-50[骨干网和特征金字塔网络(FPN)。这个基线在COCO测试集中达到58.5 mAP@0.5和37.0 mAP@0.5:0.95。虽然其他模型在COCO微型集上获得了更好的精度,但我们选择这个框架是因为它的可访问性,并且作为一个规范检测框架的良好基线表示,对于骨干的大小具有前10名的性能。
3.2. 为训练和测试选择数据
理想情况下,我们会为表现出运动模糊的图像选择带有检测标签的数据,由于MS COCO收集的方式,数据集中很少有模糊的图像。这给我们留下了生成用于训练和评估的综合模糊COCO图像的任务。相关但不直接适用于这里,有多个真实世界的图像数据集用于去模糊。这些是使用高帧率视频或快门绑定摄像机生成的。它们要么没有包含足够的图像来训练和评估检测模型,要么缺少对象注释。Zhang等人生成模糊图像作为GAN架构的一部分,用于去模糊。尽管他们使用在真实世界模糊图像上训练的鉴别器来训练模糊生成模块,但鉴于空间模糊性,修改标签并不是一件简单的事情,因为摄像机的运动不是明确的。Brooks和Barron使用多个相邻图像(最少两个)来生成逼真的运动模糊。但要使用它,就需要一个带有地面真相标签的视频或立体数据集来执行检测任务。
这就剩下了通过合成运动模糊核卷积合成模糊图像的方法。ImageNet-C和COCO-C包含仅使用直线运动模糊的图像,不控制模拟相机抖动。Vasiljevic等使用有限的运动模糊核集,因为它们受到固定长度样条形成模型的约束。Boracchi & Foi描述了一种允许控制相机在空间中轨迹的不同特征的方法,包括可变曝光的抖动和抖动量。
3.3. 模糊生成和空间离散化
我们采用Boracchi & Foi模糊核生成方法。我们将它们的高级可控参数P固定为三个值中的一个,P1−3,代表三种不同类型的摄像机运动。我们还通过早期相机轨迹剪辑调节曝光。首先,我们通过在二维空间中寻找一个随机路径来生成一个轨迹。我们指定一个从单位圆随机绘制的初始速度矢量v0,以及相机在空间x0中的位置。在每一步,相机的速度矢量都被加速度矢量更新,
其中,∆vg为随机加速度,其元素来源于N (0, σ2)。Ixt是相机停留在原地的惯性倾向,P∈P1−3是我们上面固定的高水平焦虑参数。P3每一步的随机速度变化最大。此外,为了模拟相机颠簸,使用随机采样的指示器函数,加速度更新还包括一个等于随机方向上当前速度矢量两倍的分量,所以
其中∆vj为单位圆采样,同样,P值高的情况下,相机抖动的几率也会更高。在开始轨迹时,I、σ2和j从均匀随机分布中抽取一次,以增加同一类模糊P∈P1−3下的变异性。请注意,这会导致不同P生成的内核之间有一些重叠。
综上所述,相机行为的类型可以分为三类:1)P1模拟一个非常紧张的相机,2)P2用于前后行为,3)P3主要模拟直线运动模糊。为了模拟曝光,我们使用曝光因子(轨迹长度)e提前停止运动路径,我们将曝光离散到5个值之一E1−5,这些核的例子可以在图3中看到,亚像素插值产生用于卷积锐利图像的内核。
3.4. 实现细节
核生成:为了加快训练速度,每对{P1−3}× {E1−5}生成12,000个模糊核的语体,总共有180,000个可能的运动模糊核。然而,在评估模糊类型和曝光的每个组合时,随机内核是动态生成的,为了重现性,种子是固定的。轨迹长度为96,模糊内核适合128 × 128滤波器。
模糊:我们在模糊之前不会将图像调整为固定大小。相反,每一张图像都分别用反射填充进行卷积,以解释真实世界的数据。我们选择不调整我们的模糊内核来匹配图像大小,作为一种模拟焦距变化的方式。我们在GPU上实现稀疏卷积,用于应用模糊内核。根据第4.4节,我们通过将运动模糊内核的重心平移到过滤器的中心来确保其居中。
训练:所有网络都从一个基于COCO预训练的基础Resnet-50FPN开始。我们使用FPN框架,从主干输出四个尺度的激活。当训练所有五个块与固定前两个块的权重时,模糊增强性能没有明显差异。
4. 改进检测的建议补救措施
怀疑模糊对检测的不利影响的具体潜在原因,我们现在提出定制的补救措施。在适当的情况下,一些补救措施也是杂交的,实验结果见第5节。
4.1. 去模糊作为预处理
图像去模糊是有用的审美目的,但也可以帮助其他视觉任务。为了测试这种补救措施,我们在将结果传递给检测器之前,使用了来自GoPro数据集论文的最近的去模糊模型。去模糊是一个缓慢的过程,在这种情况下是12倍,所以在线机器人需要大量的优化。
4.2. 调和纹理信息与尺度
当运动模糊偏向于一个主要方向而不是另一个方向时,它会在该方向上删除更多的高频信息(和纹理)。我们有理由认为网络本身并不是为这种不平衡而设计的。cnn通常在相同的纵横比下理解跨多个尺度的纹理和形状信息,但我们也要求网络处理沿模糊核的主轴的纹理不平衡。受空间变形器(它被证明是一个稍差的基线)和神经采样层的工作的影响,我们改为沿着模糊核的主成分对传入图像进行低采样。反向操作,使用倒数比例因子,从骨干的每个激活输出。这个“斜视”过程在训练和测试时都要完成,为了进行最佳情况测试,假设oracle知道blur内核。
4.3. 训练vs测试分布
我们考虑将复杂运动模糊处理为分布外破坏,并使用了OOD文献中两种有前途的方法。我们使用AugMix作为训练时间补救措施。我们提出了三种,第一种是纯像素级版本,我们只增强像素强度。第二种方法应用了建议的所有空间增强,但不协调边界框变化中的移动。第三个是第4.4节之后的“扩展”版本,我们在训练时更改COCO标签,以匹配对象跨分支转移到的超集。当选择在与其他分支连接之前转换图像的增强时,AugMix大致近似模糊。此外,在测试时,我们使用即将到来的的协变量移位适应。第一步是获得小批量的传入激活统计信息(在线推理n = 1)和模型的源统计信息(n = 16)的加权平均值,
然后,我们使用这些新的归一化统计数据在所有网络层进行批量归一化。
4.4. 自定义标签
当图像经过运动模糊处理时,物体不再局限于它们在清晰图像中占据的边界框,目标可能不再是估计原始的包围框,见图4。我们讨论了这个问题的两种补救措施,适用于增强训练和评估。
运动模糊路径的起点对应于t = 0时的曝光。如图4(b)所示,任何离开中心的路径都会在某个方向上抵消物体的模糊版本,因此“ground truth”包围框不再以模糊物体为中心,这会导致模糊输入与其标签之间的不匹配。这种不匹配是在中创建的,在训练中引入了标签歧义和噪声。
我们使用内核非零点的加权平均值来集中内核,其目的是让检测框架学会在曝光期间根据对象的平均位置来定位对象。这种补救措施类似于如何对齐来自配对长/短曝光相机的图像来训练去模糊。在我们的例子中,当在非中心的内核上训练时,训练损失更大,精度的下降可以达到最严重模糊的8-10mAP@50(见图5中的“非中心增强”和“标准增强”)点。这里显示的所有网络都将使用居中的内核进行训练和评估,除非明确提到。
与原来的包围框相比,扩展的标签可以覆盖曝光过程中物体投影的像素超集;见图4(d)。在训练过程中如果没有这种纠正,最糟糕的情况可能会发生:对于一个小物体,由于IOU截止,清晰图像的标签似乎完全错过了模糊的物体。作为补救措施,对于每个生成的居中内核,我们在两个2D轴(x−,x , y−,y )中找到非零内核元素的最大偏移量,并使用它们来扩展COCO包围框标签的边界。新的边界框标签(左上和宽度/高度)现在
我们用这些扩展的盒子和内核定心来训练我们的网络的变体。在测试期间,我们使用扩展边界盒评估这些网络。
4.5. 专为类别的模糊
最后一类补救措施探讨了自我运动引起的模糊是否可能是多个问题伪装成一个。我们在模糊空间的特定分割段上探索训练模糊专用网络,就好像模糊类别是多个不同的任务一样,识别结果表明,特定的模糊网络在其各自的模糊类型上有时比一般的模糊增强网络具有更高的任务精度。
我们制作了两组专门的网络,它们的不同之处在于运动内核如何聚类。首先,根据内核P的类型单独对运动模糊进行分组,从而为P1−3中的每一个定制网络,并为所有类型和曝光训练第四个通才网络。第二组在每个P上创建三个专门的网络,但专门用于长曝光模糊。一个进一步的网络处理所有低曝光模糊。根据,网络偏向于纹理。而不是使用这些知识来创建更多的腐败健壮网络,在这里利用它来创建更多的形状偏向网络,以获得大量的运动模糊。
模糊估计和网络选择增加了ResNet-18模糊估计模块,运行速度比检测框架快10倍,估计器在测试时对图像中存在的模糊进行分类。一个网络训练了16个类别(锐利和所有曝光和模糊类型的组合),另一个网络专注于高曝光下的特定模糊类型和低曝光下的一般模糊之间的分离(4个类别)。
5. 比较与评价
我们报告所有建议的补救措施的COCO微型结果,在测试时间和训练时间。对于图5和图6中列出的所有模型和变体,报告了mAP@50的检测精度,其中前者使用COCO原始标签,后者使用扩展标签。我们还报告了两个伪真实模糊数据集(GOPRO和REDS)以及使用快门绑定相机获得的真实模糊数据集(RealBlur)的精度结果。这些数据集没有框注释,因此我们使用最先进的高精度检测器检测器检测器来获取伪地真值边界盒进行评估。为了评估扩展的边界盒,我们使用地面真相锐利帧生成我们自己的GOPRO测试集,并使用使用计算的流进行边界盒扩展。
下面解释了图中的名称,并映射到五个补救类别。
•标准增强标签和扩展标签分别在非扩展但居中的COCO标签上进行训练,扩展和居中的COCO标签上进行训练。他们都接受了所有模糊类型的清晰到模糊图像的10/90混合训练。
•先去模糊再原始和先去模糊再标准增强都是两种操作模式,其中图像首先使用去模糊,然后分别通过原始网络或标准增强网络运行。斜视和斜视扩展标签来自第4.2节,分别使用模糊或扩展标签下的标准标签进行了训练。如第4.3节所述,我们评估了一个非空间版本,AugMix PixelLevel,一个没有标签扩展的空间版本,AugMix,以及一个根据增强使用扩展标签训练的版本,并使用基于模糊的标签扩展AugMix expanded labels进行评估。
•标准增强w/MiniBatch和扩展标签w/MiniBatch遵循Schneider et al,并使用N = 16和N = 1的修改小批量归一化,如第4.3节所示,网络已分别使用标准标签或扩展标签进行模糊增强。
•首先使用非空间AugMix转换图像,然后模糊图像,然后使用扩展标签训练标准Augmented w/ NonSpatial AugMix和Expanded Labels w/ NonSpatial AugMix。非空间AugMix增强有助于在低曝光模糊情况下泛化到其他数据集。
6. 讨论
我们实现了最先进的自我运动模糊图像的目标检测结果,我们已经成功地确定了两个因素对这种图像的检测产生不利影响。首先,清晰图像的标签应该针对运动模糊域进行自定义。在我们的补救措施中,这意味着翻译和扩展边界框标签以匹配相关对象的模糊版本,第二,运动模糊的类别是不同的,足以让模型分别为每个模糊类别进行训练。有趣的是,第二个因素与在识别任务中发现的相反,在训练中混合模糊类型是有效的。通过我们的“鉴别诊断”方法,本文探讨的其他三个因素似乎没有希望解释模糊在基于cnn的检测中的破坏性。这些负面结果并不是决定性的,因为补救措施可能还不成熟。例如,更好的去模糊最终可以在所有尺度上恢复缺失的纹理。
将来,为了减少我们所青睐的解决方案的内存占用,可以将模糊选择器和不同的暴露特定模型组合成一个多任务模型。它们已经是端到端可微的,但是它们可以共享层,在这个方向上的进一步进展可以受益于一个提炼的数据集,它允许检测标签和从真实数据中模糊,可能通过使用事件驱动的相机或多相机数据集。一个明显的限制是,即使是清晰的图像,在模糊进一步损害情况之前,也只有
文章评论