【目标检测论文阅读笔记】CARAFE: Content-Aware ReAssembly of FEatures

特征增强是当前诸多卷积网络体系中的核心环节，比如特征堆叠结构。其构造对于目标捕捉以及语义化/实例化划分这类密集型预测工作具有决定性意义。本次研究中，我们研发了具备内容感知力的特征整合机制，它是一种通用性佳、资源消耗少且运算迅速的方法，能够达成上述目的。

具有几个吸引人的特性：

具有宽广的观察范围，不同于以往仅依靠亚像素邻近区域进行处理的成果（比如双线性插值方法），它能够在更为宏大的感受区域中汇集周边的上下文数据。

内容理解加工，并非统一对待所有样本，采用固定模板，比如反卷积，而是启动实例化内容识别功能，实时创建动态模板。

计算负担轻微,运行速度快。这种计算方法带来的额外负担并不大,因此能够很方便地融入当代的网络系统之中。

我们全面审视了针对目标识别、物体细粒度划分以及缺陷处理等核心任务的标准测试平台。在各项挑战中均获得稳定且突出的提升效果，具体表现为AP指标分别增长1.2个百分点、AP指标提升1.3个百分点、mIoU指标提高1.8个百分点、以及dB指标改善1.1分贝，同时运算成本极低几乎可以忽略。这种技术方案展现出作为后续探索坚实基础的巨大价值。

代码和模型可在获得。

特征提升是深度网络里的基础步骤。对于需要处理图像重建和场景理解这类工作，其解码部分会运用提升技术，将较粗糙的细节图转换成更精细的形态，以便与输入的清晰标注对齐此外，特征提升过程也需要合并抽象程度高的低分辩率图像和细节丰富的高分辩率图像，这种做法在众多前沿的模型设计中普遍存在，比如特征堆叠网络、U-Net 等。所以，如何开发出性能优越的特征提升方法是一个核心课题。

最常见的一种特征上采样方法是最近邻方法，以及双线性插值方法，这两种方法依据像素点之间的空间间隔来执行上采样操作。不过，最近邻方法和双线性插值方法只关注亚像素邻域，因而难以获取密集预测任务所需要的充分语义内容。自适应上采样的另一种技术是反卷积。反卷积层充当卷积层的反向操作，它致力于掌握一套与特定实例无关的上采样滤波器组。不过存在两个显著不足之处。其一，反卷积算子对整幅图像实施固定不变的模式，不论图像内部结构怎样。这种做法削弱了它捕捉局部差异的精确度。其二，该算子包含众多可调参数，当处理宽泛的滤波器时，会带来繁重的运算负担。这种计算压力导致难以处理范围超出邻近区域的复杂情形，进而限制了它的功能表现和实际应用水平。

这项研究突破了现有局限，探索一种具备以下特性的上采样方法：1) 能够在大范围视野中整合数据，2) 可迅速响应实例特有的信息，3) 并维持运算效能。为此，我们设计了一种兼具轻巧与高效的操作符，命名为 -感知式 ()。详细说明，采用加权方式在以各个点为基准的预设范围内重新配置特征，其中赋权值依据内容感知原则确立。不仅如此，每个点都配备若干套此类上采样赋权。接着，借助将所得特征调整为空间单元的方法实施特征上采样。

这些空间自适应权重不属于网络参数范畴，而是通过动态预测方式获得，具体采用具备激活功能的轻量级全卷积模块实现。图1展示了其运行机制。经过上采样处理后，特征图能够更精确地刻画物体形态，进而有助于模型获得更优的实例分割性能。我们的方法不仅对特征图执行空间维度提升，同时致力于强化其区分能力。

为了验证其广泛适用性，我们考察了主流体系在多种密集预测场景中的整体表现，具体包括目标识别、物件划分、场景分类、图像复原等典型任务。在 MS COCO test-dev 2018 数据集上，采用 RCNN 能够使目标检测任务的效果提升 1.2%，而使用 Mask RCNN 则可以在实例分割任务中获得 1.3% AP 的性能增益。在语义分割的验证集上，性能指标提升了1.8个百分点mIoU，在图像修复任务中，结合局部特征的方法在验证集上使PSNR增加了1.1分贝。在处理拥有 256 个通路的 H × W 特征图时，若执行翻倍尺寸的升采样操作，其产生的计算负担仅为 H ∗ W ∗ 199k 次浮点运算，相比之下，反卷积方法则需要 H ∗ W ∗ 1180k 次浮点运算。各项任务所取得的显著成效明确显示，该算子不仅具备出色的性能，而且展现出极高的效率，预示着它极有可能成为未来研究所依赖的关键基础模块。

2. Work上采样运算符。

首选的上采样技术包括最近邻法和双线性插值法，这两种方法借助距离来评估像素间的关联性，并且运用了人工设计的上采样核心，在深度学习兴起后，出现了多种采用可学习算子对特征图进行上采样的技术，其中反卷积作为卷积的逆向操作，是众多可学习上采样器中最为突出的代表Pixel 设计了一种独特的放大模块，它将通道维度上的深度重新组织为位置上的宽度和高度。近期，提出了带引导的上采样（GUM），它借助带有可训练偏移量的像素点进行采样以完成内插。但是，这些方案要么仅参考周围极小范围内的上下文数据，要么需要耗费大量计算资源来实现自适应内插。在超分辨率和去噪领域，其他一些作品

27、16、11

也尝试在初级视觉里空间上运用可训练核心。秉持相近的设计理念，我们在此呈现了内容识别特征再构建在若干视觉感知作业里进行升采样的实际效用和运作方式，并且给出了一种精简的应对办法。

密集预测任务。

目标检测旨在通过边界框来锁定物体，实例分割则要求预测出实例的掩码区域。-RCNN 通过引入区域生成网络，实现了端到端的训练过程，同时借助引导锚方案，对系统进行了优化改进。

21, 24, 17, 45, 31

借助分层特征聚合结构来应对多种尺寸的目标物。通过增设专门的区域分割通路，基础模型及其衍生版本获得了令人期待的图像级分类成效。实例分割要求对输入画面执行细粒度的类别判定。在多个空间层级上实施了特征整合操作。根据此构想构建了更为灵活的体系。对图像或视频进行内容复原

42、40、39

补全输入图像中缺失部分是常见难题，U-net 方法在最新研究中备受青睐，该方案运用多种上抽样操作，Liu 及其团队引入了部分卷积单元，以此降低丢失部分对传统卷积环节的不良作用，我们的技术通过大量密集预测挑战，验证了其普适性。

3. 特征的内容感知重组

特征增强是众多当代卷积网络体系中的核心环节，这些体系专门用于目标识别、物体分割以及环境理解等应用。本次研究中，我们倡导了一种基于内涵的特征整合方法，用以提升特征矩阵的分辨率。具体而言，在任意位置，能够借助基础内容细节来推算整合核心，并在既定范围内进行特征整合操作。依靠信息内容优势，能够在多个位置部署灵活调整的重组算法核心，其表现要优于常规的图像放大技术，比如内插法或者转置卷积。

3.1. 公式

这个操作充当具备内容识别核心的再配置指令。它包含两个环节，首先针对每个目标点的数据，推断出一个再配置核心，其次借助推断的核心对特征进行再配置。对于规格为 C × H × W 的特征矩阵 X，以及放大倍数 σ（假定 σ 为整数），最终会得到规格为 C × σH × σW 的新特征矩阵 X'。对于任意指定输出 X' 的目标位置 l' = (i', j')，输入 X 都存在相应的源位置 l = (i, j)，

。此处将 N(Xl, k) 定义为围绕位置 l 的 X 的 k × k 子矩阵，也就是 Xl 的邻近部分。

在初始阶段，核心推断单元 ψ 基于点 l' 的邻近点信息，为各位置生成适配性核心 Wl' ，其计算方法见公式 (1) 。接下来的整合过程用 Eqn(2) 表达，其中函数 φ 代表感知内容整合机制，它将点 l' 的邻近点数据与核心 Wl' 进行组合处理

我们在以下部分中指定了 ψ 和 φ 的详细信息。

3.2.内核预测模块

内核预测单元负责运用内容识别手段构建重构核心，X 内的每个初始点位都能映射到 X' 内的 σ2 个目的点位，每个目的点位都需要一个 kup × kup 尺寸的重构核心，其中 kup 指重构核心的维度，因此该单元将产生一个 Cup × H × W 尺寸的重构核心

内核预测模块包含三个组成部分，分别是通道压缩器、内容编码器以及内核归一化器，其结构如图 2 所示。通道压缩器负责降低输入特征图的通道数量。接下来，内容编码器以压缩后的特征图作为数据来源，执行内容编码操作，从而形成重组内核。随后，内核归一化器会对每一个重组内核实施特定函数的处理。下面将分别阐述这三个子模块的功能细节。

通道压缩器。

我们运用 1×1 卷积层将输入特征通道从 C 调整为 Cm。压缩输入特征图的通道数量有助于降低后续环节中的参数规模和运算开销，进而提升的性能表现。同时，在预算限制相同的情况下，这能为内容编码器提供采用更大幅度的内核尺寸的机会。测试结果显示，在性能可接受的水平内削减特征通道并不会对整体效果造成负面影响。

内容编码器。

我们运用尺寸为的卷积构造器，依据输入数据的特征，来形成重构的卷积核，编码装置的参数表现为××Cm×Cup。从直观角度分析，增大能够扩展编码装置的感知范围，并借助更宽广区域内的关联信息，这对推算重构的卷积核非常关键。不过，运算的繁杂程度随构造器尺寸的平方数增加，而更大构造器尺寸所能带来的优势却并不相应。根据第 5.3 节的探讨，经验公式 kup减2，在性能与效率方面达到了一个理想的平衡点。

内核归一化器。

每个 kup × kup 重组核在空间上都要先用函数进行标准化处理。这个标准化过程会使得核内所有数值的总和变成一个。这种做法是一种跨局部区域的柔性筛选。之所以内核归一化器不会去调整特征图的幅度和整体平均特征值，正是因为这个原因，我们把这个操作称作特征重组。

3.3.内容感知重组模块

每个重组内核 Wl' ，内容感知重组模块都要运用函数 φ 对局部区域内的特征进行整合，这个函数 φ 其实就是简单的加权和计算。针对目标位置 l' 以及以 l = (i, j) 为中心的正方形区域 N(Xl, kup)，整个重组过程遵循方程式(3)的规则。

采用重构核心，N(Xl, kup) 范围内各个像素点对上采样像素 l' 的作用程度并不一致，依据的是特征内容的相关性而非空间位置远近。经过重构的特征图，其语义表达通常更为丰富，原因是能够更充分地捕捉来自邻近区域关联点的数据信息。

3.4. 与先前操作符的关系

在此，我们探讨了若干概念，诸如动态滤波器、空间注意力、空间变换器以及可变形卷积，这些概念拥有相近的构思方式，然而各自的关注点有所区别。

动态过滤器根据网络输入生成实例化的卷积过滤器，接着将预测的过滤器作用于输入。动态过滤器和常规卷积都是内容感知运算，但它们的核心差异在于内核的形成方式。具体而言，动态过滤器涉及两步卷积过程，其中额外的过滤器预测层和过滤层会消耗大量计算资源。与此不同，仅仅对局部区域的特点进行重新排列，并未掌握不同通道间的特征转换关系。假如输入特征图的通道数量是 C，过滤器核的尺寸是 K，那么在动态过滤器里，每个位置上预测核的参数量是 C 乘以 C 乘以 K 乘以 K。而对于静态过滤器，其核参数仅有 K 乘以 K。所以，它在存储和运算速度上更为优越。

空间注意力。

空间注意力生成一个与输入特征尺寸一致的注意力分布图，接着对每个位置上的特征图进行重新调整比例。这个操作通过计算局部区域特征的加权和来实现。总而言之，空间注意力是一种逐点进行比例调整的运算，而是一种基于区域局部信息进行特征重组的运算。空间注意力可以视为的一种特殊情况，其重组核的尺寸为 1，并且不受内核归一化模块的影响。

空间变换网络 (STN)。

STN 预测依据输入特征图进行全局参数调整，并借此扭曲特征。然而，这种全局参数调整的预设过于刚硬，难以表现复杂的空间差异；众所周知，STN 的训练过程十分困难。在此，借助针对位置的重组方法来处理空间联系，借此达成更为灵动的局部几何构造。

可变形卷积网络 (DCN)。

DCN运用了掌握几何变换的方法，还把它和普通的卷积单元拼接在一起。它估量核心的偏移程度而不是借助网格卷积核心。跟可变滤波器相似，它也是一个耗费大量参数的操作符，算力开销是它的二十四倍。人们普遍知道，它对于参数的起始设定非常在意。

4.的应用

该模块能够便捷地嵌入到需要执行上采样操作的现有体系中，我们在此展示了它在主流密集预测领域的一些实践案例，它几乎不增加额外参数，在高级和基础任务（比如目标检测、实例分割、语义分割以及图像修复）方面均能取得顶尖成果

4.1.目标检测和实例分割

特征金字塔网络属于目标检测和实例分割的重要架构。该网络能大幅提升 R-CNN 与 Mask R-CNN 等主流框架的效果。FPN 通过自上而下路径和横向连接构建出语义信息强的特征金字塔。在层级式处理流程里，初步获取的细节较少的图像首先借助邻近点映射方法实现像素数量翻倍，接着同细节丰富的图像进行组合，具体效果参照图 3。

我们建议以取代所有特征层级的最近邻估值方法，这一调整十分便捷，无需其他变动。除FPN架构外，Mask R-CNN在mask分支的末端运用了转置卷积层，该层旨在将预测值从 14 × 14 放大至 28 × 28，以获取更为精密的掩码结果。我们亦能选用替换转置卷积层，借此降低运算开销。

5. 实验5.1. 实验设置数据集和评估指标。

我们在数个关键密集预测基准上进行了检测。我们以 train split 为训练集，通常评估所有这些数据集在 val split 上的表现。

目标检测和实例分割。

我们针对难度较高的 MS COCO 2017 数据集展开了测试。评估结果借助通行的 COCO 指标体系进行衡量，其中 IoU 的平均精度均值在 0.5 至 0.95 之间进行计算。

实施细节。

实验过程通常固定一组超参数，具体来说，通道压缩器的 Cm 设定为 64，内容编码器的维度是 3， kup 参数值为 5。有关更详细的执行信息，请参阅补充材料。

目标检测和实例分割。

我们运用具备 FPN 结构的 -50, 在 RCNN 以及 Mask RCNN 上进行测试, 并且依照和等方案, 采用 1x 的训练配置。

5.2.基准测试结果目标检测和实例分割。

我们首先用双线性插值替换了 RCNN 和 Mask RCNN 的 FPN 中的最近邻插值，还调整了 Mask RCNN 的掩码头中的反卷积层，以此评估我们的方法。如表 1 所示，在 bbox AP 方面，RCNN 提升了 1.2%，在 Mask AP 方面，Mask RCNN 提升了 1.3%。APS、APM、APL的进步均达到1%AP以上，表明其对各类物体尺寸均有效益。

我们的出色成果获得了图 1 所示的定性分析印证。我们通过观察 FPN 的自上而下通路中的特征图，将结果同基准（即最近邻方法）展开对照。显而易见，借助内容感知整合，特征图的表现力得到提升，从而能更精准地推断目标区域。图 4 列举了若干对比基准与当前方法的实例分割成果。

为了比较各种上采样方法的作用，我们运用多种方法在 FPN 结构里进行上采样，并在 RCNN 框架下完成了许多测试。实验数据记录在表 2 中。其中，“N.C.”代表“增加卷积”，“B.C.”对应“增加卷积”，指在各自的上采样步骤后都接了一个 3×3 的卷积单元。‘’、‘像素’（简称为‘P.S.’）、‘GUM’是三种典型的基于学习的方法用于图像放大。我们还在此处对比了‘空间关注’这一技术，其标记为‘S.A.’。在所有这些图像放大技术里，‘空间关注’取得了最优的检测精度，并且它的浮点运算次数和参数数量都较少，这说明它既表现出色又具备高效率。通过对比“ + Conv”和“ + Conv”的输出，可以确认增加的参数并不会产生明显的效果提升。相比之下，“”、“Pixel ”、“GUM”以及“ ”的表现均弱于，这说明一个高效的上采样算法的制定非常关键。

我们尝试了多种上采样方法，用于掩码头，除了金字塔特征融合结构的 FPN 之外。在标准的 Mask R-CNN 模型里，通常使用反卷积层对 RoI 特征实施 2 倍放大。为了确保对比的公正性，我们维持 FPN 的原有配置不变，仅将反卷积层更换为不同的处理单元。我们仅调整了掩码推断部分，具体效果依据掩码准确率评估，参见表 3。该部分在实例划分任务上达成了最优表现。

5.3.消融研究和进一步分析模型设计和超参数。

我们考察了模型构造中各种参数的作用，具体涉及压缩通道数量 Cm，编码器滤波器尺寸，以及重构成分滤波器大小 kup。我们还尝试了内核标准化环节的不同约束手段。基于-50的主干网络，对RCNN的构造方案开展逐项分析，并在COCO 2017验证集上检验了各项改进的效果。

为了达成优质设计，我们起初考察了依据 FLOP 评估的运算量级。在运用因子 σ 对输入通路 Cin 的特征图实施下采样之际，其每像素 FLOPs 计算值为

，参考。

我们测试了通道压缩器里各种不同的 Cm 值，还试着去掉了通道压缩器模块，让内容编码器直接用输入特征去预测重组内核。表 8 的实验数据说明，把 Cm 压缩到 64 并不会让效果变差，反而效率更好。如果 Cm 再小一些，效果会稍微差一点。它即便不借助通道压缩器，也能取得同等表现，这说明通道压缩器有助于提升内核预测速度且不影响效果。根据这些发现，我们选定 Cm 的标准值为 64，以此平衡性能与资源消耗。

接下来我们研究与 kup 的作用。显而易见，提升 kup 需要更宽的，由于内容编码器必须拥有更广的感知范围才能预知更庞大的重组内核。根据表 9 的数据，与 kup 同时增长能够优化表现，但单独扩展任何一项都无济于事。我们归纳出一个实用公式 = kup − 2，该公式在所有情境下都表现良好。增大内核尺寸确实能提升效果，不过我们一般将 kup 设为 5，将设为 3，以此平衡表现与资源消耗。

除了函数，我们还考察了内核归一化器里的其他可选方法，比如或者带有归一化的版本。根据表 10 的数据，‘’ 和 ‘ ’ 的表现一致，并且都比 ‘’ 要好，这说明在将重组核归一化为 1 的时候具有决定性作用。

的工作原理。

我们做了更深入的定性分析，目的是弄清的运作机制。我们使用作为上采样环节的 Mask RCNN 模型，这个模型已经过训练，并将重组过程展示在图 5 中。在 FPN 架构里，低分辨率特征图会反复进行上采样，提升到更高分辨率。因此，经过上采样处理后的特征图中，每个像素点会整合来自更广阔区域的信息。我们选取高分辨率特征图中的部分像素进行观察，探究它们是由哪些邻近区域重新组合而成的。绿色圆圈标示了示例位置，红点则标明了重组过程中贡献权重较大的来源。通过图像可以明确感知到，该过程具有内容相关性，它更倾向于将语义相近的点进行组合。例如，人体上的某个部位更倾向于选取来自同一人体的其他部位作为组合来源，而非其他物体或周边背景。对于背景中意义不明显的位置，重组可以更加平均，或者只集中在具有相近初级纹理特征的点。

我们提出了内容感知特征重组方法，这是一种通用、精简且高效的上采样技术，它持续在目标检测、实例与语义分割以及图像修复等标准基准上，分别实现1.2% AP、1.3% AP、1.8% mIoU和1.1dB的性能提升，而且其增加的计算负担轻微，便于融入当代网络体系结构中接下来的目标在于研究在图像复原以及超分辨率等基础视觉领域中的实际效果。