Deep High-Resolution Representation Learning for Visual Recognition 论文笔记

less than 1 minute read

Published: June 08, 2022

多尺度融合的大成之作，在多种分割任务上发挥着作用。

作者信息

作者王井东现在是百度计算机视觉组的首席架构师。他在2007到2021在微软亚洲研究院工作，而这篇文章在这期间（2020）发布。

图像分割与检测的网络大多都有基于图像分类任务的网络，先卷积再上采样、恢复成高分辨率，这个过程会导致图像的分辨率变低。而本文希望通过新的网络结构保持整个训练过程中都能保持高分辨率表征。

本文希望通过并行连接high-to-low的子网络，保持高分辨率而非从低分辨率恢复高分辨率，从而保证表征的空间准确性。

输入图片时，先进入两个步长为2的3*3卷积将分辨率降为1/4。这个分辨率C将作为后续的阶段主体中保持不变的分辨率。

开始训练后，逐步增加high-to-low流，并将多个分辨率的流进行链接。

主体共有四个阶段，每个阶段分别重复1，1，4，3次。
每个模块由4个残差网络单元组成，每个残差网络单元内对每种分辨率都有两个3*3卷积，并在卷积后进行batch normalization和ReLU激活。 Multi-Resolution Fusions：多分辨率链接的过程。低到高就上采样，高到低就下采样，最后将变化完成之后的feature map相加。 Representation Head：作者设计了三种不同的网络结构来对应不同的任务。
HRNetV1：只输出高分辨率的特征，用于pose estimate任务。
HRNetV2：将低分辨率的表征上采样并最终将来自四个分辨率的表征图链接，用于分割任务。
HRNetV2p：将HRNetV2输出的高分辨率表征进行下采样形成特征金字塔，用于目标检测。

实验结果丰富全面、在不同数据集上有大量对比实验（但大多数是为了打榜而生），这边只摘抄了部分实验结果。

avatar avatar

源代码清晰完整，最核心的多分枝创建融合代码，解析见此处。