目录

CV_10经典网络分析(下)&视觉识别


经典网络分析(下)&视觉识别

1.ResNet

问题:不断加深层数会导致正反向信息流通受阻,最终导致梯度消失,网络得不到充分训练,出现欠拟合

贡献

  1. 提出残差模块,使得网络不会退化
  2. 提出批归一化来对抗梯度消失
  3. 提出针对Relu函数的初始化方法

残差模块——恒等映射结构

$H(x)=F(x)+X$ 即输出=卷积结果+输入

作用:

  • 原有信息得以保留,学习到的新特征将会增强(类比图像锐化)
  • 回传时受到$+X$影响,梯度不会消失,使得反向信息流通

其中,$F(x)$被称作残差,即输出同输入的差

瓶颈结构残差:增加两个1*1卷积,一个在真正卷积核前降深度,另一个在卷积操作后提深度

https://s3.bmp.ovh/imgs/2022/08/01/8fe45a5f0a222f0d.png

性能解释

可以看做是集成模型,一层的输出是由多个子网络计算叠加而来,通过反向传播的学习过程对每个自网络的权重进行调整。

https://s3.bmp.ovh/imgs/2022/08/01/75ca1d41bbc31462.png

2.视觉识别

语义分割

给每个像素分配标签:不区分实例,只考虑像素类别

思路1:滑动窗口,每个点周围取一个区域判断类别

问题:效率太低,重叠区域特征被反复计算

思路2:全卷积,让整个网络只包含卷积层,一次性输出所有像素类别预测

问题:处理过程中保持原有分辨率使得参数过多

改进:嵌入下采样与上采样过程

https://s3.bmp.ovh/imgs/2022/08/01/373d6cb4f3ad34e1.png

上采样

  1. 反池化

    1. 近邻法
    2. 0填充法
  2. 可学习上采样——转置卷积

学习重叠区域求和时的各自权重

https://s3.bmp.ovh/imgs/2022/08/01/3b01e1ef8adaa29e.png

https://s3.bmp.ovh/imgs/2022/08/01/24f7baf0262315bb.png

转置卷积的矩阵表示

(待填坑,没听太懂)

3.单目标检测(分类+定位)

https://s3.bmp.ovh/imgs/2022/08/01/62e7a869c2b8f922.png