CV_10经典网络分析(下)&视觉识别
目录
经典网络分析(下)&视觉识别
1.ResNet
问题:不断加深层数会导致正反向信息流通受阻,最终导致梯度消失,网络得不到充分训练,出现欠拟合
贡献
- 提出残差模块,使得网络不会退化
- 提出批归一化来对抗梯度消失
- 提出针对Relu函数的初始化方法
残差模块——恒等映射结构
$H(x)=F(x)+X$ 即输出=卷积结果+输入
作用:
- 原有信息得以保留,学习到的新特征将会增强(类比图像锐化)
- 回传时受到$+X$影响,梯度不会消失,使得反向信息流通
其中,$F(x)$被称作残差,即输出同输入的差
瓶颈结构残差:增加两个1*1卷积,一个在真正卷积核前降深度,另一个在卷积操作后提深度
性能解释
可以看做是集成模型,一层的输出是由多个子网络计算叠加而来,通过反向传播的学习过程对每个自网络的权重进行调整。
2.视觉识别
语义分割
给每个像素分配标签:不区分实例,只考虑像素类别
思路1:滑动窗口,每个点周围取一个区域判断类别
问题:效率太低,重叠区域特征被反复计算
思路2:全卷积,让整个网络只包含卷积层,一次性输出所有像素类别预测
问题:处理过程中保持原有分辨率使得参数过多
改进:嵌入下采样与上采样过程
上采样
-
反池化
- 近邻法
- 0填充法
-
可学习上采样——转置卷积
学习重叠区域求和时的各自权重
转置卷积的矩阵表示
(待填坑,没听太懂)