目录

CV_8纹理表示&卷积神经网络


纹理表示&卷积神经网络

1.基于卷积核组的纹理表示方法

利用卷积核组提取纹理基元

  1. 设计卷积核组
  2. 利用卷积核组对图像进行卷积
  3. 利用特征响应图的统计信息表示纹理$\to$可以用响应图像素平均值代替原响应图
    • 本质:忽略基元位置信息(位置信息一般在分类任务中并不重要),仅仅关注出现的基元种类,因此在造成信息损失的基础上可以大幅减少计算量

https://s3.bmp.ovh/imgs/2022/08/01/63801f09f88f8140.png

上图就是用平均值代替原有特征图像的示例,均值越白代表对应基元响应值越高,可以看到均值处理虽然造成了位置信息的丢失,但是几乎不影响图像分类任务的性能

设计重点:

  1. 卷积核类型(边缘、条形或点状)
  2. 卷积核尺度
  3. 卷积核方向

https://s3.bmp.ovh/imgs/2022/08/01/d82057414679d784.png

卷积核组示例

2.卷积神经网络

全连接神经网络的瓶颈

  • 仅适合处理小图像
  • 参数往往很多,计算时间较长

卷积神经网络结构

  • 卷积层
  • 激活层
  • 池化层
  • 全连接层

卷积核:

  • 同时具有宽度,高度,深度三个维度,即一个三维数组
  • 有权值+偏置组成

经过卷积核组计算后,计算特征响应图组,其深度等于卷积核个数: $$ 上一层卷积核个数=下一层卷积核深度=输出的特征响应图组深度 $$ https://s3.bmp.ovh/imgs/2022/08/01/806ae063ad5d96a3.png

卷积步长:卷积核可以按照指定间隔操作,这个间隔就是卷积步长

边界填充:保证输入输出尺寸一致,卷积神经网络中一般使用零填充,由此就有以下公式: $$ W_2=\frac{(W_1-F+2P)}{S}+1\ H_2=\frac{(H_1-F+2P)}{S}+1\ W_1H_1=输入矩阵尺寸\ W_2H_2=输出矩阵尺寸\ F:卷积核尺寸 \quad S:卷积步长\ P:零填充数 \quad k:卷积核个数 $$

池化操作

对每一个特征响应图独立进行,降低特征响应图组中每个特征响应图宽度和高度,减少后续卷积层参数数量(不改变深度)

  • 最大池化:池化窗口内最大值替代该窗口(类比非最大抑制)
  • 平均池化:池化窗口内平均值替代该窗口

图像增强

生成更多数据防止过拟合

  • 翻转
  • 随机缩放/抠图