目录

CV_2图像分类和线性分类器(上)


二、图像分类和线性分类器(上)

(一)图像分类

1.定义

根据图像特征进行区分

从已知标签集合中为输入图片选定一个标签

2.难点

  1. 语义鸿沟-图像的特征、内涵、主题
  2. 视角
  3. 光照
  4. 尺度(相对性)
  5. 遮挡
  6. 形变
  7. 背景杂波(相似性)
  8. 类内形变(不同形状的椅子)
  9. 运动模糊
  10. 类别繁多(人能识别10000-30000种)

3.数据驱动图像分类方法

  1. 数据集构建

  2. 分类器设计与学习

    https://i0.hdslb.com/bfs/album/215b1d2b46734dce0bf3afd984702283e673b999.png

  3. 分类器决策

    https://i0.hdslb.com/bfs/album/4214457cb765f79130c62729c8b048f28347db4a.png

4.分类器设计与学习

  1. 图像表示

    • 像素表示
    • 全局特征表示(GIST)——适用于风景、大场景图片
    • 局部特征表示(SIFT+词袋模型)
  2. 分类器

    • 近邻分类器
    • 贝叶斯分类器
    • 线性分类器
    • SVM分类器
    • 神经网络分类器
    • 随机森林分类器
  3. 损失函数

    • 0-1损失
    • 多类支撑向量机损失
    • ……
  4. 优化方法

    • 一阶
      • 梯度下降
      • 小批量梯度下降
      • 随机梯度下降
    • 二阶
      • 牛顿法
      • BFGS
      • L-BFGS
  5. 训练

    • 数据集划分
    • 数据集预处理
    • 数据集增强
    • 欠拟合、过拟合
    • 超参数调整
    • 模型集成
  6. 评价

    • Top1——只看第一预测正确性
    • Top5——只要前五预测有一正确即可

(二)线性分类器(上)

CIFAR数据集

1.基于像素图像表示

图像表示方式

  • 二进制
  • 灰度
  • 彩色

图像转换为列向量

2.定义

(是神经网络以及SVM基础)

是一种线性映射,将输入图像特征映射到类别分数 $$ f_i(\overrightarrow{x},\overrightarrow{w_i}) = \overrightarrow{w_i^T}\overrightarrow{x}+b_i \quad i = 1,2,3,…i $$

  • $\overrightarrow{x_i}$为图像向量
  • $\overrightarrow{w_i^T}$为第i类的权值向量

矩阵表示: $$ f(\overrightarrow{x},W)=W\overrightarrow{x}+\overrightarrow{b} $$ https://i0.hdslb.com/bfs/album/ee3b161ecfba4d325b7bfbf3c1f055703d6f6740.png

3.权值向量

类别信息的平均值,是一个模板

分类——与模板的匹配程度

分数为0的线为决策面 $\overrightarrow{w_i}$控制方向 $b$控制截距 箭头方向为正方向,越远离分数越高

4.损失函数

损失函数搭建了模板性能与模型参数间的桥梁,指导模型参数优化

  • 输出非负
  • 作为反馈信息调优

一般定义: $$ L=\frac{1}{N}\sum_iL_i(f(x_i,w),y_i) $$

  • $f(x_i,w)$为对样本$x_i$的预测
  • $L_i$为i样本损失当预测值
  • $L$为数据集损失,是所有样本损失平均

多类支撑向量机损失 $$ S_{ij}=f_i(x_i,w_j,b_j)=w_j^T+b_j $$

  • $S_{ij}$为第i样本第j类的预测分

$$ L_i=\sum_{j\ne y_i}\max(0,S_{ij}-S_{yi}+1)\quad——折页损失 $$

损失函数解读:

  • 正确比不正确多一分$\rightarrow$无损失
  • 否则有损失