CV_2图像分类和线性分类器（上）

收录于计算机视觉与深度学习

Sun 2022.7.24 约 864 字预计阅读 2 分钟

二、图像分类和线性分类器（上）

（一）图像分类

1.定义

根据图像特征进行区分

从已知标签集合中为输入图片选定一个标签

2.难点

语义鸿沟-图像的特征、内涵、主题
视角
光照
尺度（相对性）
遮挡
形变
背景杂波（相似性）
类内形变（不同形状的椅子）
运动模糊
类别繁多（人能识别10000-30000种）

3.数据驱动图像分类方法

数据集构建
分类器设计与学习
分类器决策

4.分类器设计与学习

图像表示
- 像素表示
- 全局特征表示（GIST）——适用于风景、大场景图片
- 局部特征表示（SIFT+词袋模型）
分类器
- 近邻分类器
- 贝叶斯分类器
- 线性分类器
- SVM分类器
- 神经网络分类器
- 随机森林分类器
损失函数
- 0-1损失
- 多类支撑向量机损失
- ……
优化方法
- 一阶
  - 梯度下降
  - 小批量梯度下降
  - 随机梯度下降
- 二阶
  - 牛顿法
  - BFGS
  - L-BFGS
训练
- 数据集划分
- 数据集预处理
- 数据集增强
- 欠拟合、过拟合
- 超参数调整
- 模型集成
评价
- Top1——只看第一预测正确性
- Top5——只要前五预测有一正确即可

（二）线性分类器（上）

CIFAR数据集

1.基于像素图像表示

图像表示方式

二进制
灰度
彩色

图像转换为列向量

2.定义

（是神经网络以及SVM基础）

是一种线性映射，将输入图像特征映射到类别分数 $$ f_i(\overrightarrow{x},\overrightarrow{w_i}) = \overrightarrow{w_i^T}\overrightarrow{x}+b_i \quad i = 1,2,3,…i $$

$\overrightarrow{x_i}$为图像向量
$\overrightarrow{w_i^T}$为第i类的权值向量

矩阵表示： $$ f(\overrightarrow{x},W)=W\overrightarrow{x}+\overrightarrow{b} $$

3.权值向量

类别信息的平均值，是一个模板

分类——与模板的匹配程度

分数为0的线为决策面 $\overrightarrow{w_i}$控制方向 $b$控制截距箭头方向为正方向，越远离分数越高

4.损失函数

损失函数搭建了模板性能与模型参数间的桥梁，指导模型参数优化

输出非负
作为反馈信息调优

一般定义： $$ L=\frac{1}{N}\sum_iL_i(f(x_i,w),y_i) $$

$f(x_i,w)$为对样本$x_i$的预测
$L_i$为i样本损失当预测值
$L$为数据集损失，是所有样本损失平均

多类支撑向量机损失 $$ S_{ij}=f_i(x_i,w_j,b_j)=w_j^T+b_j $$

$S_{ij}$为第i样本第j类的预测分

$$ L_i=\sum_{j\ne y_i}\max(0,S_{ij}-S_{yi}+1)\quad——折页损失 $$

损失函数解读：

正确比不正确多一分$\rightarrow$无损失
否则有损失

目录