CV_2图像分类和线性分类器(上)
目录
二、图像分类和线性分类器(上)
(一)图像分类
1.定义
根据图像特征进行区分
从已知标签集合中为输入图片选定一个标签
2.难点
- 语义鸿沟-图像的特征、内涵、主题
- 视角
- 光照
- 尺度(相对性)
- 遮挡
- 形变
- 背景杂波(相似性)
- 类内形变(不同形状的椅子)
- 运动模糊
- 类别繁多(人能识别10000-30000种)
3.数据驱动图像分类方法
-
数据集构建
-
分类器设计与学习
-
分类器决策
4.分类器设计与学习
-
图像表示
- 像素表示
- 全局特征表示(GIST)——适用于风景、大场景图片
- 局部特征表示(SIFT+词袋模型)
-
分类器
- 近邻分类器
- 贝叶斯分类器
- 线性分类器
- SVM分类器
- 神经网络分类器
- 随机森林分类器
-
损失函数
- 0-1损失
- 多类支撑向量机损失
- ……
-
优化方法
- 一阶
- 梯度下降
- 小批量梯度下降
- 随机梯度下降
- 二阶
- 牛顿法
- BFGS
- L-BFGS
- 一阶
-
训练
- 数据集划分
- 数据集预处理
- 数据集增强
- 欠拟合、过拟合
- 超参数调整
- 模型集成
-
评价
- Top1——只看第一预测正确性
- Top5——只要前五预测有一正确即可
(二)线性分类器(上)
CIFAR数据集
1.基于像素图像表示
图像表示方式
- 二进制
- 灰度
- 彩色
图像转换为列向量
2.定义
(是神经网络以及SVM基础)
是一种线性映射,将输入图像特征映射到类别分数 $$ f_i(\overrightarrow{x},\overrightarrow{w_i}) = \overrightarrow{w_i^T}\overrightarrow{x}+b_i \quad i = 1,2,3,…i $$
- $\overrightarrow{x_i}$为图像向量
- $\overrightarrow{w_i^T}$为第i类的权值向量
矩阵表示: $$ f(\overrightarrow{x},W)=W\overrightarrow{x}+\overrightarrow{b} $$
3.权值向量
类别信息的平均值,是一个模板
分类——与模板的匹配程度
分数为0的线为决策面 $\overrightarrow{w_i}$控制方向 $b$控制截距 箭头方向为正方向,越远离分数越高
4.损失函数
损失函数搭建了模板性能与模型参数间的桥梁,指导模型参数优化
- 输出非负
- 作为反馈信息调优
一般定义: $$ L=\frac{1}{N}\sum_iL_i(f(x_i,w),y_i) $$
- $f(x_i,w)$为对样本$x_i$的预测
- $L_i$为i样本损失当预测值
- $L$为数据集损失,是所有样本损失平均
多类支撑向量机损失 $$ S_{ij}=f_i(x_i,w_j,b_j)=w_j^T+b_j $$
- $S_{ij}$为第i样本第j类的预测分
$$ L_i=\sum_{j\ne y_i}\max(0,S_{ij}-S_{yi}+1)\quad——折页损失 $$
损失函数解读:
- 正确比不正确多一分$\rightarrow$无损失
- 否则有损失