Hc's blog

Hc's blog: R与统计学习基础

机器学习与人工智能 浙江大学 中国大学MOOC(慕课)

支持向量机最大间隔分类器支持向量分类器支持向量机code

支持向量机

最大间隔分类器

维空间中,超平面维平面放射子空间(意思是无需经过原点),记超平面

样本空间任意点到超平面的距离.

根据的符号可判断样本落在超平面哪一侧。

最大间隔超平面是离训练观测最远的分割超平面。解决如下优化问题:

决定最大间隔超平面的向量为支持向量。

支持向量分类器

分割超平面不存在,非完美分类的超平面分类器,允许小部分观测误分。

优化目标:

其中是调节参数,在间隔大小和越过间隔面的观测个数之间维持权衡关系,是“0/1损失函数”。由于非凸、非连续,使用替代损失函数(凸的连续函数且是上界)。常用hinge损失函数:

采用hinge损失,式可演化为:

引入松他变量 , 将上式写为

松他变量表征该观测不满足约束式的程度.

支持向量分类器的判断规则只由训练观测的一部分(支持向量)确定,这意味着对于超平面较远的观测,分类器稳健。

区别于线性判别分析,取决于组内观测的均值,以及组内协方差矩阵。

支持向量机

非线性分类边界,使用核函数扩大特征空间。

对于线性不可分的分类问题,将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间里是线性可分的。

表示将映射后的特征向量,于是在特征空间中分割超平面所对应的模型可表示为:

接下来,求解如下的优化问题:

通常用hinge损失替代上式中 此时,上式变成:

引入松弛变量 后,优化问题可写成:

上述的优化问题最终转化为它的对偶问题来解决:

计算 , 这是 映射到特征空间之后的内积,不易计算。引入核函数

对偶问题可重写为:

求解后即可得到:

核函数表达式
线性核
多项式核
径向核
拉普拉斯核
Sigmoid 核

code

svm()