机器学习笔记(8-1):SVM简介及线性SVM

前言

参考:

  • 《统计学习》—李航(蓝皮)
  • 部分来自网络的内容(主要是liaohuiqiang的博客)

支持向量机(SVM)

简介

支持向量机是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。

支持向量机的“四大宝”为:间隔,对偶,核技巧,(样本权重)
基本思想:最小间隔最大化

  • 非线性分类器:SVM包括核技巧,这使它成为实质上的非线性分类器。核函数表示将输入从输入空间映射到特征空间得到特征向量之间的内积。通过使用核函数可以学习非线性SVM,等价于隐式地在高维特征空间中学习线性SVM。这样的方法称为核方法,核方法是比SVM更为一般的机器学习方法。
  • 策略:SVM的学习策略是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的学习算法是求解凸二次规划的最优化算法。
  • 分类:
    • 线性可分SVM:当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分SVM,又称硬间隔SVM。
    • 线性SVM:当训练数据近似线性可分时,通过软间隔最大化,也学习一个线性分类器,即线性SVM,又称软间隔SVM。
    • 非线性SVM:当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性SVM。

线性可分SVM

一般地,当训练数据线性可分时,存在无穷个分离超平面可将两类数据正确分开。感知机利用误分类最小的策略,求得分离超平面,不过这时的解有无穷多个。线性可分SVM利用间隔最大化求最优分离超平面,这时解唯一。

通过间隔最大化或等价地求解凸二次规划问题学习得到的超平面为\omega^*\cdot x+b^*=0以及相应的分类决策函数f(x)=sign(\omega^*\cdot x+b^*),这个学习器称为线性可分SVM。

间隔

函数间隔

一般来说,一个点距离分离超平面的远近可以表示分类预测的确信程度(越远越确信)。在超平面\omega x+b确定的情况下,|\omega x +b|能够相对地表示点x距离超平面的远近。而\omega x+b的符号与类标记y的符号是否一致能够表示分类是否正确。所以可用y(\omega x+b)来表示分类的正确性及确信度,这就是函数间隔。

定义超平面(\omega,b)关于样本点(x_i,y_i)的函数间隔为
::: align-center
\hat{\gamma}_i=y_i(\omega\cdot x_i+b)

:::
定义超平面(\omega,b)关于训练数据集T的函数间隔为超平面(\omega,b)关于T中所有样本点(x_i,y_i)的函数间隔的最小值。
::: align-center
\hat{\gamma}=\min_{1,\cdots,N}\hat{\gamma}_i

:::

几何间隔

但是选择分离超平面时,只有函数间隔还不够。因为只要成比例改变\omegab,例如将它们改为2\omega2b,超平面并没有改变,但函数间隔却成为原来的2倍。这一事实启示我们,可以对分离超平面的法向量\omega,加某些约束,如规范化,||\omega||=1,使间隔是确定的(\omegab成比例改变时,几何间隔不变),这时函数间隔变成几何间隔。

定义超平面(\omega,b)关于样本点(x_i,y_i)的几何间隔为
::: align-center
\gamma_i=y_i(\frac{\omega}{||\omega_i||}\cdot x_i+\frac{b}{||\omega||})=\frac{\hat{\gamma_i}}{||\omega||}

:::
定义超平面(\omega,b)关于训练数据集T的几何间隔为超平面(\omega,b)关于T中所有样本点(x_i,y_i)的几何间隔的最小值。
::: align-center
\gamma=\min_{1,2,\cdots,N}\gamma_i

:::

硬间隔最大化

SVM学习的基本想法是求解能正确划分训练集并且几何间隔最大的分离超平面,以充分大的确信度对训练数据进行分类。也就是说,不仅将正负实例点分开,而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将它们分开。这样的超平面应该对未知的新实例也有很好的分类预测能力。

这里的间隔最大化又称为硬间隔最大化
线性可分训练数据集的最大间隔分离超平面是存在且唯一的。

最大间隔分类超平面以及线性可分SVM的模型

这个问题可以表示为下面的约束最优化问题
::: align-center
\begin{aligned} &\max_{\omega,b}\gamma\\ &s.t.\space y_i(\frac{\omega}{||\omega||}\cdot x_i+\frac{b}{||\omega||})\ge \gamma,i=1,2,\cdots,N \end{aligned}

:::
我们希望最大化超平面(\omega,b)关于训练数据集的几何间隔为\gamma时,不等式约束条件表示的是超平面(\omega,b)关于每个训练样本点的几何间隔至少是\gamma

考虑函数间隔和几何间隔的关系,可将问题改写成
::: align-center
\begin{aligned} &\max_{\omega,b}\frac{\hat{\gamma}}{||\omega||}\\ &s.t.\space y_i(\omega \cdot x_i+b)\ge\hat{r},i=1,2,\cdots,N \end{aligned}

:::

函数间隔的值实际上不会对最优化问题的解(\omega,b)造成实质性的影响,考虑将\omega,b缩放为\lambda\omega,\lambda b,那么函数间隔也会等比例缩放为\lambda\hat{\gamma},上式的不等式约束条件相当于两边同时乘\lambda,但约束本质并未发生改变,所以完全可以将不等式约束条件右侧的\hat{\gamma}归一化,即令\hat{\gamma}=1,此时并不会对约束问题的解造成实质性影响(无非就是\omega,b可能变成了某个\lambda\omega,\lambda b,但是我们依然可以保证每个训练样本点的几何间隔至少是\gamma),此时\max_{\omega,b}\frac{\hat{\gamma}}{||\omega||}变为\max_{\omega,b}\frac{1}{||\omega||},而其又等价于\max_{\omega,b}\frac{2}{||\omega||},此时在几何上等同于我们在寻找一个最大的“条带”,使得最近的正负类分类点在条带的两侧边界,而使条带尽可能的“宽”
支持向量.jpg

  • 支持向量:线性可分情况下,样本点与分离超平面距离最近的样本点称为支持向量。支持向量是使上面优化问题约束条件等号成立的点,即y_i(\omega\cdot x_i+b)-1=0
    • 对于y_i=+1的点,支持向量代表的样本点有\omega\cdot x+b=+1
    • 对于y_i=-1的点,支持向量代表的样本点有\omega\cdot x+b=-1
  • 间隔边界:H_1,H_2平行,并没有实例点落在它们中间。H_1H_2之间形成一条长带,分离超平面与它们平行且位于它们中央。长度的宽度,即H_1H_2之间的距离称为间隔,间隔依赖于分离超平面的法向量\omega,等于\frac{2}{||\omega||}H_1H_2称为间隔边界。支持向量都分布在边界上(请见下方定理推导中的KKT条件中的松弛互补条件)
  • 在决定分离超平面时,只有支持向量起作用。如果移动支持向量将改变所求的解,但是如果在间隔边界以外移动其它实例点,甚至去掉这些点,解都不会改变。
    由于支持向量在确定超平面中起着决定性作用,所以这个方法称为支持向量机。支持向量的个数一般很少,所以支持向量机由很少的“重要”训练样本确定。

此时我们将问题改写为\min_{\omega,b}\frac{||\omega||}{2},进一步通过平方消除范数内的根号得到\min_{\omega,b}\frac{1}{2}||\omega||^2,于是得到下面的优化问题(*)(重要)
::: align-center
\begin{aligned} &\min_{\omega,b}\frac{1}{2}||\omega||^2\\ &s.t.\space -[y_i(\omega\cdot x_i+b)-1]\le 0 \end{aligned}

:::
这是一个凸二次优化问题,求解得到\omega^*b^*,就可以得到最大间隔分离超平面\omega^* x+b^*以及分类决策函数f(x)=sign(\omega^*x+b^*),即线性可分SVM

凸优化问题

凸规划问题是指约束优化问题
::: align-center
\begin{aligned} &\min_{\omega}f(\omega)\\ &s.t.\space g_i(\omega)\le 0,i=1,2,\cdots,k\\ &h_i(\omega)=0,i=1,2,\cdots,l \end{aligned}

:::
其中,目标函数f(\omega)和约束函数g_i(\omega)都是\mathbb{R}^n上的连续可微的凸函数,约束函数h_i(\omega)\mathbb{R}^n上的仿射函数。
h(x)称为仿射函数若其满足h(x)=a\cdot x+b,a\in\mathbb{R}^n,b\in\mathbb{R}

f(\omega)为二次函数,且g_i(\omega)是仿射函数时,上述问题为凸二次优化问题。

凸优化问题的求解

为求解线性可分SVM的最优化问题(*),将它作为原始最优化问题,应用拉格朗日对偶性,通过求解对偶问题得到原始问题的最优解。这样做的优点,一是对偶问题往往更容易求解,二是自然引入核函数,进而推广到非线性分类问题。

求解对偶问题

对偶算法:首先构建拉格朗日函数。为此,对每个不等式约束引进拉格朗日乘子\alpha_i\ge 0,i=1,2,\cdots,N,定义拉格朗日函数
::: align-center
L(\omega,b,\alpha)=\frac{1}{2}||\omega||^2-\sum_{i=1}^N\alpha_iy_i(\omega\cdot x_i+b)+\sum_{i=1}^N\alpha_i

:::
求解原始问题(⭐)的对偶问题,其为\max_{\alpha}\min_{\omega,b}L(\omega,b,\alpha)
(1)先求内部极小值问题,将拉格朗日函数分别对\omega,b求偏导(将||\omega||写为\omega^T\omega),令其等于0
::: align-center
\begin{aligned} &\nabla_{\omega} L(\omega,b,\alpha)=\omega-\sum_{i=1}^N \alpha_iy_ix_i=0\\ &\nabla_bL(\omega,b,\alpha)=-\sum_{i=1}^N \alpha_iy_i=0 \end{aligned}

:::
解得
::: align-center
\begin{aligned} &\omega=\sum_{i=1}^N\alpha_iy_ix_i\\ &\sum_{i=1}^N\alpha_iy_i=0 \end{aligned}

:::
回代回拉格朗日函数,得到
::: align-center
\begin{aligned} &\min_{\omega,b}L(\omega,b,\alpha)\\ &=\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_iy_i[(\sum_{i=1}^N \alpha_jy_jx_j)\cdot x_i+b]+\sum_{i=1}^N \alpha_i\\ &=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\end{aligned}

:::
(2)求解外部最大值问题

::: align-center
\begin{aligned} &\max_{\alpha}-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\\ &s.t.\sum_{i=1}^N \alpha_iy_i=0\\ &\alpha_i\ge0,i=1,2,\cdots,N \end{aligned}

:::

可证明求解原始优化问题等价于求解上述对偶问题
将其转化为求极小的对偶问题(📌)(重要)
::: align-center
\begin{aligned} &\min_{\alpha}\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\\ &s.t.\sum_{i=1}^N \alpha_iy_i=0\\ &\alpha_i\ge0,i=1,2,\cdots,N \end{aligned}

:::
假设对偶问题最后得到的\alpha的解为\alpha^*=(\alpha_1^*,\alpha_2^*,\cdots,\alpha_N^*)^T,可以得到原始问题最后对(\omega.b)的解(\omega^*,b^*)

获得原始问题的解

假设原始问题内部最优化问题的参数的解为\alpha^*=(\alpha_1^*,\cdots,\alpha_N^*),可以知参数解\alpha_i应使外部关于\omega,b的最优化问题(⭐)的KKT条件成立
注:关于KKT条件,请见这篇文章
即对于参数\alpha^*,存在极值\omega^*,b^*,有
::: align-center
\begin{aligned} &\nabla_{\omega}L(\omega^*,b^*,\alpha^*)=\omega^*-\sum_{i=1}^N\alpha_i^*y_ix_i=0\\ &\nabla_bL(\omega^*,b^*,\alpha^*)=\sum_{i=1}^N\alpha_i^*y_i=0\\ &\alpha_i^*(y_i(\omega^*\cdot x_i+b^*-1))=0,i=1,2,\cdots,N\\ &y_i(\omega^*\cdot x_i+b^*)-1\ge0,i=1,2,\cdots,N\\ &\alpha_i^*\ge0,i=1,2,\cdots,N \end{aligned}

:::
由此得
::: align-center
\omega^*=\sum_{i}\alpha_i^*y_ix_i

:::
可以知至少有一个\alpha_j^*严格大于零(KKT条件中允许等于零),如若不然,则假设整个\alpha^*=0,代入KKT条件第一项得\omega^*=0,它不是原始问题的解,产生矛盾
由KKT条件的第三个条件,在此时对此j
::: align-center
y_j(\omega^*\cdot x_j+b^*)-1=0

:::
将上面解出的\omega^*代入得(注意有y_j^2=1
::: align-center
b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j)

:::

故得以下定理:
定理:设\alpha^*=(\alpha_1^*,\alpha_2^*,\cdots,a_l^*)^T是对偶优化问题(📌)的解,则存在下标j,使得\alpha_j^*>0,可按下式求得原始最优化问题的解
::: align-center
\begin{aligned} &\omega^*=\sum_{i=1}^N\alpha_i^*y_ix_i\\ &b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j) \end{aligned}

:::

由此,分离超平面可以写成
::: align-center
\sum_{i=1}^N \alpha_i^*y_i(x\cdot x_i)+b^*=0

:::
分类决策函数可以写成
::: align-center
f(x)=sign(\sum_{i=1}^N \alpha_i^*y_i(x\cdot x_i)+b^*=0)

:::
这就是说,分类决策函数只依赖于输入x和训练样本输入的内积,上式称为线性可分支持向量机的对偶形式,求解它时先通过求(📌)得到\alpha^*,之后找到\alpha^*的一个正分量\alpha_j^*,由定理得到\omega^*,b^*,最后得到模型

类似的可由KKT条件中的松弛互补条件推导出支持向量的概念
由KKT条件中的松弛互补条件得到
::: align-center
\alpha_i^*(y_i(\omega^*\cdot x_i+b^*)-1)=0,i=1,2,\cdots,N

:::
对于\alpha_i^*严格大于零的实例x_i,有
::: align-center
y_i(\omega^*\cdot x_i+b^*)-1=0

:::
解得
::: align-center
\omega^*x_i+b^*=\pm 1

:::
即此时的x_i一定在间隔边界上,我们把这些\alpha_i>0的实例叫做支持向量

线性SVM

对于线性可分问题,上述线性可分SVM的学习(硬间隔最大化)算法是完美的,但是在现实的问题中,训练数据集往往是线性不可分的,即在样本中出现噪声或特异点,此时,有更一般的学习算法。

软间隔及其最大化

线性可分SVM的学习方法对线性不可分数据是不适用的,因为上述方法中的不等式约束并不能都成立。为了将其扩展到线性不可分问题,需要修改硬间隔最大化,使其称为软间隔最大化。

线性不可分意味着某些样本点(x_i,y_i)不能满足函数间隔大于等于1的约束条件。为了解决这个问题,可以对每个样本点引入一个松弛变量\xi_i\ge 0,使函数间隔加上松弛变量大于等于1。这样,约束条件变成
::: align-center
y_i(\omega\cdot x_i+b)\ge 1-\xi_i

:::
同时为目标函数添加一个罚项(正则化项)
::: align-center
\frac{1}{2}||\omega||^2+C\sum_{i=1}^N\xi_i

:::
这里C>0称为惩罚参数,一般由应用问题决定,C值大时对误分类的惩罚增大,C值小时对误分类的惩罚减小。

线性SVM的模型

现在学习问题变为如下凸二次规划问题
::: align-center
\begin{aligned}&\min_{\omega,b,\xi}\frac{1}{2}||\omega||^2+C\sum_{i=1}^N\xi_i\\ &s.t.\space y_i(\omega\cdot x+b)\ge 1-\xi_i,i=1,2,\cdots,N\\ &\xi_i\ge 0,i=1,2,\cdots,N \end{aligned}

:::
设这个问题的解为\omega^*,b^*,同样地可得分离超平面和分类决策函数,称这样的模型为训练样本线性不可分时的线性支持向量机,简称线性SVM。

显然线性SVM包含线性可分SVM。由于现实中训练数据集往往是线性不可分的,线性SVM具有更广的适用性。

凸优化问题的求解

原始问题的拉格朗日函数是
::: align-center
\begin{aligned} &L(\omega,b,\xi,\alpha,\mu)=\frac{1}{2}||\omega||^2+C\sum_{i=1}^N\xi_i\\ &-\sum_{i=1}^N\mu_i\xi_i-\sum_{i=1}^N\alpha_i(y_i(\omega\cdot x_i+b)-1+\xi_i) \end{aligned}

:::
我们要求解的原始问题为(⭐)\min_{\omega,b,\xi}\max_{\alpha,\mu}L(\omega,b,\xi,\alpha,\mu)
其对偶问题为\max_{\alpha,\mu}\min_{\omega,b,\xi}L(\omega,b,\xi,\alpha,\mu),它与原始问题之间是强对偶关系

首先求内部极小问题,有
::: align-center
\begin{aligned} &\nabla_{\omega}L(\omega,b,\xi,\alpha,\mu)=\omega-\sum_{i=1}^N \alpha_ix_iy_i=0\\ &\nabla_{b}L(\omega,b,\xi,\alpha,\mu)=-\sum_{i=1}^N\alpha_iy_i=0\\ &\nabla_{\xi}L(\omega,b,\xi,\alpha,\mu)=C-\mu_i-\alpha_i=0 \end{aligned}

:::
回代拉格朗日函数得到内部最小化问题变为
::: align-center
\min_{\omega,b,\xi}L(\omega,b,\alpha,\mu)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i

:::
可以看到到此问题与线性可分SVM相似,但在求解外部最大化问题时的条件有变化:
::: align-center
\begin{aligned} &\max_{\omega,b,\xi}-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\\ &s.t.\space \sum_{i=1}^N\alpha_iy_i=0\\ &C-\alpha_i-\mu_i=0,i=1,2,\cdots,N(*)\\ &\alpha_i,\mu_i\ge 0,i=1,2,\cdots,N \end{aligned}

:::
上上述对偶优化问题进行变换,利用(*)消去\mu_i,同时改写最后一条的可行性条件为0\le\alpha_i\le C,同时将问题改写为最小化问题,最终得到(📌)
::: align-center
\begin{aligned} &\min_{\alpha}\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\\ &s.t.\space \sum_{i=1}^N\alpha_iy_i=0\\ &0\le\alpha_i\le C,i=1,2,\cdots,N \end{aligned}

:::
用(8-1)类似的证法,由原始问题(⭐)的KKT条件可得以下的定理

定理:设\alpha^*=(\alpha_1^*,\alpha_2^*,\cdots,a_l^*)^T是对偶优化问题(📌)的解,则存在下标j,使得0<\alpha_j^*,可按下式求得原始最优化问题的解
::: align-center
\begin{aligned} &\omega^*=\sum_{i=1}^N\alpha_i^*y_ix_i\\ &b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j) \end{aligned}

:::

由此,分离超平面可以写成
::: align-center
\sum_{i=1}^N \alpha_i^*y_i(x\cdot x_i)+b^*=0

:::
分类决策函数可以写成
::: align-center
f(x)=sign(\sum_{i=1}^N \alpha_i^*y_i(x\cdot x_i)+b^*=0)

:::

同时对于线性SVM,支持向量的概念也有所扩充:
软间隔的支持向量.jpg
在线性不可分的情况下,将对偶优化问题(📌)的解\alpha^*对应\alpha_i^*>0的样本点(x_i,y)i)的实例点x_i称为支持向量(软间隔的支持向量),这些实例到间隔边界的距离为\frac{\xi_i}{||\omega||}

在图上可以发现,此时支持向量除了在间隔边界上以外,还可以在间隔边界和分离超平面间(包括正确的一侧和误分类的一侧)
类似的,由KKT条件的松弛互补条件和等式约束条件(*)可以得到

  • \alpha_i^*,则\xi_i=0\Rightarrow支持向量恰好落在间隔边界上
    补充书中的缺少的内容:这是由于有等式约束(*),在\alpha_i^*时可得出\mu_i>0,由原始问题的KKT条件中的松弛互补条件\mu_i^*\xi_i^*=0知只可能有\xi_i=0
  • \alpha_i=C,由等式约束(*)得\mu_i=0,再由松弛互补条件得此时允许\xi_i>0
    • 0<\xi_i<1,则该支持向量位于间隔内部,被正确分类
    • \xi_i=1,则该支持向量落在了分离超平面上
    • \xi_i>1,则该支持向量越过了分离超平面,被误分类

合页损失函数

简介

线性支持向量机还有另外一种解释,就是最小化以下目标函数
::: align-center
\sum_{i=1}^N[1-y_i(\omega\cdot x_i + b)]_++\lambda||\omega||^2

:::
该目标函数的第一项是经验损失或经验风险,第二项是正则化项(使用L2范数,岭回归)

函数
::: align-center
L(y(\omega\cdot x))=[1-y(\omega\cdot x+b)]_+

:::
称为合页损失函数(Hinge Loss Function)
下标+表示以下取正值的函数
::: align-center
[z]_+=\left\{\begin{matrix} z & z> 0\\ 0 & z\le 0 \end{matrix} \right .

:::
这就是说当样本点被正确分类且函数间隔(确信度)y_i(\omega\cdot x_i+b)大于1时,损失是0,否则损失是1-y_i(\omega\cdot x_i+b)

等价证明

下面证明SVM原始优化问题
::: align-center
\begin{aligned}&\min_{\omega,b,\xi}\frac{1}{2}||\omega||^2+C\sum_{i=1}^N\xi_i\\ &s.t.\space y_i(\omega\cdot x+b)\ge 1-\xi_i,i=1,2,\cdots,N\\ &\xi_i\ge 0,i=1,2,\cdots,N \end{aligned}

:::
等价于
::: align-center
\min_{\omega,b}\sum_{i=1}^N[1-y_i(\omega\cdot x_i + b)]_++\lambda||\omega||^2

:::
证明:
\xi_i=[1-y_i(\omega\cdot x_i+b)]_+,
\xi_i\ge 0,原始问题最后一条成立

下面证明第二条成立
1-y_i(\omega\cdot x_i + b)>0时,有y_i(\omega\cdot x_i+b)=1-\xi_i
1-y_i(\omega\cdot x_i + b)\le 0时,\xi_i=0,即y_i(\omega\cdot x_i+b)\ge 1\Rightarrow y_i(\omega\cdot x_i+b)\ge 1-\xi_i
所以第二条成立

将问题写为
::: align-center
\min_{\omega,b}\sum_{i=1}^N\xi_i+\lambda||\omega||^2

:::
\lambda=\frac{1}{2C},则问题变为
::: align-center
\min_{\omega,b}\frac{1}{C}(\frac{1}{2}\sum_{i=1}^N\xi_i+C||\omega||^2)

:::

可以知道\frac{1}{C}并不影响优化的结果,故等价证明成立

合页损失函数的图像

合页损失函数.jpg
合页损失函数如图所示,横轴是函数间隔,纵轴是损失。由于函数形状像一个合页,故名合页损失函数。

图中还画出0-1损失函数,可以认为它是二分类问题的真正损失函数,而合页损失函数是0-1损失函数的上界。由于0-1损失不是连续可导的,直接优化比较困难,可以认为线性SVM是优化0-1损失的上界(合页损失)构成的目标函数。这时的上界损失又称为代理损失。

图中虚线显示的是感知机的损失[-y_i(\omega x_i+b)]_+。样本被正确分类时损失为0,否则为-y_i(\omega x_i+b)。相比之下,合页损失不仅要分类正确,而且要确信度高,损失才是0,对学习有更高的要求。

游客

全部评论 (0)

暂无评论,快来抢沙发吧~