【MLDL】logistics regression理解

以前有学过linear classification、linear regression和logistics regression，这次做一下总结，并主要推导一下交叉熵损失函数的由来和梯度下降法。

一、概述

开头先祭出林轩田老师讲义中的一张图

这里写图片描述

PLA、Linear Regression到logistics regression的区别。

误差函数由0/1误差演变为均方误差到交叉熵误差。

1.1 PLA/Pocket

PLA是针对线性可分的数据，进行二分类，使用0/1误差，初始化权重，然后迭代更新，当有一个分类错误点时，就纠正权重，Wt+1=Wt+Yn(t)*Xn(t)，直到没有错误为止。

后来为了处理非线性可分数据，引入pocket，不再是找那个没有分类错误的权重，而是在迭代过程中记录每次权重放错的次数，经过足够多的权重后，去犯错最后的那个权重作为结果。

1.2 Linear regression

linear regression主要可以用来解决预测银行卡额度问题、预测房价问题等。使用均方误差。

暂时先不做过多说明。

直接进入logistics regression。

二、logistics regression

2.1 基本介绍

当我们在做预测心脏病是否复发的问题时，我们不可能给出一个是或否的回答，只能说，有多少的概率会复发。但是，我们的训练数据只有复发或不复发两种，而我们希望拿到的训练数据是有概率的。

这样就引入了logistics 函数，通过一个映射，将其转换为0-1之间的数，用来表示概率。

logistics 函数： $f(x)= \frac{1}{1+e^{-x}}$

于是，得到假设函数：

这里写图片描述

那我们如何来优化这个假设函数呢，使用什么样的误差函数呢？这里就引入了交叉熵损失函数。

2.2 推导交叉熵损失函数

假设我们有这样一堆数据，

这里写图片描述

我们的目标函数产生这个数据集的概率为:

$P(D)=p(x1O)p(x2X)p...p(x_NX)$

公式中，大写O为正分类O，大写X为负分类X

由于我们知道，已知数据 $x_1$ ，产生O 的可能性就是我们的目标函数f(x)，索所以可得：

这里写图片描述

由条件概率的公式可得：

$P(B|A) = \frac{ P(AB)}{P(A)}$

所以，产生数据集D的概率公式可表示为：

$P(D)=p(x_1)f(x_1)* p(x_2)(1-f(x_2))*...*p(x_N)(1-f(x_N))$

但我们并不知道目标函数f，我们只能通过假设函数h，让其去逼近f，这样，我们可以推测，假设函数h产生数据集D的概率与目标函数f产生数据集D的概率逼近。

于是得到：

$P(D)=p(x_1)h(x_1)* p(x_2)(1-h(x_2))*...*p(x_N)(1-h(x_N))$

由于logistics函数的特性， $1-h(x)=h(-x)$ ，则

$P(D)=p(x_1)h(x_1)* p(x_2)h(-x_2)*...*p(x_N)h(-x_N)$

由于p(x)这一项对我们的概率没有影响，可以去掉，变为：

$P(D)=h(x_1)* h(-x_2)*...*h(-x_N)$

将里面的正负号去掉，可以添加 $y_n$ ，代表二分类的0/1。

于是变为：

$P(D)=\prod_{n=0}^N h(y_nx_n)$

我们求最优的假设函数时，即是从假设空间H中选一个产生D概率最高的函数，在数学上，称之为似然，即求最大似然。

这里写图片描述

于是，我们的目标现在变为：

这里写图片描述

而由于我们现在在做logistics，是求一个权值W，可以将W替代上图中的h，将有关W的式子带入：

于是得到：

这里写图片描述

但是这个式子我们不好处理连乘，于是加一个去对数，于是变为：

这里写图片描述

于是，将ln放进去后，连乘就变成了连加。于是变为:

$max_w$ $\sum_{n=0}^N ln \theta (y_nw^Tx_n)$

但是我们不想求max，求min比较容易，可以添加一个负号，并添加1/N，比较容易好计算，于是变为：

这里写图片描述

又由于 $\theta(s)= \frac {1}{1+e^{-s}}$ ,

所以上式可以化简为：

这里写图片描述

最终，得到交叉熵损失函数：

这里写图片描述

这就是交叉熵损失函数的由来。

2.3 优化方法：GD/SGD

有了损失函数后，我们就要对这个损失函数进行优化，尽可能降低这个损失，这里就是用到了经典的优化方法：梯度下降法。

我们得到损失函数后，

这里写图片描述

我们发现这个损失函数是连续可微凸函数，则只需找使梯度为0的权值w就可。即这里写图片描述

Ein很容易求导，只需要运用链式求导法则即可，得到梯度为：

这里写图片描述

这样只要求解梯度为0的时候就可以。

我们可以看出，在梯度公式中， $\theta$ 函数如果全部为0，则梯度会等于0，所以知道，当 $-y_n w^{'}x_n$ 趋向于负无穷大时，其 $\theta(-y_nw^{'}x_n)$ 会等于0，这就意味着， $y_n w^{'}x_n$ 要趋向于正无穷，这意味着所有的 $y_n$ 与 $w^{'}x_n$ 同号，即数据集D线性可分，才会发生这种情况。