Logistic Regression and Maximum Entropy Model

Lab Basic

Logistic Regression

简介:一种简单的统计分类方法,因为使用了Logistic函数得名。称作回归(Regression)的原因是,这个模型实质是在做函数的拟合问题。

Logistic Function

\[ f(x)=\frac{1}{1+e^{-x}} \]

介于\(0\) ~ \(1\)之间

二分类的Logistic模型

\[ P(Y=1|x)=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)} \] \[ P(Y=0|x)=\frac{1}{1+exp(w\cdot x+b)} \] \(w,x \in \mathbf{R}^n\) , \(b \in \mathbf{R}\)

\(b\) 并入到 \(w\) 中,扩充 \(w\)\(x\) ,从而得到更简洁的表达 \[ P(Y=1|x)=\frac{exp(w\cdot x)}{1+exp(w\cdot x)} \] \[ P(Y=0|x)=\frac{1}{1+exp(w\cdot x)} \]

对模型的理解

几率(odd)

记事件发生的概率为 \(p\) ,那么事件发生的几率为 \(\frac{p}{1-p}\)

对数几率(log odd / logit 函数) \[ logit(p)=log\frac{p}{1-p} \] 对于Logistic回归来说 \[ log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x \] 可以看出,这是在用线性模型来拟合logit函数,故称为“回归模型”

Logistic函数

另一个角度看,Logistic函数将原本取值在实数集上的变量投影到了\((0,1)\) ,也就是一个概率所属的范围。

模型的求解

极大似然估计,采用数值分析的方法(梯度下降法,拟牛顿法等)求解参数向量 \(w\)

多分类的Logistic回归模型

\(Y\) 的取值范围是{1, 2, 3, ... , K} \[ P(Y=k|x)=\frac{exp(w_k \cdot x)}{1+\sum_{k=1}^{K-1}exp(w_k\cdot x)},\quad k=1,2,\dots, K-1 \] \[ P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}exp(w_k\cdot x)} \]

最大熵模型

简介:最大熵模型是根据最大熵原理得到的,简单说,在所有可能的概率模型中,熵最大的模型是最好的,因为它保留了最大的不确定性,所有不确定的部分都是接近"等可能的",减小了对不确定因素的偏见。

模型的定义

利用最大熵原理,获得一个简单的分类模型。这里所求的模型是条件概率模型。根据给定的训练集,可以获得联合分布\(P(X,Y)\)的经验分布,以及边缘分布\(P(X)\)的经验分布,分别记为\(\tilde{P}(X,Y)\)\(\tilde{P}(X)\)

约束

约束就是分类问题中确定的条件,也就是输入与输出之间一些已知的事实。

约束用特征函数表示。 \[ f(x,y)=\left\{\begin{matrix} 1 ,& x和y满足某一事实\\ 0 ,& 否则 \end{matrix}\right. \] 如果模型能够学习到数据中的信息,那么就可以假设特征函数关于经验分布和模型分布的期望是相等的。

关于经验分布的期望 \[ E_{\tilde{P}}(f)=\sum_{x,y}\tilde{P}(x,y)f(x,y) \] 关于模型的条件分布的期望 \[ E_P(f)=\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y) \] 两者应当相等 ,即 \[ E_{\tilde{P}}(f)=E_P(f) \]

另外,特征函数也可不只一个。

条件熵 \[ H(P)=-\sum_{x,y}\tilde{P}(x)P(y\,|\,x)\,logP(y\,|\,x) \]

模型学习

约束最优化问题 \[ \max_{P}\quad H(P)=-\sum_{x,y}\tilde{P}(x)P(y\,|\,x)\,logP(y\,|\,x) \]

\[ s.t.\quad E_{\tilde{P}}(f_i)=E_P(f_i),\ i=1,2,...,n \]

\[ \sum_yP(y\,|\,x)=1 \]

根据拉格朗日乘子法, \[ L(P,w)=-H(P)+w_0\left ( 1-\sum_yP(y\,|\,x)\right)+\sum_{i=1}^{n}w_i(E_{\tilde{P}}(f_i)-E_P(f_i)) \] 问题转化为 \[ \min_{P}\max_{w}L(P,w) \] 对偶问题 \[ \max_{w}\min_{P}L(P,w) \] 因为\(L(P,w)\) 是 P 的凸函数,故原始问题和对偶问题是等价的。(但其实两者等价的条件我还没学。。。我不懂,我不会)

通过对偶问题里面的极小化,可以获得一个含参的分布 \[ P_w(y\,|\,x)=\frac{1}{Z_w(x)}exp\left ( \sum_{i=1}^{n}w_if_i(x,y) \right ) \]

\[ Z_w(x)=\sum_yexp\left ( \sum_{i=1}^{n}w_if_i(x,y) \right ) \]

其中\(Z_w(x)\) 是正规化因子,\(w_i\)是参数、权值。

下面在进一步去求外面的极大化就可以把参数求出来。

PS:最后一步的极大化其实等价于直接利用得到的含参的分布去做极大似然估计。

模型求解

  • 有一个改进的迭代尺度法,计算每次参数 \(w\) 的增量 \(\delta\) , 关注\(L(w+\delta)-L(w)\) , 经过放缩确定下界, 为了得到更大的该变量。放缩是因为,原式太复杂。
  • 拟牛顿法

Comments