统一后续书写表示,下标表示样本特征向量的维度,上标表示样本的序号,例如$x_{i}$表示x的第i维,$x^{j}$表示第j个样本,$x_{i}^{j}$表示第j个样本的第i维
步骤1:模型假设,如何选择模型
$f(x)=\frac{1}{1+e^{-(\Sigma_{i}^{m}w_{i}x_{i} + b)}}$,对于二分类问题,如果$f(x)>0.5$,属于类1,否则属于类2;可以用sigmoid函数表示,$z=\Sigma_{i}^{m}w_{i}x_{i}+b, p(c|x)=f(x)=\sigma(z)=\frac{1}{1+e^{-z}}$, 其中$m$是每个样本特征向量的维度
步骤2:模型评估,如何判断哪个模型好坏
一般是通过损失函数,这里也是,将训练数据转换为$(x^{n}, \widehat{y^{n}}), \widehat{y^{n}}: 1 for class1, 0 for class2$,损失函数为:
$L(w, b)=\Sigma_{i}^{n}(-[\widehat{y^{i}}ln(f(x^{i})) + (1-\widehat{y^{i}})ln(1-f(x^{i}))])$,其中$C(f(x^{i}), \widehat{y^{i}}) = -[\widehat{y^{i}}ln(f(x^{i})) + (1-\widehat{y^{i}})ln(1-f(x^{i}))]$为交叉熵
步骤3:模型优化,如何筛选出最优的模型
梯度下降是方法之一,这里用这个
$\frac{\partial{L(w,b)}}{\partial{w_{i}}}=\Sigma_{n}-(\widehat{y^{n}}-f(x^{n})).(x_{i}^{n})$
$\frac{\partial{L(w,b)}}{\partial{b}}=\Sigma_{n}-(\widehat{y^{n}}-f(x^{n}))$
$w_{i}\leftarrow w_{i}-\eta.\frac{\partial{L(w,b)}}{\partial{w_{i}}}$
$b\leftarrow b-\eta.\frac{\partial{L(w,b)}}{\partial{b}}$
Tips
逻辑回归用交叉熵作为损失函数,而线性回归用平方差作为损失函数,对于逻辑回归,$\widehat{y}$只为0或1,可以看下平方差损失函数和梯度,
$L(w, b)=\frac{1}{2}\Sigma (f(x)-\widehat{y})^{2}$
$\frac{\partial{(f(x)-\widehat{y})^2}}{\partial{w_{i}}}=2(f(x)-\widehat{y})f(x)(1-f(x))x_{i}$
可以看出,假设$\widehat{y}=1$时,使用交叉熵,距离目标越远,更新的越快,越近更新的越慢,而对于平方差,目标很远时$(\widehat{y}=1, f(x)~0)$,更新很慢