Logistic回归

这几天学习了一下Logistic回归模型,记录一下学习的历程。

1. 主要思想:

  • Logistics回归进行分类的主要思想如下:
  • 根据现有的数据对分类边界建立回归公式,以此进行分类;
  • 回归一词源于最佳拟合,表示要找到最佳拟合参数集;
  • 训练分类器的做法就是寻找最佳拟合参数;

2. Logistic回归的优缺点:

  • 优点:计算代价不高,易于理解和实现;
  • 缺点:容易欠拟合,分类精度可能不高;
  • 适用数据类型:数值型和标准型数据;

3. 关于优化算法的收敛问题:

一个判断优化算法优劣的可靠方法是看它是否收敛,也就是说参数是否达到了稳定值,是否还会不断地变化;

  • 对于收敛时参数波动问题:
  • 每次迭代时动态调整学习率alpha,将会缓解数据波动或者高频波动;(可以先使学习率比较大,让其能够快速迭代,然后减小学习率即可)同时也应该避免参数的严格下降,避免参数的严格下降也常见于模拟退火算法等其他优化算法中;
  • 通过随机选取样本来更新回归系数,可以减少周期性的波动;这种方法每次随机从列表中选出一个值,然后从列表中删除该值(再进行下一次迭代)。因为样本顺序的改变,使得每次迭代不再形成周期性;

4. 数据缺失问题的解决

  • 使用可用特征的均值来填补缺失值;
  • 使用特殊值来填补缺失值,如-1;
  • 忽略有缺失值得样本;
  • 使用相似样本的均值添补缺失值;
  • 使用另外的机器学习算法预测缺失值;
  • 可以使用实数0来替换所有缺失值,有如下好处:
    • 更新时不会影响系数;
    • 对结果的预测不具有任何倾向性;也不会对误差造成任何影响;
  • 对于标签的缺失,倾向于;将该条数据丢弃;

5. 关于数学推导以及代码实践

 

6. 其他问题

  • 如果对最大似然函数取正对数,则使用随机梯度上升法求解;
  • 如果对最大似然函数取负对数,则使用随机梯度下降法求解;
  • 同时需要注意,随机梯度下降和随机梯度上升法不仅仅是加减的问题,还需要注意y和label计算的顺序关系;

 

参考文献:

发表评论