今天是农历大年初一,在家里休息。最近闲来无事,终于可以看看这篇论文,虽然是10年前的论文,但是还是可以看到截止2007年来监督学习的大体方向,扩展眼界。当时,最新最火的是SVM,火热程度好比现在的深度学习。在SVM之前,神经网络也一度被学术界广发关注过,感觉深度学习就是神经网络换了一个“马甲”。

这篇论文主要介绍的内容如下:

  • 监督学习基础 尤其是在模型效果比较,指出了基于t-test的成对的交叉检验得到的结果具有很大的Type I错误(模型相同,但是却认为不同), 并且给出了相关的论文。主要观点是样本并不独立,不符合t-test的条件。非常受用,最近在准备晋级答辩,果断删除了相关内容。
  • 决策树和规则模型 常规的决策树,C4.5,信息增益,熵,基尼不纯度等。
  • 基于感知器(Perceptron)的技术 神经网络什么的属于这一类。
  • 统计学习算法 朴素贝叶斯与贝叶斯网络属于这一类。贝叶斯网络在应用中,可以利用专家经验构建网络,然后使用离散化,学习构建条件概率表格来得到最终的网络。这一点,与我们工作中现在的场景一致。
  • 基于实例的学习 主要就是kNN,提到了许多距离计算的方法,与相关优化的研究。
  • 支撑向量机 介绍了SVM基本原理,正规化,核函数与软分类等。

最后,给出一张比较详细的算法比较图

基于上面的图标,提取一些个人总结

  • SVM与神经网络精度较高,但是模型没有可解释性,特征必须连续,且训练较慢。
  • 决策树训练非常快,可以处理离散与连续,模型可解释。
  • 朴素贝叶斯网络可以增量学习,对NA特征有非常大的包容性,学习快,但是精度不太高。