总纲
支持向量机、核函数、决策树、随机森林、GBTs
解决过拟合问题
线性回归
逻辑回归
AUC
ROC梯度下降
特征处理
多重共线性
内生性
支持向量机
不会考虑所有数据,而只是关心很难被超平面分割的‘异常点’。
SVR(support vector regression)核函数
低维空间映射到高维空间,非线性问题转换为高维空间里的线性问题。决策树
白盒模型,通过生成决策规则来解决分类和回归问题。
sklearn
treeDecisionTreeClassifier gini entropy max_depth max_leaf_nodes best-first search min_samples_split min_samples_leaf min_impurity_split
对于分类问题:只考虑叶子节点里哪个分类最大
对于回归问题:叶子节点里的加权平均值
决策树里的惩罚项树的集成
模型的联结
解决变量边际效应恒定的隐含假设
1)特征 分箱(卡方检验) 01型变量 逻辑回归
2)特征 决策树 叶子节点 逻辑回归 (适用于广告行业和金融反欺诈)
3)特征 GBTs 叶子节点 逻辑回归
gradient-boosted trees(GBTs)
模型评估 ROC
2)利用了决策树的优点能综合考虑多个变量,而且对变量的线性变换是稳定的。
叶子节点是类别型变量
剪枝pruning
决策树模型的过拟合问题:
决策树属于非参模型(nonparametric model),有无穷多个参数,更容易过拟合。
pre-pruning: max_depth min_sample_split
post_pruning: 减掉不纯度下降不明显的 消除误差剪枝法 Reduced Error Pruning
REP
cross validation: train set, test set, pruning set
训练集、验证集、测试集
训练集、验证集、测试集、剪枝集
bottom-up restriction
树的集成(哲学层面:联结主义,具体算法:集成方法)
weak learner
平均方法 averaging methods
随机森林
假设决策树是相互独立的
如果每颗决策树是一样的,那么随机森林等同于决策树模型
决策树的随机性
1)随机选取训练决策树的数据
2)随机选取候选自变量
3)随机选取阈值集合
sklearn:
random forests 1) 2)
RandomForestClassifier 分类问题
RandomForestRegressor 回归问题
extremely randomized tresss 1) 2) 3)
ExtraTreesClassifier
ExtraTreesRegressor
Random forest embedding(非监督学习)
几乎所有的监督学习都可以作为非监督学习使用
低维数据到高维数据:支持向量机的核函数、随机森林的random forest embedding
提升方法 boosting methods
GBTs(gradient boosted trees)梯度提升决策树
损失函数MSE
因为决策树本身并没有明确的模型参数,而无法使用梯度下降法
把决策树本身抽象成整体模型的一个参数,并使用梯度下降的方法对其进行更新。
GBTs模型超参数深度m
为了防止过拟合,引入了学习速率这个超参数 v
sklearn
GradientBoostingRegressor
GradientBoostingClassifier
- 生成式模型
判别式模型(discriminative model)
生成式模型 (generative model)
贝叶斯框架
蒙题霍尔问题
先验概率、后验概率
先验概率知因求果,后验概率知果求因
贝叶斯学派与频率学派 Bayesian Frequentist
频率学派:随机性真实存在,能被适合的模型所捕捉,模型的参数本身是确定的值,参数的估计值是一个随机变量。通过不断地调整模型的functional form来逼近真实模型。
贝叶斯学派:参数不再是确定的值,而是随机数
$ P(a,b,\sigma | y,x) \sim P(y|x,a,b, \sigma)P(a)P(b)P(\sigma)$
Bayesian linear regression
一种更加一般的线性回归模型,与普通的回归模型相比,此模型的参数估计值更加靠近0。当参数的先验分布为特定分布时,此模型就是之前讨论过的岭回归,该模型可以理解为在线性回归的基础上加上了惩罚项。
根据参数的后验分布来得到估计值
数据里的随机性更多的来自于参数本身的随机分布。贝叶斯学派认为参数的分布情况反映了观察者对事物的认识并不完全。(我:贝叶斯学派可以囊括频率学派)。观察者不断根据信息,来更新自己的知识,最终根据新的知识得到参数的估计值。
朴素贝叶斯
特征提取,
停止词stop words8