sklearn梯度提升树基本操作

2018年11月22日 0 条评论 19 次阅读 0 人点赞

 

1.梯度提升决策树

什么是决策树

维基百科:决策树(Decision Tree)是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。

房屋数据集

                        

特征选择:

特征选择就是选择最优划分属性,从当前数据的特征中选择一个特征作为当前节点的划分标准。我们希望在不断划分的过程中,决策树的分支节点所包含的样本尽可能属于同一类,即节点的“纯度”越来越高。

为了找到最优的划分特征,我们需要先了解一些信息论的知识:

信息熵(information entropy):是表示随机变量不确定性的度量

(1)信息熵越大,信息量越多

(2)信息熵越小,数据纯度越高

信息增益(information gain):分类前集合的熵减去分类后集合的熵

分类前信息熵计算

可以看出,按价格划分信息增益明显大于按税率划分。

构建决策树:利用信息增益,反复迭代寻找最优划分特征进行划分,直到所有数据划分完全。

回归树:

回归树是可以用于回归的决策树模型,回归树先将数据集做分类,再以此类别标签的均值作为预测值。

举个例子,我们要对房价进行回归预测,我们将输入空间不断的按最小误差进行划分,得到类似下图的结果,将空间划分后,我们会用该单元内的均值作为该单元的预测值。

梯度提升决策树(Gradient Boosting  Decision Tree)

梯度提升决策树:是一种集成学习的算法

Boosting是一类将弱学习器提升为强学习器的算法。这类算法的工作机制类似:先从初始训练集中训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注。

梯度提升决策树(GBDT)的核心就在于,每一棵树学的是之前所有树结论和的残差。

2.数据集与特征

数据概览

 

特征介绍

lyssom

这个人太懒什么东西都没留下

文章评论(0)