特征选择（7）-基于树模型的选择

8,924次阅读

共计 684 个字符，预计需要花费 2 分钟才能阅读完成。

上一篇文章使用基于模型的方法进行特征选择，其中主要描述了使用正则项、lasso等方法实现的特征选择，这篇文章是这个主题的最后一篇，主要是通过树模型来选择特征。

常见的决策树模型原理基本知道，从单棵树到多棵树，过渡到随机森林和GBDT,这些在实际中都有很大用途，尤其是在陈天奇博士的xgboost中，完全将决策树提升到一个新的层次。

sklearn函数剖析

from sklearn.ensemble import  ExtraTreesClassifier
tree=ExtraTreesClassifier()
tree.fit(irisdata.data,irisdata.target)
SelectFromModel(tree,prefit=True).transform(irisdata.data)

输出

array([[ 1.4,  0.2],
       [ 1.4,  0.2],
       [ 1.3,  0.2],
       [ 1.5,  0.2],
       [ 1.4,  0.2],
       [ 1.7,  0.4],
       [ 1.4,  0.3],
       [ 1.5,  0.2],

当然也可以使用GBDT来作为estimator

from sklearn.ensemble import  GradientBoostingClassifier
gb=GradientBoostingClassifier()
SelectFromModel(gb).fit_transform(irisdata.data,irisdata.target)

输出

array([[ 1.4,  0.2],
       [ 1.4,  0.2],
       [ 1.3,  0.2],
       [ 1.5,  0.2],
       [ 1.4,  0.2],
       [ 1.7,  0.4],
       [ 1.4,  0.3],

正文完

请博主喝杯咖啡吧！

大数据

发表至： bigdata

2017-08-22

1

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

spark训练rm推荐模型cholesky分解异常分析

SparkSql系列(14/25) union合并

Spark DataFrame合并遇到的问题

特征工程（1）-数据预处理标准化

特征选择（6）-嵌入式选择(embedded)

特征选择（7）-基于树模型的选择

lse 的概念

homebrew客户端 Applite

homebrew客户端 Applite

lse 的概念