• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

机器学习导论–特征选择

ml admin 3年前 (2017-01-15) 1612次浏览 0个评论 扫描二维码

为啥要进行特征选择?

在学习训练模型的样本会包含许多特征属性,如果样本数量较大且属性较多,直接用于训练则出现数据量较大的情况,训练复杂大较大且训练出来的模型不一定很好,因此有必要在训练模型之前进行相应的子集选择和特征选择,减小训练复杂度,在不影响模型效果的基础上。

特征选择方式

目前了解的特征选择方式有三种,过滤式、包裹式和 L1\L2 正则化处理

过滤式

过滤式首先进行特征选择,在训练模型,特征选择与模型训练无关

常见的是 Relief 方法,在 Relief 方法中定义里统计相关量来衡量当前的特征或者子集,统计先关量的计算如下:

假设有 N 个样本,选取 x(i),在 x(i)的同类样本中寻找最近的样本,然后再异类中选取最近的样本,然后可以得到在每个属性 j 上相关统计量

QLU)LG0P%4Q[0VB@_9~QWZ3

上式中 TN 表示 True Nearest 同类最近的样本,NN 表示 Negtive Nearest 异类最近的样本,Diff 表示相应的距离,若上式中左边的部分小于右边的部分说明当前的特征属性是有益的,若左边的表达式大于右边则表示当前的属性不适合作为训练的特征。

需要统计的样本个数与特征的维数决定了当前方法的复杂度

包裹式

跟过滤式完全相反,模型的训练决定了特征的选择,因此对于给定一个训练集可能需要多次模型,从而确定最佳的训练模型,在开销上会比过滤式更大。

L1\L2 正则化

常见的评价当前模型的好坏是通过误差函数方差能判定,优化目标就是使当前的误差函数最小来得到相应的模型参数,假定给的样本较少特征较大则有可能导致训练出现过拟合现象,将一些不必要的特征都学习到模型里面,以后再做预测的时候会出现偏差的可能性变大,同过在优化目标函数中加入相应的正则项则会避免过拟合的现象。

L1\L2 范数都会起到相应的效果,但是 L1 会更好的得到稀疏解,在此稀疏解的定义是啥?假设当前样本有两个特征,需要训练线性回归模型,因此需要得到 W1 和 W2,使用 L1 训练的结果可能会出现其中 W1 或者 W2 一个为 0 的现象,这就是可以使用一部分特征就起到较好的效果。

90A`U)0D{PQX9)MI666YNBX

上式以 L1 正则化为例给出相应的优化目标,可以使用梯度下降法来估计 W


Deeplearn, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明机器学习导论–特征选择
喜欢 (1)
admin
关于作者:
互联网行业码农一枚/业余铲屎官/数码影音爱好者/二次元

您必须 登录 才能发表评论!