注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

标签:大数据

特征选择(7)-基于树模型的选择

上一篇文章使用基于模型的方法进行特征选择,其中主要描述了使用正则项、lasso等方法实现的特征选择,这篇文章是这个主题的最后一篇,主要是通过树模型来选择特征。常见的决策树模型原理基本知道,从单棵树到多棵树,过渡到随机森林和GBDT,这些在实际中都有很大用途,尤其是在陈天奇博士的xgboost中,完全将决策树提升到一个新的层次。sklearn函数剖析&n……

特征选择(6)-嵌入式选择(embedded)

上一篇讲解了使用基于递归消除法,从大范围来讲是通过wrapper的方法,中文就是包装的方法,递归消除是这其中主要的方法,还有其他类似GA等启发式搜索方法。从根本上来说基于wrapper是一种搜索方式,将当前的特征组合作为待搜索的大集合,然后在其中找出最优的特征组合然后返回结果。区别于wrapper方法,embedded方法是在选定模型的情况下,选取出对模型……

特征选择(5)-递归消除法

上一篇文章使用最大信息系数筛选特征,本篇使用递归消除法筛选特征。递归消除法,首先递归肯定是要循环执行多次来筛选特征,原理上首先要指定一个基模型,这个模型可以是lr或者decisionTree都可以,套用sklearn官方的说法First, the estimator is trained on the initial set of features an……

特征选择(4)-最大信息系数方法

上一篇使用卡方系数进行特征选择,使用的是假设检验的思路,这篇文章使用最大信息系数的方法进行计算。为什么要使用mic?MIC的优越性根据MIC的性质,MIC具有普适性、公平性和对称性。所谓普适性,是指在样本量足够大(包含了样本的大部分信息)时,能够捕获各种各样的有趣的关联,而不限定于特定的函数类型(如线性函数、指数函数或周期函数),或者说能均衡覆盖所有的……

特征选择(3)-卡方检验

上一篇说明从皮尔逊系数选择,这次使用卡方检验的方法来选择特征,使用假设检验的方式。首先还是从卡方检验的原理,一切还是从白话文说起。一个案例:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了 515 个成年人,其中吸烟者 220 人,不吸烟者 295 人.调查结果是:吸烟的 220 人中有 37 人患呼吸道疾病(简称患病),183……

特征选择(2)-相关系数法

上一篇文章讲到使用方差选择特征,这篇文章主要是使用pearson系数进行特征选择使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值相关系数的计算公式如下:$$s=\frac{\sum_{i=0}^{n}(x_i-\overline{x})*(y_i-\overline{y})}{\sqrt{\sum_{i=0}^{n}(x_i-\ov……

特征选择(1)-方差选择法

方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大于阈值的特征。为什么方差可以用来选择特征?理论上是认为在样本集上如果当前特征基本上都差异不大,因此可以认为这个特征对我们区分样本贡献不大,因此可以在构造特征过程中可以将其去掉。sklearn函数剖析 from sklearn.fe……

特征选择

特征选择在机器学习中占据了重要的地位,通常在构造完特征之后会发现很多特征,少则十几个多则几十个,其实这些特征并不完全对我们构造的模型有益,也许其中只有部分特征会对我们的模型是最佳组合,因此我们需要筛选出相应的特征组合作为训练的特征。特征较多带来的问题:特征维数较高,训练模型会比较麻烦维数灾难,训练的模型效果不一定好且泛化能力较差因此需要特征选择的……

特征工程(2)-数据预处理区间缩放法

接上一篇文章无量纲标准化预处理数据标准化处理数据,这篇文章继续使用区间缩放法进行处理区间缩放法原理最常见的就是使用最大最下值来进行处理,处理的公式如下$$ y=\frac{x-min}{max-min}$$上述公式中min代表数据最小值,max代表数据最大值from sklearn.preprocessing import MinMaxScale……

特征工程(1)-数据预处理标准化

机器学习中特征工程的构造分析,以前在这方便还是没有去全面的了解,最近有一段磨刀的时间,还是从基础学习开始,理论结合代码推进通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:不属于同一量纲,无量纲化处理:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。比如身高和年龄信息冗余:对于某些定量特征,其包含的有效信息为区间划分……

spark随机森林算法

spark随机森林算法由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点,这便是随机森林算法的基本原理。图 1给出了随机森林算法分类原理,从图中可以看到,随……

simrank算法

1. SimRank推荐算法的图论基础SimRank是基于图论的,如果用于推荐算法,则它假设用户和物品在空间中形成了一张图。而这张图是一个二部图。所谓二部图就是图中的节点可以分成两个子集,而图中任意一条边的两个端点分别来源于这两个子集。一个二部图的例子如下图。从图中也可以看出,二部图的子集内部没有边连接。对于我们的推荐算法中的SimRank,则二部图中的两……

大数据专题

大数据专题 ……