注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下
特征选择(7)-基于树模型的选择

特征选择(7)-基于树模型的选择

上一篇文章使用基于模型的方法进行特征选择,其中主要描述了使用正则项、lasso等方法实现的特征选择,这篇文章是这个主题的最后一篇,主要是通过树模型来选择特征。常见的决策树模型原理基本知道,从单棵树到多棵树,过渡到随机森林和GBDT,这些在实际中都有很大用途,尤其是在陈天奇博士的xgboost中,完全将决策树提升到一个新的层次。sklearn函数剖析&n……

特征选择(6)-嵌入式选择(embedded)

特征选择(6)-嵌入式选择(embedded)

上一篇讲解了使用基于递归消除法,从大范围来讲是通过wrapper的方法,中文就是包装的方法,递归消除是这其中主要的方法,还有其他类似GA等启发式搜索方法。从根本上来说基于wrapper是一种搜索方式,将当前的特征组合作为待搜索的大集合,然后在其中找出最优的特征组合然后返回结果。区别于wrapper方法,embedded方法是在选定模型的情况下,选取出对模型……

特征选择(5)-递归消除法

特征选择(5)-递归消除法

上一篇文章使用最大信息系数筛选特征,本篇使用递归消除法筛选特征。递归消除法,首先递归肯定是要循环执行多次来筛选特征,原理上首先要指定一个基模型,这个模型可以是lr或者decisionTree都可以,套用sklearn官方的说法First, the estimator is trained on the initial set of features an……

特征选择(4)-最大信息系数方法

特征选择(4)-最大信息系数方法

上一篇使用卡方系数进行特征选择,使用的是假设检验的思路,这篇文章使用最大信息系数的方法进行计算。为什么要使用mic?MIC的优越性根据MIC的性质,MIC具有普适性、公平性和对称性。所谓普适性,是指在样本量足够大(包含了样本的大部分信息)时,能够捕获各种各样的有趣的关联,而不限定于特定的函数类型(如线性函数、指数函数或周期函数),或者说能均衡覆盖所有的……

特征选择(3)-卡方检验

特征选择(3)-卡方检验

上一篇说明从皮尔逊系数选择,这次使用卡方检验的方法来选择特征,使用假设检验的方式。首先还是从卡方检验的原理,一切还是从白话文说起。一个案例:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了 515 个成年人,其中吸烟者 220 人,不吸烟者 295 人.调查结果是:吸烟的 220 人中有 37 人患呼吸道疾病(简称患病),183……

特征选择(2)-相关系数法

特征选择(2)-相关系数法

上一篇文章讲到使用方差选择特征,这篇文章主要是使用pearson系数进行特征选择使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值相关系数的计算公式如下:$$s=\frac{\sum_{i=0}^{n}(x_i-\overline{x})*(y_i-\overline{y})}{\sqrt{\sum_{i=0}^{n}(x_i-\ov……

特征选择(1)-方差选择法

特征选择(1)-方差选择法

方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大于阈值的特征。为什么方差可以用来选择特征?理论上是认为在样本集上如果当前特征基本上都差异不大,因此可以认为这个特征对我们区分样本贡献不大,因此可以在构造特征过程中可以将其去掉。sklearn函数剖析 from sklearn.fe……

特征选择

特征选择

特征选择在机器学习中占据了重要的地位,通常在构造完特征之后会发现很多特征,少则十几个多则几十个,其实这些特征并不完全对我们构造的模型有益,也许其中只有部分特征会对我们的模型是最佳组合,因此我们需要筛选出相应的特征组合作为训练的特征。特征较多带来的问题:特征维数较高,训练模型会比较麻烦维数灾难,训练的模型效果不一定好且泛化能力较差因此需要特征选择的……

特征工程(6)-数据预处理数据变换

特征工程(6)-数据预处理数据变换

上一篇讲解了使用哑编码的方式来进行数据预处理,这篇文章看起来只是用来作为数据类型的转换,比如多项式操作或者自定义函数常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。2个特征,度为2的多项式转换公式如下:$$ (x_1,x_2)=(1,x_1,x_2,x_1^2,x_1*x_2,x_2^2) $$sklearn函数剖析from sklea……

特征工程(5)-数据预处理哑编码

特征工程(5)-数据预处理哑编码

上一篇讲解了数据二值化处理,这篇讲解数据的哑编码哑编码概念先来讲解下哑编码的概念吧,当你的变量不是定量特征的时候是无法拿去进行训练模型的,哑编码主要是针对定性的特征进行处理然后得到可以用来训练的特征关于定性和定量还是在这里也说明下,举个例子就可以看懂了定性:博主很胖博主很瘦定量博主有80kg博主有60kg(ps:好难啊)一般定性都会有相关……

特征工程(4)-数据预处理二值化

特征工程(4)-数据预处理二值化

上一篇文章讲解了区间缩放法处理数据,接下来就讲解二值化处理这个应该很简单了,从字面意思就是将数据分为0或者1,联想到之前图像处理里面二值化处理变为黑白图片下面还是进入主题吧首先给出当前的二值化处理公式:$$y = \left\{ \begin{array}{ll}0 & \textrm{if \(x<=\theta\)}\\1&……

特征工程(3)-数据预处理归一化

特征工程(3)-数据预处理归一化

上一篇文章讲解了数据预处理区间缩放法,这篇文章主要讲解数据归一化处理既然讲到归一化和前面的标准化需要对比一下,首先二者处理的维度是不一样的,假设我们要处理的矩阵是m*n大小,m个样本,n维特征标准化处理的方式是以列为单位,也就是处理的对象是$$m*k    k={1……..n}$$归一化处理的方式却是以行为单位,处理的对象如下……

特征工程(2)-数据预处理区间缩放法

特征工程(2)-数据预处理区间缩放法

接上一篇文章无量纲标准化预处理数据标准化处理数据,这篇文章继续使用区间缩放法进行处理区间缩放法原理最常见的就是使用最大最下值来进行处理,处理的公式如下$$ y=\frac{x-min}{max-min}$$上述公式中min代表数据最小值,max代表数据最大值from sklearn.preprocessing import MinMaxScale……

特征工程(1)-数据预处理标准化

特征工程(1)-数据预处理标准化

机器学习中特征工程的构造分析,以前在这方便还是没有去全面的了解,最近有一段磨刀的时间,还是从基础学习开始,理论结合代码推进通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:不属于同一量纲,无量纲化处理:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。比如身高和年龄信息冗余:对于某些定量特征,其包含的有效信息为区间划分……

spark决策树API分析

spark决策树API分析

此版本是ml版本,区别于mllib版本的决策树api输入Param nameType(s)DefaultDescriptionlabelColDouble“label”标签featuresColVector“features”特征向量 输出……

spark shell运行模式小记

spark shell运行模式小记

集群经常会增加相应的node节点,但是相应的环境有没有及时更新,有的时候因为某个节点环境没有配置好导致程序跑挂了,所以有的时候需要本地模式仅在driver跑相应的测试代码,记录一下当前的几种运行模式本地模式Spark单机运行,一般用于开发测试。Standalone模式构建一个由Master+Slave构成的Spark集群,Spark运行在集群……

spark随机森林算法

spark随机森林算法

spark随机森林算法由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点,这便是随机森林算法的基本原理。图 1给出了随机森林算法分类原理,从图中可以看到,随……

simrank算法

simrank算法

1. SimRank推荐算法的图论基础SimRank是基于图论的,如果用于推荐算法,则它假设用户和物品在空间中形成了一张图。而这张图是一个二部图。所谓二部图就是图中的节点可以分成两个子集,而图中任意一条边的两个端点分别来源于这两个子集。一个二部图的例子如下图。从图中也可以看出,二部图的子集内部没有边连接。对于我们的推荐算法中的SimRank,则二部图中的两……