注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

最新发布 第2页

算法之道机器学习、Python和算法爱好者

特征选择(1)-方差选择法

方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大于阈值的特征。为什么方差可以用来选择特征?理论上是认为在样本集上如果当前特征基本上都差异不大,因此可以认为这个特征对我们区分样本贡献不大,因此可以在构造特征过程中可以将其去掉。sklearn函数剖析 from sklearn.fe……

特征选择

特征选择在机器学习中占据了重要的地位,通常在构造完特征之后会发现很多特征,少则十几个多则几十个,其实这些特征并不完全对我们构造的模型有益,也许其中只有部分特征会对我们的模型是最佳组合,因此我们需要筛选出相应的特征组合作为训练的特征。特征较多带来的问题:特征维数较高,训练模型会比较麻烦维数灾难,训练的模型效果不一定好且泛化能力较差因此需要特征选择的……

OS X上安装XGBoost

為了要讓XGBoost在mac上具有multi-threading的功能,我們必須另外安裝gcc首先安裝Homebrew/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"再來安裝gcc (預設位置在/usr/……

特征工程(6)-数据预处理数据变换

上一篇讲解了使用哑编码的方式来进行数据预处理,这篇文章看起来只是用来作为数据类型的转换,比如多项式操作或者自定义函数常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。2个特征,度为2的多项式转换公式如下:$$ (x_1,x_2)=(1,x_1,x_2,x_1^2,x_1*x_2,x_2^2) $$sklearn函数剖析from sklea……

特征工程(5)-数据预处理哑编码

上一篇讲解了数据二值化处理,这篇讲解数据的哑编码哑编码概念先来讲解下哑编码的概念吧,当你的变量不是定量特征的时候是无法拿去进行训练模型的,哑编码主要是针对定性的特征进行处理然后得到可以用来训练的特征关于定性和定量还是在这里也说明下,举个例子就可以看懂了定性:博主很胖博主很瘦定量博主有80kg博主有60kg(ps:好难啊)一般定性都会有相关……

特征工程(4)-数据预处理二值化

上一篇文章讲解了区间缩放法处理数据,接下来就讲解二值化处理这个应该很简单了,从字面意思就是将数据分为0或者1,联想到之前图像处理里面二值化处理变为黑白图片下面还是进入主题吧首先给出当前的二值化处理公式:$$y = \left\{ \begin{array}{ll}0 & \textrm{if \(x<=\theta\)}\\1&……

特征工程(3)-数据预处理归一化

上一篇文章讲解了数据预处理区间缩放法,这篇文章主要讲解数据归一化处理既然讲到归一化和前面的标准化需要对比一下,首先二者处理的维度是不一样的,假设我们要处理的矩阵是m*n大小,m个样本,n维特征标准化处理的方式是以列为单位,也就是处理的对象是$$m*k    k={1……..n}$$归一化处理的方式却是以行为单位,处理的对象如下……

特征工程(2)-数据预处理区间缩放法

接上一篇文章无量纲标准化预处理数据标准化处理数据,这篇文章继续使用区间缩放法进行处理区间缩放法原理最常见的就是使用最大最下值来进行处理,处理的公式如下$$ y=\frac{x-min}{max-min}$$上述公式中min代表数据最小值,max代表数据最大值from sklearn.preprocessing import MinMaxScale……

特征工程(1)-数据预处理标准化

机器学习中特征工程的构造分析,以前在这方便还是没有去全面的了解,最近有一段磨刀的时间,还是从基础学习开始,理论结合代码推进通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:不属于同一量纲,无量纲化处理:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。比如身高和年龄信息冗余:对于某些定量特征,其包含的有效信息为区间划分……

spark决策树API分析

此版本是ml版本,区别于mllib版本的决策树api输入Param nameType(s)DefaultDescriptionlabelColDouble“label”标签featuresColVector“features”特征向量 输出……

spark shell运行模式小记

集群经常会增加相应的node节点,但是相应的环境有没有及时更新,有的时候因为某个节点环境没有配置好导致程序跑挂了,所以有的时候需要本地模式仅在driver跑相应的测试代码,记录一下当前的几种运行模式本地模式Spark单机运行,一般用于开发测试。Standalone模式构建一个由Master+Slave构成的Spark集群,Spark运行在集群……

spark随机森林算法

spark随机森林算法由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点,这便是随机森林算法的基本原理。图 1给出了随机森林算法分类原理,从图中可以看到,随……

BluePrint概念

Blueprints先备份下这篇文章,这篇文章解释了我当前web app架构的疑惑,算是对flask又有了一点了解What is a blueprint?A blueprint defines a collection of views, templates, static files and other elements that can be ……

pandas之series小记

Series is a one-dimensional labeled array capable of holding any data type (integers, strings, floating point numbers, Python objects, etc.). The axis labels are collectively refer……

numpy广播机制

The term broadcasting describes how numpy treats arrays with different shapes during arithmetic operations. Subjectto certain constraints, the smaller array is “broadcast” across ……