注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下
机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion matrix)的工具,它可以帮助人们更好地了解分类中的错误。比如有这样一个在房子周围可能发现的动物类型的预测,这个预测的三类问题的混……

特征选择(1)-方差选择法

特征选择(1)-方差选择法

方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大于阈值的特征。为什么方差可以用来选择特征?理论上是认为在样本集上如果当前特征基本上都差异不大,因此可以认为这个特征对我们区分样本贡献不大,因此可以在构造特征过程中可以将其去掉。sklearn函数剖析 from sklearn.fe……

特征选择

特征选择

特征选择在机器学习中占据了重要的地位,通常在构造完特征之后会发现很多特征,少则十几个多则几十个,其实这些特征并不完全对我们构造的模型有益,也许其中只有部分特征会对我们的模型是最佳组合,因此我们需要筛选出相应的特征组合作为训练的特征。特征较多带来的问题:特征维数较高,训练模型会比较麻烦维数灾难,训练的模型效果不一定好且泛化能力较差因此需要特征选择的……

机器学习专题

机器学习专题

博客新增专题模块 ,该页面提供专题内所有文章导航华丽丽的分割线1、机器学习导论(2)–梯度下降法2、最小二乘与最大似然参数估计及Python实现3、Tensorflow for Line Regression4、机器学习中分类任务的两种模型5、机器学习:Logistics回归与线性回归对比6、机器学习分类判别方法(一):Fisher线性判别……

机器学习数据集

机器学习数据集

1.西瓜数据集2.0123456789101112131415161718编号,色泽,根蒂,敲声,纹理,脐部,触感,好瓜1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,是2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,是4,青绿,蜷……

K均值最优k值选取

K均值最优k值选取

本文主要基于Anand Rajaraman和Jeffrey David Ullman合著,王斌翻译的《大数据-互联网大规模数据挖掘与分布式处理》一书。KMeans算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇……

T-Test, F-Test, P Value & Significance Level(转载)

T-Test, F-Test, P Value & Significance Level(转载)

,T检验和F检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率……

特征选择(2)–不变(单)特征选择

特征选择(2)–不变(单)特征选择

接上一篇文章特征选择(1)–基于方差Univariate feature selection works by selecting the best features based on univariate statistical tests. It can be seen as a preprocessing step to an estim……