注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

标签:机器学习

canopy聚类算法

在k均值聚类,初始随机选取k个点作为中心点的方式在遇到离群点则得到的效果不好,当然你会说我们会尝试多次选取较好的初始数据,canopy可以解决上述初始点的选取问题,但是其自身的t1 t2选取也是一个头疼的问题,作者说要进行调参的方式,通过交叉验证来确定最优参数。。。黑线。。。canopy核心思想:1、给我一组存放在数组里面的数据D2、给我两个距离阈……

聚类笔记

不同的聚类问题对于一个聚类问题,要挑选最适合最高效的算法必须对要解决的聚类问题本身进行剖析,下面我们就从几个侧面分析一下聚类问题的需求。聚类结果是排他的还是可重叠的为了很好理解这个问题,我们以一个例子进行分析,假设你的聚类问题需要得到二个簇:“喜欢詹姆斯卡梅隆电影的用户”和“不喜欢詹姆斯卡梅隆的用户”,这其实是一个排他的聚类问题,对于一个用户,他要么属……

xgboost对one-hot编码特征特征选择时遇到的问题

xgboost对所有的输入特征都是当做数值型对待,所以你给定的数据也要是指定的数据类型对于数据缺失或者稀疏,xgboost都可以自己处理纠结于one-hot编码问题主要是将分类信息转化为一定长度索引的二进制数据假设当前的数据类型是annimal={‘panda’,’cat’,’dog’}经过one-hot编码可能就变成[[1,0,0],[0,……

one-hot编码

问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:[“male”, “female”][“from Europe”, “from US”, “from Asia”][“us……

机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion matrix)的工具,它可以帮助人们更好地了解分类中的错误。比如有这样一个在房子周围可能发现的动物类型的预测,这个预测的三类问题的混……

特征选择(1)-方差选择法

方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大于阈值的特征。为什么方差可以用来选择特征?理论上是认为在样本集上如果当前特征基本上都差异不大,因此可以认为这个特征对我们区分样本贡献不大,因此可以在构造特征过程中可以将其去掉。sklearn函数剖析 from sklearn.fe……

特征选择

特征选择在机器学习中占据了重要的地位,通常在构造完特征之后会发现很多特征,少则十几个多则几十个,其实这些特征并不完全对我们构造的模型有益,也许其中只有部分特征会对我们的模型是最佳组合,因此我们需要筛选出相应的特征组合作为训练的特征。特征较多带来的问题:特征维数较高,训练模型会比较麻烦维数灾难,训练的模型效果不一定好且泛化能力较差因此需要特征选择的……

Haar-like人脸检测

2001年viola和jones发表的论文《Robust Real Time Object Detection》是人脸检测的一个里程碑,用该方法识别图片或者视频中的人脸有比较高的检测率,不过人脸的姿势(非正脸),光照等其他因素的影响还是比较严重的影响到了检测率。下面我讲我浅薄的理解写下来,如果有误,还请大家指正:Haar-like检测器 = Haar-l……

机器学习数据集

1.西瓜数据集2.0123456789101112131415161718编号,色泽,根蒂,敲声,纹理,脐部,触感,好瓜1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,是2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,是4,青绿,蜷……

K均值最优k值选取

本文主要基于Anand Rajaraman和Jeffrey David Ullman合著,王斌翻译的《大数据-互联网大规模数据挖掘与分布式处理》一书。KMeans算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇……

T-Test, F-Test, P Value & Significance Level(转载)

,T检验和F检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率……

特征选择(2)–不变(单)特征选择

接上一篇文章特征选择(1)–基于方差Univariate feature selection works by selecting the best features based on univariate statistical tests. It can be seen as a preprocessing step to an estim……

特征选择(1)–基于方差

特征选择博文均来自于Sklearn机器学习库,基本上对应翻译而来,训练模型的好坏一定程度上受特征提取的影响,因此特征提取是重要的一步。Removing features with low variance【去除方差较小的特征,说白了就是当前特征对应不同的个体而言特征值基本上都是相差不大,因此不具备区分能力】VarianceThreshold is a ……

教你如何在机器学习竞赛中更胜一筹(下)(转载)

作者:Team Machine Learning,这是一个机器学习爱好者团队,他们热衷于建立一个希望在数据科学/机器学习方面建立事业的有抱负的年轻毕业生和专业人士的环境。上一节讲述了机器学习的一些知识点和工具,接下来的问题会更加现实。问答20.是否需要Kaggle排行榜顶尖的技能,也是你作为数据科学家日常工作所需的技能? 或者它们相交还是有些不同? ……

教你如何在机器学习竞赛中更胜一筹(上)(转载)

作者:Team Machine Learning,这是一个机器学习爱好者团队,他们热衷于建立一个有希望在数据科学/机器学习方面建立事业的有抱负的年轻毕业生和专业人士的环境。介绍机器学习很复杂。你可能会遇到一个令你无从下手的数据集,特别是当你处于机器学习的初期。在这个博客中,你将学到一些基本的关于建立机器学习模型的技巧,大多数人都从中获得经验。这些技巧由……

判别式和生成式

判别式模型与生成式模型的区别产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于:对于输入x,类别标签y:产生式模型估计它们的联合概率分布P(x,y)判别式模型估计条件概率分布P(y|x)产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。Andrew Ng在……

半监督学习0x1

1. 引言在传统的监督学习中,学习器通过对大量有标记的(labeled)训练例进行学习,从而建立模型用于预测未见示例的标记。这里的“标记”(label)是指示例所对应的输出,在分类问题中标记就是示例的类别,而在回归问题中标记就是示例所对应的实值输出。随着数据收集和存储技术的飞速发展,收集大量未标记的(unlabeled)示例已相当容易,而获取大量有标记的示……

机器学习导论–特征选择

为啥要进行特征选择?在学习训练模型的样本会包含许多特征属性,如果样本数量较大且属性较多,直接用于训练则出现数据量较大的情况,训练复杂大较大且训练出来的模型不一定很好,因此有必要在训练模型之前进行相应的子集选择和特征选择,减小训练复杂度,在不影响模型效果的基础上。特征选择方式目前了解的特征选择方式有三种,过滤式、包裹式和L1\L2正则化处理过滤式过滤……