注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下
canopy聚类算法

canopy聚类算法

在k均值聚类,初始随机选取k个点作为中心点的方式在遇到离群点则得到的效果不好,当然你会说我们会尝试多次选取较好的初始数据,canopy可以解决上述初始点的选取问题,但是其自身的t1 t2选取也是一个头疼的问题,作者说要进行调参的方式,通过交叉验证来确定最优参数。。。黑线。。。canopy核心思想:1、给我一组存放在数组里面的数据D2、给我两个距离阈……

聚类笔记

聚类笔记

不同的聚类问题对于一个聚类问题,要挑选最适合最高效的算法必须对要解决的聚类问题本身进行剖析,下面我们就从几个侧面分析一下聚类问题的需求。聚类结果是排他的还是可重叠的为了很好理解这个问题,我们以一个例子进行分析,假设你的聚类问题需要得到二个簇:“喜欢詹姆斯卡梅隆电影的用户”和“不喜欢詹姆斯卡梅隆的用户”,这其实是一个排他的聚类问题,对于一个用户,他要么属……

cart树ccp剪枝详细介绍

cart树ccp剪枝详细介绍

代价复杂度剪枝Cost-Complexity Pruning(CCP)设初始\(k=0\),\(T=T_{0}\),\(\alpha\)为正无穷自上而下的计算\begin{align}g(t)&=\frac{R(t)-R(T_{t})}{|N_{T_{t}}|-1}\\\alpha&=min(\alpha,g(t))\end{al……

机器学习gridsearchcv(网格搜索)和kfold validation(k折验证)

机器学习gridsearchcv(网格搜索)和kfold validation(k折验证)

网格搜索算法和K折交叉验证法是机器学习入门的时候遇到的重要的概念。网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法。以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,我们需要调整它的参数。在决策树算法中,我们通常选择的参数是决策树的最大深度。于是我们会给出一系列的最大深度的值,比如 {‘max_dept……

libsvm文件格式

libsvm文件格式

libsvm数据格式libsvm使用的训练数据和检验数据文件格式如下: [label] [index1]:[value1] [index2]:[value2] … [label] [index1]:[value1] [index2]:[value2] …label 目标值,就是说class(属于哪一类),就是你要分类的种类,通常是一些整数。ind……

xgboost对one-hot编码特征特征选择时遇到的问题

xgboost对one-hot编码特征特征选择时遇到的问题

xgboost对所有的输入特征都是当做数值型对待,所以你给定的数据也要是指定的数据类型对于数据缺失或者稀疏,xgboost都可以自己处理纠结于one-hot编码问题主要是将分类信息转化为一定长度索引的二进制数据假设当前的数据类型是annimal={‘panda’,’cat’,’dog’}经过one-hot编码可能就变成[[1,0,0],[0,……

GB参数微调

GB参数微调

IntroductionIf you have been using GBM as a ‘black box’ till now, may be it’s time for you to open it and see, how it actually works!This article is inspired by Owen Zhang’s (Chi……

one-hot编码

one-hot编码

问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:[“male”, “female”][“from Europe”, “from US”, “from Asia”][“us……

机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion matrix)的工具,它可以帮助人们更好地了解分类中的错误。比如有这样一个在房子周围可能发现的动物类型的预测,这个预测的三类问题的混……

特征选择(1)-方差选择法

特征选择(1)-方差选择法

方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大于阈值的特征。为什么方差可以用来选择特征?理论上是认为在样本集上如果当前特征基本上都差异不大,因此可以认为这个特征对我们区分样本贡献不大,因此可以在构造特征过程中可以将其去掉。sklearn函数剖析 from sklearn.fe……

特征选择

特征选择

特征选择在机器学习中占据了重要的地位,通常在构造完特征之后会发现很多特征,少则十几个多则几十个,其实这些特征并不完全对我们构造的模型有益,也许其中只有部分特征会对我们的模型是最佳组合,因此我们需要筛选出相应的特征组合作为训练的特征。特征较多带来的问题:特征维数较高,训练模型会比较麻烦维数灾难,训练的模型效果不一定好且泛化能力较差因此需要特征选择的……