注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

标签:算法

特征选择(1)-方差选择法

方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大于阈值的特征。为什么方差可以用来选择特征?理论上是认为在样本集上如果当前特征基本上都差异不大,因此可以认为这个特征对我们区分样本贡献不大,因此可以在构造特征过程中可以将其去掉。sklearn函数剖析 from sklearn.fe……

特征选择

特征选择在机器学习中占据了重要的地位,通常在构造完特征之后会发现很多特征,少则十几个多则几十个,其实这些特征并不完全对我们构造的模型有益,也许其中只有部分特征会对我们的模型是最佳组合,因此我们需要筛选出相应的特征组合作为训练的特征。特征较多带来的问题:特征维数较高,训练模型会比较麻烦维数灾难,训练的模型效果不一定好且泛化能力较差因此需要特征选择的……

hash table理解 转载

在前面的系列文章中,依次介绍了基于无序列表的顺序查找,基于有序数组的二分查找,平衡查找树,以及红黑树,下图是他们在平均以及最差情况下的时间复杂度:可以看到在时间复杂度上,红黑树在平均情况下插入,查找以及删除上都达到了lgN的时间复杂度。那么有没有查找效率更高的数据结构呢,答案就是本文接下来要介绍了散列表,也叫哈希表(Hash Table)什么是哈希表……

map_reduce原理

进入大数据领域经常接触到的词汇就是map /reduce,其实在这个在python中经常用到,比如处理一个list时,如果你要对每个元素进行相应的函数操作,就可以通过map的方式,当然你也可以通过生成烈表式来做,在大数据中区别还是在于分布式操作。转载一篇白话原理http://blog.csdn.net/lifuxiangcaohui/article/det……

布隆过滤器-转载

哈希 hash原理Hash (哈希,或者散列)函数在计算机领域,尤其是数据快速查找领域,加密领域用的极广。其作用是将一个大的数据集映射到一个小的数据集上面(这些小的数据集叫做哈希值,或者散列值)。一个应用是Hash table(散列表,也叫哈希表),是根据哈希值 (Key value) 而直接进行访问的数据结构。也就是说,它通过把哈希值映射到表中一个……

T-Test, F-Test, P Value & Significance Level(转载)

,T检验和F检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率……

特征选择(2)–不变(单)特征选择

接上一篇文章特征选择(1)–基于方差Univariate feature selection works by selecting the best features based on univariate statistical tests. It can be seen as a preprocessing step to an estim……

特征选择(1)–基于方差

特征选择博文均来自于Sklearn机器学习库,基本上对应翻译而来,训练模型的好坏一定程度上受特征提取的影响,因此特征提取是重要的一步。Removing features with low variance【去除方差较小的特征,说白了就是当前特征对应不同的个体而言特征值基本上都是相差不大,因此不具备区分能力】VarianceThreshold is a ……

半监督学习0x1

1. 引言在传统的监督学习中,学习器通过对大量有标记的(labeled)训练例进行学习,从而建立模型用于预测未见示例的标记。这里的“标记”(label)是指示例所对应的输出,在分类问题中标记就是示例的类别,而在回归问题中标记就是示例所对应的实值输出。随着数据收集和存储技术的飞速发展,收集大量未标记的(unlabeled)示例已相当容易,而获取大量有标记的示……

经典排序算法概念分析

排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。本文将依次介绍上述八大排序算法。算法一:插入排序 插入排序示意图插入排序是一种……

EMD经验模态分解

项目上的理论研究看到一种方法EMD+SVD方法识别,看了下EMD算法意义跟傅立叶变换差不多,也是将信号分解为不同的频率,但是区别与傅立叶无线长时间与小波变换选定小波基的问题,EMD给出了自适应分解方法。关于时间序列平稳性的一般理解:所谓时间序列的平稳性,一般指宽平稳,即时间序列的均值和方差为与时间无关的常数,其协方差与时间间隔有关而也与时间无关。简单地说……

机器学习导论–特征选择

为啥要进行特征选择?在学习训练模型的样本会包含许多特征属性,如果样本数量较大且属性较多,直接用于训练则出现数据量较大的情况,训练复杂大较大且训练出来的模型不一定很好,因此有必要在训练模型之前进行相应的子集选择和特征选择,减小训练复杂度,在不影响模型效果的基础上。特征选择方式目前了解的特征选择方式有三种,过滤式、包裹式和L1\L2正则化处理过滤式过滤……

机器学习导论–PCA理论

PCA理论基础要解释为什么协方差矩阵的特征向量就是k维理想特征,我看到的有三个理论:分别是最大方差理论、最小错误理论和坐标轴相关度理论。这里简单探讨前两种,最后一种在讨论PCA意义时简单概述。 最大方差理论在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在横轴上的投影方差较大,在纵轴上的投影……

数据中心化处理

作者:Spark链接:https://www.zhihu.com/question/37069477/answer/132387124来源:知乎著作权归作者所有,转载请联系作者获得授权。在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction)处理和标准化……

插值方法收集

一维插值插值不同于拟合。插值函数经过样本点,拟合函数一般基于最小二乘法尽量靠近所有样本点穿过。常见插值方法有拉格朗日插值法、分段插值法、样条插值法。拉格朗日插值多项式:当节点数n较大时,拉格朗日插值多项式的次数较高,可能出现不一致的收敛情况,而且计算复杂。随着样点增加,高次插值会带来误差的震动现象称为龙格现象。分段插值:虽然收敛,但光滑性较差。样条插……

朴素贝叶斯–Python实现西瓜数据判别

朴素贝叶斯概念在上一篇文章中讲到贝叶斯基本概念问题以及贝叶斯分类器的最优化问题,最优化的最终是要最大化后验概率估计,但是后验概率的计算涉及到联合概率分布,然而计算联合概率分布需要大量的样本,在实际的操作过程中根本无法达到,为了避开这个问题,朴素贝叶斯假设给定的分类对应的样本属性是相互独立的,从另外一个角度来说就是一个样本中包含的各种属性对其分类的结果影响是……

聚类分析经典算法

聚类分析经典算法讲解及实现本文将系统的讲解数据挖掘领域的经典聚类算法,并给予代码实现示例。虽然当下已有很多平台都集成了数据挖掘领域的经典算法模块,但笔者认为要深入理解算法的核心,剖析算法的执行过程,那么通过代码的实现及运行结果来进行算法的验证,这样的过程是很有必要的。因此本文,将有助于读者对经典聚类算法的深入学习与理解。前……

最大公共子序列

最近遇到了在SVM训练时核函数自定义问题,看了一些论文提出了基于LCSS最大公共子序列相似度核函数,回顾一下最大公共子序列最长公共子序列问题定义对给定序列 A 和 B, 满足以下条件的一个序列 C 被称为 A 和 B 的公共子序列:C 中每一个元素都对应 A 和 B 中一个元素从 C 中挑选两个元素 CiCi 和 CjCj ,其中 ii 和……