• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

标签:算法

PersonalRank算法以及实现

PersonalRank算法以及实现

先举个例子上面的二部图表示 user A 对 item a 和 c 感兴趣,B 对 a b c d 都感兴趣,C 对 c 和 d 感兴趣。本文假设每条边代表的感兴趣程度是一样的。现在我们要为 user A 推荐 item,实际上就是计算 A 对所有 item 的感兴趣程度。在 personal rank 算法中不区分 user 节点和 item ……

ACM recsys十年回顾(转载)

ACM recsys十年回顾(转载)

ACM(国际计算机学会)主办的推荐系统专场(Recsys)是推荐系统圈子的顶级会议,从 2007 年开始,至今已经十年,这十年中每年都有 Tutorial 公布,本文整理出来,可以一探推荐系统的业界和学界兴趣点的迁移。十年回顾2007本年度并没有公开的 Tutorial,但从会议收录的文章主题,可以看到本届会议重点讨论的话题是:隐私和信任,协同过滤……

cart树ccp剪枝详细介绍

cart树ccp剪枝详细介绍

代价复杂度剪枝 Cost-Complexity Pruning(CCP)设初始\(k=0\),\(T=T_{0}\),\(\alpha\)为正无穷自上而下的计算\begin{align}g(t)&=\frac{R(t)-R(T_{t})}{|N_{T_{t}}|-1}\\\alpha&=min(\alpha,g(t))\end{a……

机器学习gridsearchcv(网格搜索)和kfold validation(k折验证)

机器学习gridsearchcv(网格搜索)和kfold validation(k折验证)

网格搜索算法和K 折交叉验证法是机器学习入门的时候遇到的重要的概念。网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法。以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,我们需要调整它的参数。在决策树算法中,我们通常选择的参数是决策树的最大深度。于是我们会给出一系列的最大深度的值,比如 {‘max_dep……

libsvm文件格式

libsvm文件格式

libsvm 数据格式libsvm 使用的训练数据和检验数据文件格式如下: [label] [index1]:[value1] [index2]:[value2] … [label] [index1]:[value1] [index2]:[value2] …label 目标值,就是说 class(属于哪一类),就是你要分类的种类,通常是一些整数。……

特征选择(1)-方差选择法

方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大于阈值的特征。为什么方差可以用来选择特征?理论上是认为在样本集上如果当前特征基本上都差异不大,因此可以认为这个特征对我们区分样本贡献不大,因此可以在构造特征过程中可以将其去掉。sklearn 函数剖析 from sklearn.f……

特征选择

特征选择在机器学习中占据了重要的地位,通常在构造完特征之后会发现很多特征,少则十几个多则几十个,其实这些特征并不完全对我们构造的模型有益,也许其中只有部分特征会对我们的模型是最佳组合,因此我们需要筛选出相应的特征组合作为训练的特征。特征较多带来的问题:特征维数较高,训练模型会比较麻烦维数灾难,训练的模型效果不一定好且泛化能力较差因此需要特征选择的……

hash table理解 转载

hash table理解 转载

在前面的系列文章中,依次介绍了基于无序列表的顺序查找,基于有序数组的二分查找,平衡查找树,以及红黑树,下图是他们在平均以及最差情况下的时间复杂度:可以看到在时间复杂度上,红黑树在平均情况下插入,查找以及删除上都达到了 lgN 的时间复杂度。那么有没有查找效率更高的数据结构呢,答案就是本文接下来要介绍了散列表,也叫哈希表(Hash Table)什么是……

map_reduce原理

进入大数据领域经常接触到的词汇就是 map /reduce,其实在这个在 python 中经常用到,比如处理一个 list 时,如果你要对每个元素进行相应的函数操作,就可以通过 map 的方式,当然你也可以通过生成烈表式来做,在大数据中区别还是在于分布式操作。转载一篇白话原理 http://blog.csdn.net/lifuxiangcaohui/art……

布隆过滤器-转载

布隆过滤器-转载

哈希 hash原理Hash (哈希,或者散列)函数在计算机领域,尤其是数据快速查找领域,加密领域用的极广。其作用是将一个大的数据集映射到一个小的数据集上面(这些小的数据集叫做哈希值,或者散列值)。一个应用是 Hash table(散列表,也叫哈希表),是根据哈希值 (Key value) 而直接进行访问的数据结构。也就是说,它通过把哈希值映射到表中一……

T-Test, F-Test, P Value & Significance Level(转载)

T-Test, F-Test, P Value & Significance Level(转载)

,T 检验和 F 检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果……

特征选择(2)–不变(单)特征选择

特征选择(2)–不变(单)特征选择

接上一篇文章特征选择(1)–基于方差Univariate feature selection works by selecting the best features based on univariate statistical tests. It can be seen as a preprocessing step to an estim……

特征选择(1)–基于方差

特征选择(1)–基于方差

特征选择博文均来自于 Sklearn 机器学习库,基本上对应翻译而来,训练模型的好坏一定程度上受特征提取的影响,因此特征提取是重要的一步。Removing features with low variance【去除方差较小的特征,说白了就是当前特征对应不同的个体而言特征值基本上都是相差不大,因此不具备区分能力】VarianceThreshold is ……

半监督学习0x1

半监督学习0x1

1. 引言在传统的监督学习中,学习器通过对大量有标记的(labeled)训练例进行学习,从而建立模型用于预测未见示例的标记。这里的“标记”(label)是指示例所对应的输出,在分类问题中标记就是示例的类别,而在回归问题中标记就是示例所对应的实值输出。随着数据收集和存储技术的飞速发展,收集大量未标记的(unlabeled)示例已相当容易,而获取大量有标记的示……

经典排序算法概念分析

经典排序算法概念分析

排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。本文将依次介绍上述八大排序算法。算法一:插入排序 插入排序示意图插入排序是一……

EMD经验模态分解

EMD经验模态分解

项目上的理论研究看到一种方法 EMD+SVD 方法识别,看了下 EMD 算法意义跟傅立叶变换差不多,也是将信号分解为不同的频率,但是区别与傅立叶无线长时间与小波变换选定小波基的问题,EMD 给出了自适应分解方法。关于时间序列平稳性的一般理解:所谓时间序列的平稳性,一般指宽平稳,即时间序列的均值和方差为与时间无关的常数,其协方差与时间间隔有关而也与时间无关……

机器学习导论–特征选择

机器学习导论–特征选择

为啥要进行特征选择?在学习训练模型的样本会包含许多特征属性,如果样本数量较大且属性较多,直接用于训练则出现数据量较大的情况,训练复杂大较大且训练出来的模型不一定很好,因此有必要在训练模型之前进行相应的子集选择和特征选择,减小训练复杂度,在不影响模型效果的基础上。特征选择方式目前了解的特征选择方式有三种,过滤式、包裹式和 L1\L2 正则化处理过滤式……

机器学习导论–PCA理论

机器学习导论–PCA理论

PCA 理论基础要解释为什么协方差矩阵的特征向量就是 k 维理想特征,我看到的有三个理论:分别是最大方差理论、最小错误理论和坐标轴相关度理论。这里简单探讨前两种,最后一种在讨论 PCA 意义时简单概述。 最大方差理论在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在横轴上的投影方差较大,在纵……