• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

标签:算法

推荐系统中融合特征排序两三事

推荐系统中融合特征排序两三事

一般情况下对于推荐输出的召回的候选集进行排序,ltr 排序这个也是大家经常使用的。lr+gbdt这个组合在 ctr 预估中已经被广泛使用了,当然在推荐结果的重排序中也发挥着重要的作用。如果直接将构造的特征向量输入到 lr 模型当中,每个特征都是单独的特征,各自之间没有什么联系。其实很多时候特征之间的组合的意义大于特征自身,因此 facebook 使用……

EM角度理解kmeans

EM角度理解kmeans

最近需要做一个国家区域的聚类分析,使用的是 kmeans 聚类方法,构造接近 900 维特征来进行聚类。使用 sklean 基本上就可以使用较少的代码来实现。中间使用过 TSNE 观察降维之后的特征在二维平面上的分布情况。kmeans 应该算是聚类算法中最简单的聚类算法了,在 spark 中也有其对应的实现。至于本篇文章的由来那就是归功于 LDA 的……

AUC推荐评价指标

AUC推荐评价指标

最近在极客时间上买了一个推荐三十六式的课程,作为一个推荐系统方面的新手,在这个课程上还是可以学习不少推荐方面的知识,今天在看到 BPR 的时候给出了 AUC 在衡量推荐结果指标这块的分析。乍一看 AUC 还可以干这事,至少之前是没想过的,以前都是使用 ROC 或者 AUC 来衡量监督学习的好坏,现在还可以用来衡量推荐算法的好坏。要分析这个就要从 AUC……

PersonalRank算法以及实现

PersonalRank算法以及实现

先举个例子上面的二部图表示 user A 对 item a 和 c 感兴趣,B 对 a b c d 都感兴趣,C 对 c 和 d 感兴趣。本文假设每条边代表的感兴趣程度是一样的。现在我们要为 user A 推荐 item,实际上就是计算 A 对所有 item 的感兴趣程度。在 personal rank 算法中不区分 user 节点和 item ……

ACM recsys十年回顾(转载)

ACM recsys十年回顾(转载)

ACM(国际计算机学会)主办的推荐系统专场(Recsys)是推荐系统圈子的顶级会议,从 2007 年开始,至今已经十年,这十年中每年都有 Tutorial 公布,本文整理出来,可以一探推荐系统的业界和学界兴趣点的迁移。十年回顾2007本年度并没有公开的 Tutorial,但从会议收录的文章主题,可以看到本届会议重点讨论的话题是:隐私和信任,协同过滤……

cart树ccp剪枝详细介绍

cart树ccp剪枝详细介绍

代价复杂度剪枝 Cost-Complexity Pruning(CCP)设初始\(k=0\),\(T=T_{0}\),\(\alpha\)为正无穷自上而下的计算\begin{align}g(t)&=\frac{R(t)-R(T_{t})}{|N_{T_{t}}|-1}\\\alpha&=min(\alpha,g(t))\end{a……

机器学习gridsearchcv(网格搜索)和kfold validation(k折验证)

机器学习gridsearchcv(网格搜索)和kfold validation(k折验证)

网格搜索算法和K 折交叉验证法是机器学习入门的时候遇到的重要的概念。网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法。以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,我们需要调整它的参数。在决策树算法中,我们通常选择的参数是决策树的最大深度。于是我们会给出一系列的最大深度的值,比如 {‘max_dep……

libsvm文件格式

libsvm文件格式

libsvm 数据格式libsvm 使用的训练数据和检验数据文件格式如下: [label] [index1]:[value1] [index2]:[value2] … [label] [index1]:[value1] [index2]:[value2] …label 目标值,就是说 class(属于哪一类),就是你要分类的种类,通常是一些整数。……

特征选择(1)-方差选择法

方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大于阈值的特征。为什么方差可以用来选择特征?理论上是认为在样本集上如果当前特征基本上都差异不大,因此可以认为这个特征对我们区分样本贡献不大,因此可以在构造特征过程中可以将其去掉。sklearn 函数剖析 from sklearn.f……

特征选择

特征选择在机器学习中占据了重要的地位,通常在构造完特征之后会发现很多特征,少则十几个多则几十个,其实这些特征并不完全对我们构造的模型有益,也许其中只有部分特征会对我们的模型是最佳组合,因此我们需要筛选出相应的特征组合作为训练的特征。特征较多带来的问题:特征维数较高,训练模型会比较麻烦维数灾难,训练的模型效果不一定好且泛化能力较差因此需要特征选择的……

hash table理解 转载

hash table理解 转载

在前面的系列文章中,依次介绍了基于无序列表的顺序查找,基于有序数组的二分查找,平衡查找树,以及红黑树,下图是他们在平均以及最差情况下的时间复杂度:可以看到在时间复杂度上,红黑树在平均情况下插入,查找以及删除上都达到了 lgN 的时间复杂度。那么有没有查找效率更高的数据结构呢,答案就是本文接下来要介绍了散列表,也叫哈希表(Hash Table)什么是……

map_reduce原理

进入大数据领域经常接触到的词汇就是 map /reduce,其实在这个在 python 中经常用到,比如处理一个 list 时,如果你要对每个元素进行相应的函数操作,就可以通过 map 的方式,当然你也可以通过生成烈表式来做,在大数据中区别还是在于分布式操作。转载一篇白话原理 http://blog.csdn.net/lifuxiangcaohui/art……

布隆过滤器-转载

布隆过滤器-转载

哈希 hash原理Hash (哈希,或者散列)函数在计算机领域,尤其是数据快速查找领域,加密领域用的极广。其作用是将一个大的数据集映射到一个小的数据集上面(这些小的数据集叫做哈希值,或者散列值)。一个应用是 Hash table(散列表,也叫哈希表),是根据哈希值 (Key value) 而直接进行访问的数据结构。也就是说,它通过把哈希值映射到表中一……

T-Test, F-Test, P Value & Significance Level(转载)

T-Test, F-Test, P Value & Significance Level(转载)

,T 检验和 F 检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果……

特征选择(2)–不变(单)特征选择

特征选择(2)–不变(单)特征选择

接上一篇文章特征选择(1)–基于方差Univariate feature selection works by selecting the best features based on univariate statistical tests. It can be seen as a preprocessing step to an estim……

特征选择(1)–基于方差

特征选择(1)–基于方差

特征选择博文均来自于 Sklearn 机器学习库,基本上对应翻译而来,训练模型的好坏一定程度上受特征提取的影响,因此特征提取是重要的一步。Removing features with low variance【去除方差较小的特征,说白了就是当前特征对应不同的个体而言特征值基本上都是相差不大,因此不具备区分能力】VarianceThreshold is ……

半监督学习0x1

半监督学习0x1

1. 引言在传统的监督学习中,学习器通过对大量有标记的(labeled)训练例进行学习,从而建立模型用于预测未见示例的标记。这里的“标记”(label)是指示例所对应的输出,在分类问题中标记就是示例的类别,而在回归问题中标记就是示例所对应的实值输出。随着数据收集和存储技术的飞速发展,收集大量未标记的(unlabeled)示例已相当容易,而获取大量有标记的示……

经典排序算法概念分析

经典排序算法概念分析

排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。本文将依次介绍上述八大排序算法。算法一:插入排序 插入排序示意图插入排序是一……