• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

2018年02月的内容

ACM recsys十年回顾(转载)

ACM recsys十年回顾(转载)

ACM(国际计算机学会)主办的推荐系统专场(Recsys)是推荐系统圈子的顶级会议,从 2007 年开始,至今已经十年,这十年中每年都有 Tutorial 公布,本文整理出来,可以一探推荐系统的业界和学界兴趣点的迁移。十年回顾2007本年度并没有公开的 Tutorial,但从会议收录的文章主题,可以看到本届会议重点讨论的话题是:隐私和信任,协同过滤……

L1和L2正则化白话解析

L1和L2正则化白话解析

使用 L1 和 L2 正则化的使用,在许多代价函数中经常出现,也许你知道了 L1 会产生稀疏解,L2 会防止过拟合之类的结果,这篇文章博主带你其中的秘密l1 和 l2 简单介绍这篇文章有简单的介绍,这篇文章也会在讲一讲L1 正则化和 L2 正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用 L1 正……

GBDT和LR结合使用分析

GBDT和LR结合使用分析

GBDT+LR 的特征组合方案是工业界经常使用的组合,尤其是计算广告 CTR 中应用比较广泛,方案的提出者是 Facebook 2014 的一篇论文。相关的开发工具包,sklearn 和 xgboost(ps:xgboost 是一个大杀器,并且支持 hadoop 分布式,你可以部署实现分布式操作,博主部署过,布置过程较为负责,尤其是环境变量的各种设置)……

笛卡尔积特征组合

笛卡尔积特征组合

特征组合也是特征工程中经常使用的构造新特征的方法,如果你的组合特征基数比较大的化,就不建议使用笛卡尔积的方法了,因为构造的结果是指数级的,组合太多对结果的效果不一定好(注意本文的红字部分吧,好多人知道怎么去构造,那么对应的特征值如何获取,自己在网上搜了搜资料不是太多)特征组合是一个充满了智慧和经验的领域,花样繁多,令人赞叹。这里说一种常规的方法:笛卡尔积……

逻辑回归与最大熵之间关系

逻辑回归与最大熵之间关系

关于这两个之间的关系推导也有很多篇文章,现在从一个稍微简单的地方推导最大熵和逻辑回归之间的关系最大熵定义了在给定变量 x 之后对应的条件分布\[ P(y|x,\theta)=\frac{exp^{\theta*f(x,y)}}{\sum_{y \in D_y}^{}exp^{\theta*f(x,y)}} \]假设我们设定 y 的是二元变量,也就是只有……

为什么逻辑回归比线性回归要好?

为什么逻辑回归比线性回归要好?

虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层 sigmoid 函数(非线性)映射,即先把特征线性求和,然后使用 sigmoid 函数来预测。然而,正是这个简单的逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星。下面我们来谈谈逻辑回归与线性回归的异同点吧。假设随 Tumor Size……

逻辑回归最大似然与最小化损失函数

逻辑回归最大似然与最小化损失函数

逻辑回归中极大似然函数与最小化对数损失函数本质上是一致,现在就开始论证Log损失函数的标准形式$$L(Y,P(Y|X))=-logP(Y|X)$$使用极大似然估计,公式中涉及到数的连乘,如果使用对数可以将其转化为加减法,方便运算在逻辑回归中P(Y|X)的公式定义如下所示 \[ P(Y=y|x)= \begin{cases}h_\the……

canopy聚类算法

canopy聚类算法

在 k 均值聚类,初始随机选取 k 个点作为中心点的方式在遇到离群点则得到的效果不好,当然你会说我们会尝试多次选取较好的初始数据,canopy 可以解决上述初始点的选取问题,但是其自身的 t1 t2 选取也是一个头疼的问题,作者说要进行调参的方式,通过交叉验证来确定最优参数。。。黑线。。。canopy 核心思想:1、给我一组存放在数组里面的数据 D……

聚类笔记

聚类笔记

不同的聚类问题对于一个聚类问题,要挑选最适合最高效的算法必须对要解决的聚类问题本身进行剖析,下面我们就从几个侧面分析一下聚类问题的需求。聚类结果是排他的还是可重叠的为了很好理解这个问题,我们以一个例子进行分析,假设你的聚类问题需要得到二个簇:“喜欢詹姆斯卡梅隆电影的用户”和“不喜欢詹姆斯卡梅隆的用户”,这其实是一个排他的聚类问题,对于一个用户,他要么属……

slope one python版与spark sql版本代码分享

slopeone 原理Slope One  是一种很简单的类比类似的算法, 其实大体意思 就是 A B 不同的用户 对不同的 item1 item2 打分那么 一个新用户 C 对 item 的打分,就是  该用户的打分 减去 其他用户打分的平均 就是 C 用户对未知 tem 的打分他有个很好的有点,数据少的时候效果也很好。useritem1……