• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

最新发布 第5页

算法之道机器学习、Python和算法爱好者

二部图解析以及python代码实现

二部图解析以及python代码实现

许多网站都喜欢让用户点击“喜欢/不喜欢”,“顶/反对”,也正是这种很简单的信息也可以利用起来对用户进行推荐!这里介绍一种基于网络结构的推荐系统!由于推荐系统深深植根于互联网,用户与用户之间,商品与商品之间,用户与商品之间都存在某种联系,把用户和商品都看作节点,他(它)们之间的联系看作是边,那么就很自然地构建出一个网络图,所以很多研究者利用这个网络图进行个性……

Numpy数组解惑(转载)

一、Numpy1.1 轴、维度及秩1.1.1 轴numpy 数组中的轴不太容易理解,但是却非常重要。官方定义为:轴即维度(In Numpy dimensions are called axes.)。对于二维数组,0 轴即代表数组的行,1 轴代表数组的列,对二维数组:>>>arr1 = np.array([[1, 2, 3], [……

softmax回归分析

softmax回归分析

Softmax 是 Logistic 回归在多分类上的推广,即类标签 y 的取值大于等于 2。假设有 m 个训练样本\( {(x(1),y(1)),(x(2),y(2)),\ldots,(x(m),y(m))} \),对于 Softmax 回归,其输入特征为:\(x(i) \in \Re_n+1 \),类标记为:\(y(i) \in {0,1,\ldot……

快速熟悉numpy,101 个 NumPy 的常用代码

The goal of the numpy exercises is to serve as a reference as well as to get you to apply numpy beyond the basics. The questions are of 4 levels of difficulties with L1 being the e……

ACM recsys十年回顾(转载)

ACM recsys十年回顾(转载)

ACM(国际计算机学会)主办的推荐系统专场(Recsys)是推荐系统圈子的顶级会议,从 2007 年开始,至今已经十年,这十年中每年都有 Tutorial 公布,本文整理出来,可以一探推荐系统的业界和学界兴趣点的迁移。十年回顾2007本年度并没有公开的 Tutorial,但从会议收录的文章主题,可以看到本届会议重点讨论的话题是:隐私和信任,协同过滤……

L1和L2正则化白话解析

L1和L2正则化白话解析

使用 L1 和 L2 正则化的使用,在许多代价函数中经常出现,也许你知道了 L1 会产生稀疏解,L2 会防止过拟合之类的结果,这篇文章博主带你其中的秘密l1 和 l2 简单介绍这篇文章有简单的介绍,这篇文章也会在讲一讲L1 正则化和 L2 正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用 L1 正……

GBDT和LR结合使用分析

GBDT和LR结合使用分析

GBDT+LR 的特征组合方案是工业界经常使用的组合,尤其是计算广告 CTR 中应用比较广泛,方案的提出者是 Facebook 2014 的一篇论文。相关的开发工具包,sklearn 和 xgboost(ps:xgboost 是一个大杀器,并且支持 hadoop 分布式,你可以部署实现分布式操作,博主部署过,布置过程较为负责,尤其是环境变量的各种设置)……

笛卡尔积特征组合

笛卡尔积特征组合

特征组合也是特征工程中经常使用的构造新特征的方法,如果你的组合特征基数比较大的化,就不建议使用笛卡尔积的方法了,因为构造的结果是指数级的,组合太多对结果的效果不一定好(注意本文的红字部分吧,好多人知道怎么去构造,那么对应的特征值如何获取,自己在网上搜了搜资料不是太多)特征组合是一个充满了智慧和经验的领域,花样繁多,令人赞叹。这里说一种常规的方法:笛卡尔积……

逻辑回归与最大熵之间关系

逻辑回归与最大熵之间关系

关于这两个之间的关系推导也有很多篇文章,现在从一个稍微简单的地方推导最大熵和逻辑回归之间的关系最大熵定义了在给定变量 x 之后对应的条件分布\[ P(y|x,\theta)=\frac{exp^{\theta*f(x,y)}}{\sum_{y \in D_y}^{}exp^{\theta*f(x,y)}} \]假设我们设定 y 的是二元变量,也就是只有……

为什么逻辑回归比线性回归要好?

为什么逻辑回归比线性回归要好?

虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层 sigmoid 函数(非线性)映射,即先把特征线性求和,然后使用 sigmoid 函数来预测。然而,正是这个简单的逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星。下面我们来谈谈逻辑回归与线性回归的异同点吧。假设随 Tumor Size……

逻辑回归最大似然与最小化损失函数

逻辑回归最大似然与最小化损失函数

逻辑回归中极大似然函数与最小化对数损失函数本质上是一致,现在就开始论证Log损失函数的标准形式$$L(Y,P(Y|X))=-logP(Y|X)$$使用极大似然估计,公式中涉及到数的连乘,如果使用对数可以将其转化为加减法,方便运算在逻辑回归中P(Y|X)的公式定义如下所示 \[ P(Y=y|x)= \begin{cases}h_\the……

canopy聚类算法

canopy聚类算法

在 k 均值聚类,初始随机选取 k 个点作为中心点的方式在遇到离群点则得到的效果不好,当然你会说我们会尝试多次选取较好的初始数据,canopy 可以解决上述初始点的选取问题,但是其自身的 t1 t2 选取也是一个头疼的问题,作者说要进行调参的方式,通过交叉验证来确定最优参数。。。黑线。。。canopy 核心思想:1、给我一组存放在数组里面的数据 D……

聚类笔记

聚类笔记

不同的聚类问题对于一个聚类问题,要挑选最适合最高效的算法必须对要解决的聚类问题本身进行剖析,下面我们就从几个侧面分析一下聚类问题的需求。聚类结果是排他的还是可重叠的为了很好理解这个问题,我们以一个例子进行分析,假设你的聚类问题需要得到二个簇:“喜欢詹姆斯卡梅隆电影的用户”和“不喜欢詹姆斯卡梅隆的用户”,这其实是一个排他的聚类问题,对于一个用户,他要么属……

slope one python版与spark sql版本代码分享

slopeone 原理Slope One  是一种很简单的类比类似的算法, 其实大体意思 就是 A B 不同的用户 对不同的 item1 item2 打分那么 一个新用户 C 对 item 的打分,就是  该用户的打分 减去 其他用户打分的平均 就是 C 用户对未知 tem 的打分他有个很好的有点,数据少的时候效果也很好。useritem1……

学艺不精,python2反引号

看代码发现其中有一个字符串竟然是反引号生成的,里面还有 python 表达式,基本上字符串格式化不用这个语法糖,并且这个语法糖在 3.0 以后被取消了。。。。,仅此记录一下str、repr 和反引号是将 Python 值转换为字符串的 3 种方法。函数 str 让字符串更易于阅读,而 repr(和反引号)则把结果字符串转换为合法的 Python 表达式……

spark训练rm推荐模型cholesky分解异常分析

最近隔壁的小伙伴跑模型出现了类似以下的错误,当然最主要的错误在下面的红色标识出来client token: N/Adiagnostics: User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in……

scala偏函数

所谓偏函数(也叫部分函数)与完全函数对应,普通的方法都是完全函数,即 f(i:Int) = xxx 是将所有 Int 类型作为参数的,是对整个 Int 集的映射;而偏函数则是对部分数据的映射,比如上面{case 2=> “OK” }就仅仅只对 2 做了映射。偏函数的实现都是通过模式匹配来表达的。构建一个偏函数 p,并 map 到它:……

scala语法糖之括号论

初学 scala,看着 scala 入门教程,看的越多,大括号还有小括号需要深入了解一下如果你要调用的函数有两个或两个以上的参数,那么你只能使用“小括号”请看下面的示例:scala> var add = (x: Int,y: Int) => x + yadd: (Int, Int) => Int =scala> add(1,……