注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

canopy聚类算法

在k均值聚类,初始随机选取k个点作为中心点的方式在遇到离群点则得到的效果不好,当然你会说我们会尝试多次选取较好的初始数据,canopy可以解决上述初始点的选取问题,但是其自身的t1 t2选取也是一个头疼的问题,作者说要进行调参的方式,通过交叉验证来确定最优参数。。。黑线。。。canopy核心思想:1、给我一组存放在数组里面的数据D2、给我两个距离阈……

聚类笔记

不同的聚类问题对于一个聚类问题,要挑选最适合最高效的算法必须对要解决的聚类问题本身进行剖析,下面我们就从几个侧面分析一下聚类问题的需求。聚类结果是排他的还是可重叠的为了很好理解这个问题,我们以一个例子进行分析,假设你的聚类问题需要得到二个簇:“喜欢詹姆斯卡梅隆电影的用户”和“不喜欢詹姆斯卡梅隆的用户”,这其实是一个排他的聚类问题,对于一个用户,他要么属……

slope one python版与spark sql版本代码分享

slopeone原理Slope One  是一种很简单的类比类似的算法, 其实大体意思 就是A B 不同的用户 对不同的 item1 item2 打分那么 一个新用户C 对item的打分,就是  该用户的打分 减去 其他用户打分的平均 就是C用户对未知tem的打分他有个很好的有点,数据少的时候效果也很好。useritem1item2A……

学艺不精,python2反引号

看代码发现其中有一个字符串竟然是反引号生成的,里面还有python表达式,基本上字符串格式化不用这个语法糖,并且这个语法糖在3.0以后被取消了。。。。,仅此记录一下str、repr和反引号是将Python值转换为字符串的3种方法。函数str让字符串更易于阅读,而repr(和反引号)则把结果字符串转换为合法的Python表达式>>> ……

spark训练rm推荐模型cholesky分解异常分析

最近隔壁的小伙伴跑模型出现了类似以下的错误,当然最主要的错误在下面的红色标识出来client token: N/Adiagnostics: User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in……

scala偏函数

所谓偏函数(也叫部分函数)与完全函数对应,普通的方法都是完全函数,即 f(i:Int) = xxx 是将所有Int类型作为参数的,是对整个Int集的映射;而偏函数则是对部分数据的映射,比如上面{case 2=> “OK” }就仅仅只对2做了映射。偏函数的实现都是通过模式匹配来表达的。构建一个偏函数p,并map到它:scala&……

scala语法糖之括号论

初学scala,看着scala入门教程,看的越多,大括号还有小括号需要深入了解一下如果你要调用的函数有两个或两个以上的参数,那么你只能使用“小括号”请看下面的示例:scala> var add = (x: Int,y: Int) => x + yadd: (Int, Int) => Int =scala> add(1,2)……

hive动态分区读写数据遇到的问题

1、map和reduce个数设置的问题map和reduce的个数不是越多越好,因为启动时都会消耗很长的时间,而且也要考虑资源问题。因此需要控制保证合适的个数用于执行任务–默认一个map的大小是100m,当然可以调整为500m或者1g都可以,根据实际情况调整set mapred.max.split.size=100000000;se……

cart树ccp剪枝详细介绍

代价复杂度剪枝Cost-Complexity Pruning(CCP)设初始\(k=0\),\(T=T_{0}\),\(\alpha\)为正无穷自上而下的计算\begin{align}g(t)&=\frac{R(t)-R(T_{t})}{|N_{T_{t}}|-1}\\\alpha&=min(\alpha,g(t))\end{al……

hive sql执行顺序以及相关例子

日常使用的数据查询工具都是hive,了解一下hive sql执行顺序,其实与mysql之间的差异不是太大,参考mysql的执行顺序,hive的执行顺序如下fromonjoinwheregroup byhavingselectdistinctunionorder by举例explainselectcity,ad_type,devi……

一次小失误记录sql count

这篇文章会出现是因为在统计一个数据的时候随手写了count,一时忘记count对null的处理,类似其他的空字符串也是不涵盖的,所以copy一篇过来记录一下SQL COUNT() 函数COUNT() 函数返回匹配指定条件的行数。SQL COUNT() 语法SQL COUNT(column_name) 语法COUNT(column_name) ……

机器学习gridsearchcv(网格搜索)和kfold validation(k折验证)

网格搜索算法和K折交叉验证法是机器学习入门的时候遇到的重要的概念。网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法。以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,我们需要调整它的参数。在决策树算法中,我们通常选择的参数是决策树的最大深度。于是我们会给出一系列的最大深度的值,比如 {‘max_dept……

概率密度函数

在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。当概率密度函数存在的时候,累积分布函数是概率密度函数的积分。概率密度函数一般以大写“PDF”(Probability Density Func……

seaborn小试牛刀-数据可视化

View the code on Gist.……

seaborn小试牛刀-颜色设置

View the code on Gist.……

seaborn小试牛刀-样式设置

View the code on Gist.……

pandas删除列

方法一:直接del DF[‘column-name’]方法二:采用drop方法,有下面三种等价的表达式:1. DF= DF.drop(‘column_name’, 1);2. DF.drop(‘column_name’,axis=1, inplace=True)3. DF.dro……