• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

标签:spark

spark获取指定分区数据

使用 mapPartitionsWithIndex 如下所示// Create (1, 1), (2, 2), ..., (100, 100) dataset// and partition by key so we know what to expectval rdd = sc.parallelize((1 to 100) map (i =&……

spark问题集锦

今天刚打了一个 jar 包放在 yarn 集群运行报了错误,干脆整个文章记录所有遇到的问题1、Lost Executor Due to Heartbeat TimeoutIf you see errors like the following:2016-10-09T19:56:51,174 - WARN [dispatcher-eve……

spark实现gbdt和lr

spark 对 python 开放的接口实在是有限,只有 scala 是亲生的。查了下 scala 的包和函数,发现提供的真全,博主从零开始撸 scala 代码,边写边查的节奏,给出以下 example 代码给大家参考import org.apache.spark.mllib.classification.LogisticRegressionWit……

技术篇-每日一篇0x1

前言在大数据计算领域,Spark 已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark 的功能涵盖了大数据领域的离线批处理、SQL 类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用 Spark。大多数同学(包括笔者在内),最初开始尝试使用 Spark 的原……

slope one python版与spark sql版本代码分享

slopeone 原理Slope One  是一种很简单的类比类似的算法, 其实大体意思 就是 A B 不同的用户 对不同的 item1 item2 打分那么 一个新用户 C 对 item 的打分,就是  该用户的打分 减去 其他用户打分的平均 就是 C 用户对未知 tem 的打分他有个很好的有点,数据少的时候效果也很好。useritem1……

spark训练rm推荐模型cholesky分解异常分析

最近隔壁的小伙伴跑模型出现了类似以下的错误,当然最主要的错误在下面的红色标识出来client token: N/Adiagnostics: User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in……

特征工程(6)-数据预处理数据变换

上一篇讲解了使用哑编码的方式来进行数据预处理,这篇文章看起来只是用来作为数据类型的转换,比如多项式操作或者自定义函数常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。2 个特征,度为 2 的多项式转换公式如下:$$ (x_1,x_2)=(1,x_1,x_2,x_1^2,x_1*x_2,x_2^2) $$sklearn 函数剖析from s……

特征工程(5)-数据预处理哑编码

上一篇讲解了数据二值化处理,这篇讲解数据的哑编码哑编码概念先来讲解下哑编码的概念吧,当你的变量不是定量特征的时候是无法拿去进行训练模型的,哑编码主要是针对定性的特征进行处理然后得到可以用来训练的特征关于定性和定量还是在这里也说明下,举个例子就可以看懂了定性:博主很胖博主很瘦定量博主有 80kg博主有 60kg(ps:好难啊)一般定性都会有……

特征工程(4)-数据预处理二值化

上一篇文章讲解了区间缩放法处理数据,接下来就讲解二值化处理这个应该很简单了,从字面意思就是将数据分为 0 或者 1,联想到之前图像处理里面二值化处理变为黑白图片下面还是进入主题吧首先给出当前的二值化处理公式:$$y = \left\{ \begin{array}{ll}0 & \textrm{if \(x<=\theta\)}\\……

特征工程(3)-数据预处理归一化

上一篇文章讲解了数据预处理区间缩放法,这篇文章主要讲解数据归一化处理既然讲到归一化和前面的标准化需要对比一下,首先二者处理的维度是不一样的,假设我们要处理的矩阵是 m*n 大小,m 个样本,n 维特征标准化处理的方式是以列为单位,也就是处理的对象是$$m*k    k={1……..n}$$归一化处理的方式却是以行为单位,处理的……

特征工程(2)-数据预处理区间缩放法

接上一篇文章无量纲标准化预处理数据标准化处理数据,这篇文章继续使用区间缩放法进行处理区间缩放法原理最常见的就是使用最大最下值来进行处理,处理的公式如下$$ y=\frac{x-min}{max-min}$$上述公式中 min 代表数据最小值,max 代表数据最大值from sklearn.preprocessing import MinMaxSc……

特征工程(1)-数据预处理标准化

机器学习中特征工程的构造分析,以前在这方便还是没有去全面的了解,最近有一段磨刀的时间,还是从基础学习开始,理论结合代码推进通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:不属于同一量纲,无量纲化处理:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。比如身高和年龄信息冗余:对于某些定量特征,其包含的有效信息为区间划分……

spark决策树API分析

此版本是 ml 版本,区别于 mllib 版本的决策树 api输入Param nameType(s)DefaultDescriptionlabelColDouble“label”标签featuresColVector“features”特征向量 输……

spark shell运行模式小记

集群经常会增加相应的 node 节点,但是相应的环境有没有及时更新,有的时候因为某个节点环境没有配置好导致程序跑挂了,所以有的时候需要本地模式仅在 driver 跑相应的测试代码,记录一下当前的几种运行模式本地模式Spark 单机运行,一般用于开发测试。Standalone 模式构建一个由 Master+Slave 构成的 Spark 集群,……

spark随机森林算法

spark 随机森林算法由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点,这便是随机森林算法的基本原理。图 1 给出了随机森林算法分类原理,从图中可以看到……

spark专题

spark 学习专题 ……

spark1.6 fp-growth序列化数据错误

Spark运行 FP-growth 异常报错在 spark1.4 版上尝试运行频繁子项挖掘算法是,照搬官方提供的Python案例源码时,爆出该错误 com.esotericsoftware.kryo.KryoException (Java.lang.IllegalArgumentException: Can not set final Scala.coll……

Spark RDD中的aggregate函数

刚开始看 spark 快速编程这本书的时候真的是没有理解这个函数的意思,后来看了博客再去看先关的 api 文档,现在基本上理解了该函数的意思。aggregate 主要先对单个分区进行聚合操作,在对所有的分区进行聚合操作,所以需要传递两个函数seqOp 操作会聚合各分区中的元素,然后 combOp 操作把所有分区的聚合结果再次聚合,两个操作的初始值都是 z……