注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

标签:spark

特征工程(6)-数据预处理数据变换

上一篇讲解了使用哑编码的方式来进行数据预处理,这篇文章看起来只是用来作为数据类型的转换,比如多项式操作或者自定义函数常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。2个特征,度为2的多项式转换公式如下:$$ (x_1,x_2)=(1,x_1,x_2,x_1^2,x_1*x_2,x_2^2) $$sklearn函数剖析from sklea……

特征工程(5)-数据预处理哑编码

上一篇讲解了数据二值化处理,这篇讲解数据的哑编码哑编码概念先来讲解下哑编码的概念吧,当你的变量不是定量特征的时候是无法拿去进行训练模型的,哑编码主要是针对定性的特征进行处理然后得到可以用来训练的特征关于定性和定量还是在这里也说明下,举个例子就可以看懂了定性:博主很胖博主很瘦定量博主有80kg博主有60kg(ps:好难啊)一般定性都会有相关……

特征工程(4)-数据预处理二值化

上一篇文章讲解了区间缩放法处理数据,接下来就讲解二值化处理这个应该很简单了,从字面意思就是将数据分为0或者1,联想到之前图像处理里面二值化处理变为黑白图片下面还是进入主题吧首先给出当前的二值化处理公式:$$y = \left\{ \begin{array}{ll}0 & \textrm{if \(x<=\theta\)}\\1&……

特征工程(3)-数据预处理归一化

上一篇文章讲解了数据预处理区间缩放法,这篇文章主要讲解数据归一化处理既然讲到归一化和前面的标准化需要对比一下,首先二者处理的维度是不一样的,假设我们要处理的矩阵是m*n大小,m个样本,n维特征标准化处理的方式是以列为单位,也就是处理的对象是$$m*k    k={1……..n}$$归一化处理的方式却是以行为单位,处理的对象如下……

特征工程(2)-数据预处理区间缩放法

接上一篇文章无量纲标准化预处理数据标准化处理数据,这篇文章继续使用区间缩放法进行处理区间缩放法原理最常见的就是使用最大最下值来进行处理,处理的公式如下$$ y=\frac{x-min}{max-min}$$上述公式中min代表数据最小值,max代表数据最大值from sklearn.preprocessing import MinMaxScale……

特征工程(1)-数据预处理标准化

机器学习中特征工程的构造分析,以前在这方便还是没有去全面的了解,最近有一段磨刀的时间,还是从基础学习开始,理论结合代码推进通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:不属于同一量纲,无量纲化处理:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。比如身高和年龄信息冗余:对于某些定量特征,其包含的有效信息为区间划分……

spark决策树API分析

此版本是ml版本,区别于mllib版本的决策树api输入Param nameType(s)DefaultDescriptionlabelColDouble“label”标签featuresColVector“features”特征向量 输出……

spark shell运行模式小记

集群经常会增加相应的node节点,但是相应的环境有没有及时更新,有的时候因为某个节点环境没有配置好导致程序跑挂了,所以有的时候需要本地模式仅在driver跑相应的测试代码,记录一下当前的几种运行模式本地模式Spark单机运行,一般用于开发测试。Standalone模式构建一个由Master+Slave构成的Spark集群,Spark运行在集群……

spark随机森林算法

spark随机森林算法由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点,这便是随机森林算法的基本原理。图 1给出了随机森林算法分类原理,从图中可以看到,随……

spark专题

spark学习专题 ……

spark1.6 fp-growth序列化数据错误

Spark运行FP-growth异常报错在spark1.4版上尝试运行频繁子项挖掘算法是,照搬官方提供的Python案例源码时,爆出该错误com.esotericsoftware.kryo.KryoException (Java.lang.IllegalArgumentException: Can not set final Scala.collectio……

Spark RDD中的aggregate函数

刚开始看spark快速编程这本书的时候真的是没有理解这个函数的意思,后来看了博客再去看先关的api文档,现在基本上理解了该函数的意思。aggregate主要先对单个分区进行聚合操作,在对所有的分区进行聚合操作,所以需要传递两个函数seqOp操作会聚合各分区中的元素,然后combOp操作把所有分区的聚合结果再次聚合,两个操作的初始值都是zeroValue.……

Spark mlib协同过滤算法中文翻译

最近看了下spark协同过滤的api,并根据提供的代码写了一版商品推荐代码,现在将当前的模块一些api函数翻译一下,万一有人需要呢,这个也是说不准,也加强自己对其的理解吧,大数据之路走起来pyspark.mllib.recommendation module中文翻译class pyspark.mllib.recommendation.MatrixFac……

Spark读取csv跳首行

目前开发的版本的是spark1.6,因此很多最新的api无法使用,典型的就是读取csv文件无法跳过首行,现在给出我现在使用的方法,不过对于多文件可能会出现一定的错误 data = sc.textFile('path_to_data')header = data.first() #extract headerdat……

spark-yarn集群python异常

今天在spark yarn集群上面跑代码发现出现import numpy error ,提示没有相应的模块,其实在当前节点上是已经安装好了python开发环境,后面查找了下原因,在其他节点上没有相应的环境配置,需要admin去修改环境配置以及环境变量的设置,确保所有的节点都是一样的环境。……

spark rdd保存单个文件问题

之前在spark上面跑一个代码,但是输出的结果想拿出来分析顺便画个图表征,因此就想把数据保存到一个文件上面去,网上一搜一大堆保存到一个文件的方法,基本上都是互相抄袭,设置啥分区为一个,保存的名字为一个txt之类的介绍,真TM误人啊!实际上spark在调用saveAsTextFile默认你传入的参数是路径,即使你写的是txt文件名也会变成一个路径不信的话你……

ubuntu16.04下spark2.1.0安装

简述Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。由于sp……