• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

特征工程(2)-数据预处理区间缩放法

bigdata admin 2年前 (2017-08-17) 2165次浏览 0个评论 扫描二维码

接上一篇文章无量纲标准化预处理数据标准化处理数据,这篇文章继续使用区间缩放法进行处理

区间缩放法原理

最常见的就是使用最大最下值来进行处理,处理的公式如下

$$ y=\frac{x-min}{max-min}$$

上述公式中 min 代表数据最小值,max 代表数据最大值

from sklearn.preprocessing import  MinMaxScaler
tmp=MinMaxScaler().fit_transform(irisdata.data)
print tmp[0:5]

部分结果如下:
[[ 0.22222222 0.625 0.06779661 0.04166667]
[ 0.16666667 0.41666667 0.06779661 0.04166667]
[ 0.11111111 0.5 0.05084746 0.04166667]
[ 0.08333333 0.45833333 0.08474576 0.04166667]
[ 0.19444444 0.66666667 0.06779661 0.04166667]]
spark 中的区间缩放法

>>>from pyspark.mllib.linalg import Vectors
>>>from pyspark.sql import SQLContext
>>>sqlContext=SQLContext(sc)
>>>df = sqlContext.createDataFrame([(Vectors.dense([0.0]),), (Vectors.dense([2.0]),)], ["a"])
>>> mmScaler = MinMaxScaler(inputCol="a", outputCol="scaled")
>>> model = mmScaler.fit(df)
>>> model.transform(df).show()
+-----+------+
|    a|scaled|
+-----+------+
|[0.0]| [0.0]|
|[2.0]| [1.0]|

Deeplearn, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明特征工程(2)-数据预处理区间缩放法
喜欢 (0)
admin
关于作者:
互联网行业码农一枚/业余铲屎官/数码影音爱好者/二次元

您必须 登录 才能发表评论!