注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

2017年08月的内容

Deep Learning TensorFlow实践:mnist手写识别(二)

mnist_inference.py实现参数设置,前向网络的计算:#!/usr/bin/python#-*- coding:utf-8 -*- ############################ #File Name: mnist_inference.py#Author: yang#Mail: milkyang20……

Deep Learning TensorFlow实践:mnist手写识别(一)

代码如下:#!/usr/bin/python#-*- coding:utf-8 -*- ############################ #File Name: Softmax_Regression.py#Author: yang#Mail: milkyang2008@126.com #Created Time……

随机森林python

博主尝试对一个数据集使用构建一个二分类随机森林,所有特征都是连续属性,也尝试画一下随机森林的流程图代码# -*- coding: utf-8 -*-#-------------------#@Author: cuijian #-------------------import pandas as pdimport numpy a……

特征选择(7)-基于树模型的选择

上一篇文章使用基于模型的方法进行特征选择,其中主要描述了使用正则项、lasso等方法实现的特征选择,这篇文章是这个主题的最后一篇,主要是通过树模型来选择特征。常见的决策树模型原理基本知道,从单棵树到多棵树,过渡到随机森林和GBDT,这些在实际中都有很大用途,尤其是在陈天奇博士的xgboost中,完全将决策树提升到一个新的层次。sklearn函数剖析&n……

特征选择(6)-嵌入式选择(embedded)

上一篇讲解了使用基于递归消除法,从大范围来讲是通过wrapper的方法,中文就是包装的方法,递归消除是这其中主要的方法,还有其他类似GA等启发式搜索方法。从根本上来说基于wrapper是一种搜索方式,将当前的特征组合作为待搜索的大集合,然后在其中找出最优的特征组合然后返回结果。区别于wrapper方法,embedded方法是在选定模型的情况下,选取出对模型……

特征选择(5)-递归消除法

上一篇文章使用最大信息系数筛选特征,本篇使用递归消除法筛选特征。递归消除法,首先递归肯定是要循环执行多次来筛选特征,原理上首先要指定一个基模型,这个模型可以是lr或者decisionTree都可以,套用sklearn官方的说法First, the estimator is trained on the initial set of features an……

特征选择(4)-最大信息系数方法

上一篇使用卡方系数进行特征选择,使用的是假设检验的思路,这篇文章使用最大信息系数的方法进行计算。为什么要使用mic?MIC的优越性根据MIC的性质,MIC具有普适性、公平性和对称性。所谓普适性,是指在样本量足够大(包含了样本的大部分信息)时,能够捕获各种各样的有趣的关联,而不限定于特定的函数类型(如线性函数、指数函数或周期函数),或者说能均衡覆盖所有的……

特征选择(3)-卡方检验

上一篇说明从皮尔逊系数选择,这次使用卡方检验的方法来选择特征,使用假设检验的方式。首先还是从卡方检验的原理,一切还是从白话文说起。一个案例:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了 515 个成年人,其中吸烟者 220 人,不吸烟者 295 人.调查结果是:吸烟的 220 人中有 37 人患呼吸道疾病(简称患病),183……

特征选择(2)-相关系数法

上一篇文章讲到使用方差选择特征,这篇文章主要是使用pearson系数进行特征选择使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值相关系数的计算公式如下:$$s=\frac{\sum_{i=0}^{n}(x_i-\overline{x})*(y_i-\overline{y})}{\sqrt{\sum_{i=0}^{n}(x_i-\ov……

特征选择(1)-方差选择法

方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大于阈值的特征。为什么方差可以用来选择特征?理论上是认为在样本集上如果当前特征基本上都差异不大,因此可以认为这个特征对我们区分样本贡献不大,因此可以在构造特征过程中可以将其去掉。sklearn函数剖析 from sklearn.fe……

特征选择

特征选择在机器学习中占据了重要的地位,通常在构造完特征之后会发现很多特征,少则十几个多则几十个,其实这些特征并不完全对我们构造的模型有益,也许其中只有部分特征会对我们的模型是最佳组合,因此我们需要筛选出相应的特征组合作为训练的特征。特征较多带来的问题:特征维数较高,训练模型会比较麻烦维数灾难,训练的模型效果不一定好且泛化能力较差因此需要特征选择的……

OS X上安装XGBoost

為了要讓XGBoost在mac上具有multi-threading的功能,我們必須另外安裝gcc首先安裝Homebrew/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"再來安裝gcc (預設位置在/usr/……

特征工程(6)-数据预处理数据变换

上一篇讲解了使用哑编码的方式来进行数据预处理,这篇文章看起来只是用来作为数据类型的转换,比如多项式操作或者自定义函数常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。2个特征,度为2的多项式转换公式如下:$$ (x_1,x_2)=(1,x_1,x_2,x_1^2,x_1*x_2,x_2^2) $$sklearn函数剖析from sklea……

特征工程(5)-数据预处理哑编码

上一篇讲解了数据二值化处理,这篇讲解数据的哑编码哑编码概念先来讲解下哑编码的概念吧,当你的变量不是定量特征的时候是无法拿去进行训练模型的,哑编码主要是针对定性的特征进行处理然后得到可以用来训练的特征关于定性和定量还是在这里也说明下,举个例子就可以看懂了定性:博主很胖博主很瘦定量博主有80kg博主有60kg(ps:好难啊)一般定性都会有相关……

特征工程(4)-数据预处理二值化

上一篇文章讲解了区间缩放法处理数据,接下来就讲解二值化处理这个应该很简单了,从字面意思就是将数据分为0或者1,联想到之前图像处理里面二值化处理变为黑白图片下面还是进入主题吧首先给出当前的二值化处理公式:$$y = \left\{ \begin{array}{ll}0 & \textrm{if \(x<=\theta\)}\\1&……