• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下
Xgbfi特征重要性分析(xgboost扩展)

Xgbfi特征重要性分析(xgboost扩展)

Xgbfi用于训练好的 xgboost 模型分析对应特征的重要性,当然你也可以使用 fmap 来观察What is Xgbfi?Xgbfi is a XGBoost model dump parser, which ranks features as well as feature interactions by different metrics.……

威尔逊置信区间排序

威尔逊置信区间排序

对于召回的一些数据如何给这些数据来排名,然后根据这个排名来显示数据,这就需要使用“威尔逊区间”了。 首先我们讨论的情况是每个项目只有两种选择,且项目之间是相互独立的,就是项目符合“二项分布”的。 如[1]中所举的例子中可以看出,无论得分情况为得分 = 赞成票 – 反对票还是得分 = 赞成票 / 全部票都会出现错误的情况。 有一种计算得……

LightGbm之直方图优化理解

LightGbm之直方图优化理解

简单介绍一下吧,lightgbm 是微软推出的 gbdt 相关的机器学习库,一开源就受到很多开发者的喜爱吧,主要是运行速度快并且节省内存,同时训练的精度也很高,感觉集中了所有的优势。在此之前用陈天奇的 xgboost 居多,也是神器。xgboost 采用了预排序的方法来处理节点分裂,在计算机领域要么就是空间换时间,或者时间换空间(这个也不是绝对,你可以通过某……

beta分布原理

beta分布原理

说道这个分布,之前有段时间再看 LDA 的原理了解过,最近组内用人用贝叶斯和威尔逊区间等用于 CTR 平滑做推荐排序,目前 ABTEST 效果不是太好,提升也不是太大。然后分析了下不好的原因,顺带了解了下其中涉及到的这个 BETA 分布内容。相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta 分布的。用一……

cpt序列预测

cpt序列预测

序列预测是当前深度学习最火热的应用之一。从搭建推荐系统到语音识别再到自然语言处理,序列预测有着广泛的应用前景。实现序列预测有很多不同的方法,比如利用机器学习中的马尔科夫模型/有向图,深度学习领域中的 RNN/LSTM 等等。在本文我们会用一种叫做紧凑预测树(Compact Prediction Tree,即 CPT)的算法。虽然知道这种算法的人并不多,但它……

hash table理解 转载

hash table理解 转载

在前面的系列文章中,依次介绍了基于无序列表的顺序查找,基于有序数组的二分查找,平衡查找树,以及红黑树,下图是他们在平均以及最差情况下的时间复杂度:可以看到在时间复杂度上,红黑树在平均情况下插入,查找以及删除上都达到了 lgN 的时间复杂度。那么有没有查找效率更高的数据结构呢,答案就是本文接下来要介绍了散列表,也叫哈希表(Hash Table)什么是……

布隆过滤器-转载

布隆过滤器-转载

哈希 hash原理Hash (哈希,或者散列)函数在计算机领域,尤其是数据快速查找领域,加密领域用的极广。其作用是将一个大的数据集映射到一个小的数据集上面(这些小的数据集叫做哈希值,或者散列值)。一个应用是 Hash table(散列表,也叫哈希表),是根据哈希值 (Key value) 而直接进行访问的数据结构。也就是说,它通过把哈希值映射到表中一……

经典排序算法概念分析

经典排序算法概念分析

排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。本文将依次介绍上述八大排序算法。算法一:插入排序 插入排序示意图插入排序是一……

EMD经验模态分解

EMD经验模态分解

项目上的理论研究看到一种方法 EMD+SVD 方法识别,看了下 EMD 算法意义跟傅立叶变换差不多,也是将信号分解为不同的频率,但是区别与傅立叶无线长时间与小波变换选定小波基的问题,EMD 给出了自适应分解方法。关于时间序列平稳性的一般理解:所谓时间序列的平稳性,一般指宽平稳,即时间序列的均值和方差为与时间无关的常数,其协方差与时间间隔有关而也与时间无关……

插值方法收集

插值方法收集

一维插值插值不同于拟合。插值函数经过样本点,拟合函数一般基于最小二乘法尽量靠近所有样本点穿过。常见插值方法有拉格朗日插值法、分段插值法、样条插值法。拉格朗日插值多项式:当节点数 n 较大时,拉格朗日插值多项式的次数较高,可能出现不一致的收敛情况,而且计算复杂。随着样点增加,高次插值会带来误差的震动现象称为龙格现象。分段插值:虽然收敛,但光滑性较差。样……

双线性插值(Bilinear Interpolation)

双线性插值(Bilinear Interpolation)

插值算法在很多方面都可以用到比如数据精确度计算、图像处理等方面,今天就来看看吧! 1. 线性插值已知坐标 (x0, y0) 与 (x1, y1),要得到 [x0, x1] 区间内某一位置 x 在直线上的值。由于 x 值已知,所以可以从公式得到 y 的值已知 y 求 x 的过程与以上过程相同,只是 x 与 y 要进行……

Cordic之Log与Ln

Cordic之Log与Ln

This page describes a couple of algorithms for computing the elementary mathematical functions log(x) (logarithm to the base e) and exp(x) (e to the power x). The algorithms avoid ……

Cordic算法之log应用

Cordic算法之log应用

#includeusing namespace std;int fxlog(int x) { int t, y; y = 0x157cd3; if (x < 0x00008000) x <<= 16, y -= 0xb1721; if (x < 0x00800000) x <<= 8, ……

DP动态规划(Python实现)

DP动态规划(Python实现)

前言 _我们遇到的问题中,有很大一部分可以用动态规划(简称 DP)来解。 解决这类问题可以很大地提升你的能力与技巧,我会试着帮助你理解如何使用 DP 来解题。 这篇文章是基于实例展开来讲的,因为干巴巴的理论实在不好理解。注意:如果你对于其中某一节已经了解并且不想阅读它,没关系,直接跳过它即可。简介(入门)什么是动态规划,我们要如何描述它?动态规划算……