• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下
GRU原理白话解析

GRU原理白话解析

接上一篇描述 RNN 网络说道 gradient vanish 的问题,要解决这个问题,那么 gru/lstm 是解决其问题的,说的抽象一点是解决这个问题,实在一点就是要解决记忆问题。基本原理假设给你一个很长很长的文章,一开始你读了很多行还记得前面写了啥,大概描述内容都记得,但是越往后面渐渐的你发现之前的内容是啥记得不太清了,gru 就可以帮助你一直记住……

MTL有效性

MTL有效性

我们假设我们有两个相关的任务 A 和 B,依赖一个共享的隐藏层表示 F。1、Implicit data augmentationMTL 可以有效增加用于模型训练的样本量。由于所有任务难免会有一些噪声,当我们在任务 A 上训练模型, 我们的目标是学习针对任务 A 的一个好的表示,可以完全避免依赖数据的噪音,而且泛化效果好。由于不同的任务有不同的噪声模式,一……

RNN模型入门

RNN模型入门

研究这 RNN,还是要为后面的 Attention 相关服务的,以前的工程里面也用过对特征使用 Attention 机制,但是业务场景只是使用而已,最近要去研究 NLP 相关通用能力,与 NLP 相关的基础算法都要去了解一下。这个也不是 RNN 的基础详细解释,毕竟网上的文章都是随处可以看到了,这个也是自己到处看看然后自己做个简单的笔记记录吧!RNN 循……

word2vec到bert发展史

word2vec到bert发展史

Bert 最近很火,应该是最近最火爆的 AI 进展,网上的评价很高,那么 Bert 值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多 NLP 的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是 Bert 具备广泛……

DCN网络浅析

DCN网络浅析

在 CTR 预估领域出现了很多模型,之前看过一篇微信文章讲述十大经典 CTR 模型,DCN 就是其中一个模型,估计很多公司都已经将其应用到自己的业务场景中了。最早的 wide&deep 网络,对 wide 部分特征的要求是很高的,超高维特征加上线性模型是可以去的不错的效果,主要是模型会简单并且可解释性会很好,对于 wide&deep 其实对……

浅谈机器学习共线性问题

浅谈机器学习共线性问题

这两天组里有同事在做特征分析这块的工作的时候其实会涉及到特征共线性问题,所以趁这个机会也去理解一下这个概念,说实话以前也没太在意这个问题。先看下共线性的基本概念多重共线性(Multicollinearity)是指线性回归模型中的自变量之间由于存在高度相关关系而使模型的权重参数估计失真或难以估计准确的一种特性,多重是指一个自变量可能与多个其他自变量之间……

rbm受限波兹曼算法理解

rbm受限波兹曼算法理解

本文主要是参考了http://blog.echen.me/2011/07/18/introduction-to-restricted-boltzmann-machines/ 这篇文章,这个文章从二分因子的角度去理解,真的是讲得清新脱俗。背景:假设你要求一群用户从 0-100 分来给一组电影打分。在经典的因子分析中,你可以尝试依据一组隐藏因子来解释每部电影及……

Xgbfi特征重要性分析(xgboost扩展)

Xgbfi特征重要性分析(xgboost扩展)

Xgbfi用于训练好的 xgboost 模型分析对应特征的重要性,当然你也可以使用 fmap 来观察What is Xgbfi?Xgbfi is a XGBoost model dump parser, which ranks features as well as feature interactions by different metrics.……

威尔逊置信区间排序

威尔逊置信区间排序

对于召回的一些数据如何给这些数据来排名,然后根据这个排名来显示数据,这就需要使用“威尔逊区间”了。 首先我们讨论的情况是每个项目只有两种选择,且项目之间是相互独立的,就是项目符合“二项分布”的。 如[1]中所举的例子中可以看出,无论得分情况为得分 = 赞成票 – 反对票还是得分 = 赞成票 / 全部票都会出现错误的情况。 有一种计算得……

LightGbm之直方图优化理解

LightGbm之直方图优化理解

简单介绍一下吧,lightgbm 是微软推出的 gbdt 相关的机器学习库,一开源就受到很多开发者的喜爱吧,主要是运行速度快并且节省内存,同时训练的精度也很高,感觉集中了所有的优势。在此之前用陈天奇的 xgboost 居多,也是神器。xgboost 采用了预排序的方法来处理节点分裂,在计算机领域要么就是空间换时间,或者时间换空间(这个也不是绝对,你可以通过某……

beta分布原理

beta分布原理

说道这个分布,之前有段时间再看 LDA 的原理了解过,最近组内用人用贝叶斯和威尔逊区间等用于 CTR 平滑做推荐排序,目前 ABTEST 效果不是太好,提升也不是太大。然后分析了下不好的原因,顺带了解了下其中涉及到的这个 BETA 分布内容。相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta 分布的。用一……

cpt序列预测

cpt序列预测

序列预测是当前深度学习最火热的应用之一。从搭建推荐系统到语音识别再到自然语言处理,序列预测有着广泛的应用前景。实现序列预测有很多不同的方法,比如利用机器学习中的马尔科夫模型/有向图,深度学习领域中的 RNN/LSTM 等等。在本文我们会用一种叫做紧凑预测树(Compact Prediction Tree,即 CPT)的算法。虽然知道这种算法的人并不多,但它……

hash table理解 转载

hash table理解 转载

在前面的系列文章中,依次介绍了基于无序列表的顺序查找,基于有序数组的二分查找,平衡查找树,以及红黑树,下图是他们在平均以及最差情况下的时间复杂度:可以看到在时间复杂度上,红黑树在平均情况下插入,查找以及删除上都达到了 lgN 的时间复杂度。那么有没有查找效率更高的数据结构呢,答案就是本文接下来要介绍了散列表,也叫哈希表(Hash Table)什么是……

布隆过滤器-转载

布隆过滤器-转载

哈希 hash原理Hash (哈希,或者散列)函数在计算机领域,尤其是数据快速查找领域,加密领域用的极广。其作用是将一个大的数据集映射到一个小的数据集上面(这些小的数据集叫做哈希值,或者散列值)。一个应用是 Hash table(散列表,也叫哈希表),是根据哈希值 (Key value) 而直接进行访问的数据结构。也就是说,它通过把哈希值映射到表中一……

经典排序算法概念分析

经典排序算法概念分析

排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排序算法有:插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。本文将依次介绍上述八大排序算法。算法一:插入排序 插入排序示意图插入排序是一……

EMD经验模态分解

EMD经验模态分解

项目上的理论研究看到一种方法 EMD+SVD 方法识别,看了下 EMD 算法意义跟傅立叶变换差不多,也是将信号分解为不同的频率,但是区别与傅立叶无线长时间与小波变换选定小波基的问题,EMD 给出了自适应分解方法。关于时间序列平稳性的一般理解:所谓时间序列的平稳性,一般指宽平稳,即时间序列的均值和方差为与时间无关的常数,其协方差与时间间隔有关而也与时间无关……

插值方法收集

插值方法收集

一维插值插值不同于拟合。插值函数经过样本点,拟合函数一般基于最小二乘法尽量靠近所有样本点穿过。常见插值方法有拉格朗日插值法、分段插值法、样条插值法。拉格朗日插值多项式:当节点数 n 较大时,拉格朗日插值多项式的次数较高,可能出现不一致的收敛情况,而且计算复杂。随着样点增加,高次插值会带来误差的震动现象称为龙格现象。分段插值:虽然收敛,但光滑性较差。样……

双线性插值(Bilinear Interpolation)

双线性插值(Bilinear Interpolation)

插值算法在很多方面都可以用到比如数据精确度计算、图像处理等方面,今天就来看看吧! 1. 线性插值已知坐标 (x0, y0) 与 (x1, y1),要得到 [x0, x1] 区间内某一位置 x 在直线上的值。由于 x 值已知,所以可以从公式得到 y 的值已知 y 求 x 的过程与以上过程相同,只是 x 与 y 要进行……