• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下
Docker部署Familia相关问题解决方法

Docker部署Familia相关问题解决方法

百度的 Familia 提供了工业界主题向量的应用,现在应该很多的工业界项目中会应用到,也取得不错的效果。官方的文档还是写不够细致甚至还是有点小错误。github 上给出的 Docker 使用方法如下所示:Dockerdocker run -d \ --name familia \ -e MODEL_NAME=news \ ……

深度学习优化器-优化Tricks

深度学习优化器-优化Tricks

在前面两篇文章中,我们用一个框架梳理了各大优化算法,并且指出了以 Adam 为代表的自适应学习率优化算法可能存在的问题。那么,在实践中我们应该如何选择呢?本文介绍 Adam+SGD 的组合策略,以及一些比较有用的 tricks.回顾前文:Adam 那么棒,为什么还对 SGD 念念不忘 (1)Adam 那么棒,为什么还对 SGD 念念不忘 (2)不同……

深度学习优化器-Adam两宗罪

深度学习优化器-Adam两宗罪

在上篇文章中,我们用一个框架来回顾了主流的深度学习优化算法。可以看到,一代又一代的研究者们为了我们能炼(xun)好(hao)金(mo)丹(xing)可谓是煞费苦心。从理论上看,一代更比一代完善,Adam/Nadam 已经登峰造极了,为什么大家还是不忘初心 SGD 呢?举个栗子。很多年以前,摄影离普罗大众非常遥远。十年前,傻瓜相机开始风靡,游客几乎人手一个。……

深度学习优化器-一个框架看懂优化算法

深度学习优化器-一个框架看懂优化算法

机器学习界有一群炼丹师,他们每天的日常是:拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了。不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了,这出来的口味可是千差万别。火小了夹生,火大了易糊,火不匀则半生半糊。机器学习也是一样,模型优化算法的选择直接关系到最终模型的性能。有时候效果不好,未必是特征的……

深度学习为什么需要大数据?

深度学习为什么需要大数据?

这个是一个朋友面试时遇到的问题,这个问题个人觉得算是一个开放性的问题,同时需要你对深度学习有着宏观的认识,并且有相关的实践经验。深度学习给人直观的感觉就是模型复杂,超多的参数需要去学习,如果训练的样本比较少,那么很容易过拟合。附带可以联系到 bias 和 variance 的讨论,也是可以从 VC 维去理解。模型论证角度知乎上有一个回答,这里引用一下……

Embedding向量化的一些理解

Embedding向量化的一些理解

:grin:有个同事某一天问我 embedding 向量化的过程,巴拉巴拉一堆,在日常写代码就两步构建向量矩阵查询但是向量化的真正意图是什么?或者说为什么要进行向量化?个人觉得应该先从 onehot 说起,在日常的工程中经常会遇到各种各样的 id 类特征,这些特征类别量很大,比如用户的 id 会有好多亿,如果你直接使用 onehot 那么你的特征……

GRU原理白话解析

GRU原理白话解析

接上一篇描述 RNN 网络说道 gradient vanish 的问题,要解决这个问题,那么 gru/lstm 是解决其问题的,说的抽象一点是解决这个问题,实在一点就是要解决记忆问题。基本原理假设给你一个很长很长的文章,一开始你读了很多行还记得前面写了啥,大概描述内容都记得,但是越往后面渐渐的你发现之前的内容是啥记得不太清了,gru 就可以帮助你一直记住……

MTL有效性

MTL有效性

我们假设我们有两个相关的任务 A 和 B,依赖一个共享的隐藏层表示 F。1、Implicit data augmentationMTL 可以有效增加用于模型训练的样本量。由于所有任务难免会有一些噪声,当我们在任务 A 上训练模型, 我们的目标是学习针对任务 A 的一个好的表示,可以完全避免依赖数据的噪音,而且泛化效果好。由于不同的任务有不同的噪声模式,一……

RNN模型入门

RNN模型入门

研究这 RNN,还是要为后面的 Attention 相关服务的,以前的工程里面也用过对特征使用 Attention 机制,但是业务场景只是使用而已,最近要去研究 NLP 相关通用能力,与 NLP 相关的基础算法都要去了解一下。这个也不是 RNN 的基础详细解释,毕竟网上的文章都是随处可以看到了,这个也是自己到处看看然后自己做个简单的笔记记录吧!RNN 循……

word2vec到bert发展史

word2vec到bert发展史

Bert 最近很火,应该是最近最火爆的 AI 进展,网上的评价很高,那么 Bert 值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多 NLP 的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是 Bert 具备广泛……

DCN网络浅析

DCN网络浅析

在 CTR 预估领域出现了很多模型,之前看过一篇微信文章讲述十大经典 CTR 模型,DCN 就是其中一个模型,估计很多公司都已经将其应用到自己的业务场景中了。最早的 wide&deep 网络,对 wide 部分特征的要求是很高的,超高维特征加上线性模型是可以去的不错的效果,主要是模型会简单并且可解释性会很好,对于 wide&deep 其实对……

浅谈机器学习共线性问题

浅谈机器学习共线性问题

这两天组里有同事在做特征分析这块的工作的时候其实会涉及到特征共线性问题,所以趁这个机会也去理解一下这个概念,说实话以前也没太在意这个问题。先看下共线性的基本概念多重共线性(Multicollinearity)是指线性回归模型中的自变量之间由于存在高度相关关系而使模型的权重参数估计失真或难以估计准确的一种特性,多重是指一个自变量可能与多个其他自变量之间……

rbm受限波兹曼算法理解

rbm受限波兹曼算法理解

本文主要是参考了http://blog.echen.me/2011/07/18/introduction-to-restricted-boltzmann-machines/ 这篇文章,这个文章从二分因子的角度去理解,真的是讲得清新脱俗。背景:假设你要求一群用户从 0-100 分来给一组电影打分。在经典的因子分析中,你可以尝试依据一组隐藏因子来解释每部电影及……

Xgbfi特征重要性分析(xgboost扩展)

Xgbfi特征重要性分析(xgboost扩展)

Xgbfi用于训练好的 xgboost 模型分析对应特征的重要性,当然你也可以使用 fmap 来观察What is Xgbfi?Xgbfi is a XGBoost model dump parser, which ranks features as well as feature interactions by different metrics.……

威尔逊置信区间排序

威尔逊置信区间排序

对于召回的一些数据如何给这些数据来排名,然后根据这个排名来显示数据,这就需要使用“威尔逊区间”了。 首先我们讨论的情况是每个项目只有两种选择,且项目之间是相互独立的,就是项目符合“二项分布”的。 如[1]中所举的例子中可以看出,无论得分情况为得分 = 赞成票 – 反对票还是得分 = 赞成票 / 全部票都会出现错误的情况。 有一种计算得……

LightGbm之直方图优化理解

LightGbm之直方图优化理解

简单介绍一下吧,lightgbm 是微软推出的 gbdt 相关的机器学习库,一开源就受到很多开发者的喜爱吧,主要是运行速度快并且节省内存,同时训练的精度也很高,感觉集中了所有的优势。在此之前用陈天奇的 xgboost 居多,也是神器。xgboost 采用了预排序的方法来处理节点分裂,在计算机领域要么就是空间换时间,或者时间换空间(这个也不是绝对,你可以通过某……

beta分布原理

beta分布原理

说道这个分布,之前有段时间再看 LDA 的原理了解过,最近组内用人用贝叶斯和威尔逊区间等用于 CTR 平滑做推荐排序,目前 ABTEST 效果不是太好,提升也不是太大。然后分析了下不好的原因,顺带了解了下其中涉及到的这个 BETA 分布内容。相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta 分布的。用一……

cpt序列预测

cpt序列预测

序列预测是当前深度学习最火热的应用之一。从搭建推荐系统到语音识别再到自然语言处理,序列预测有着广泛的应用前景。实现序列预测有很多不同的方法,比如利用机器学习中的马尔科夫模型/有向图,深度学习领域中的 RNN/LSTM 等等。在本文我们会用一种叫做紧凑预测树(Compact Prediction Tree,即 CPT)的算法。虽然知道这种算法的人并不多,但它……