• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下
深度召回工程实践

深度召回工程实践

新业务线上现在有很多种召回策略,在线和离线都有,使用深度召回期望能召回与用户更相关并且感兴趣的物品。这几天页研究了下当前深度召回的常见方法。目前主要看了两个算法,一个是谷歌的 Youtube DNN 深度召回 ,另外一个是 DSSM 召回。这两个的原理其实都不是太复杂,还是以工程实践且效果综合判断,这篇主要是从工程实践这块谈下自己的理解。Youtube ……

Faiss接触的这段时间

Faiss接触的这段时间

引言关于faiss的使用也是在使用embedding相似度召回的时候接触到,的确是一个高效的计算相似度的方案,由FB推出,业界使用的也是比较多。对于faiss的使用我日常使用就是调接口,因为特征平台组都帮我封装好了,更新索引/实时添加索引/查询/监控等都做的比较完善了,去年也去听过一场PPT汇报,大概还是有点印象。如今有个小业务要交界处去,也牵扯到这个……

self attention 使用的一小段经历

self attention 使用的一小段经历

引子大名鼎鼎的NLP论文《all in attention》诠释了attention的厉害。attention这种注意力机制的确在一些自然语言任务如机器翻译等取得了非凡的成就。Bert 的出现横扫业界主流评测数据集上的得分,当然这也跟transformer架构有关,这里面也是存在attention。去年组内同事花了两个晚上大约4小时给我们讲解 bert ……

机器学习id类特征实用性

机器学习id类特征实用性

ID类特征在很多应用场景下都会遇到,电商里面的物品id,信息流里面资讯id,用户的id等等。id 类特征可以直接onehot编码使用,也可以进行embedding使用,前者是巨大的稀疏onehot编码向量,后者面临embedding varaiable 问题。提到这个id类特征是我在进行baseline模型训练的时候前后对比,发现在AUC上竟然可以提升一个点……

关于图像去重的一点研究

关于图像去重的一点研究

最近在看一些图像去重的一些方法,网上一搜就会看到phash、dhash和ahash等基于哈希方法的去重算法,这一点跟文本上的simhash和minhash有着“相似”的处理逻辑。phash具体处理逻辑如下所示:缩小尺寸 为了后边的步骤计算简单些简化色彩 将图片转化成灰度图像,进一步简化计算量计算DCT 计算图片的DCT变换,得到32*32的DC……

Docker部署Familia相关问题解决方法

Docker部署Familia相关问题解决方法

百度的Familia提供了工业界主题向量的应用,现在应该很多的工业界项目中会应用到,也取得不错的效果。官方的文档还是写不够细致甚至还是有点小错误。github上给出的Docker使用方法如下所示:Dockerdocker run -d \ --name familia \ -e MODEL_NAME=news \ -p 5……

深度学习优化器-优化Tricks

深度学习优化器-优化Tricks

在前面两篇文章中,我们用一个框架梳理了各大优化算法,并且指出了以Adam为代表的自适应学习率优化算法可能存在的问题。那么,在实践中我们应该如何选择呢?本文介绍Adam+SGD的组合策略,以及一些比较有用的tricks.回顾前文:Adam那么棒,为什么还对SGD念念不忘 (1)Adam那么棒,为什么还对SGD念念不忘 (2)不同优化算法的核心差异:下……

深度学习优化器-Adam两宗罪

深度学习优化器-Adam两宗罪

在上篇文章中,我们用一个框架来回顾了主流的深度学习优化算法。可以看到,一代又一代的研究者们为了我们能炼(xun)好(hao)金(mo)丹(xing)可谓是煞费苦心。从理论上看,一代更比一代完善,Adam/Nadam已经登峰造极了,为什么大家还是不忘初心SGD呢?举个栗子。很多年以前,摄影离普罗大众非常遥远。十年前,傻瓜相机开始风靡,游客几乎人手一个。智能手……

深度学习优化器-一个框架看懂优化算法

深度学习优化器-一个框架看懂优化算法

机器学习界有一群炼丹师,他们每天的日常是:拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了。不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了,这出来的口味可是千差万别。火小了夹生,火大了易糊,火不匀则半生半糊。机器学习也是一样,模型优化算法的选择直接关系到最终模型的性能。有时候效果不好,未必是特征的……

深度学习为什么需要大数据?

深度学习为什么需要大数据?

这个是一个朋友面试时遇到的问题,这个问题个人觉得算是一个开放性的问题,同时需要你对深度学习有着宏观的认识,并且有相关的实践经验。深度学习给人直观的感觉就是模型复杂,超多的参数需要去学习,如果训练的样本比较少,那么很容易过拟合。附带可以联系到bias和variance的讨论,也是可以从VC维去理解。模型论证角度知乎上有一个回答,这里引用一下对于cla……

Embedding向量化的一些理解

Embedding向量化的一些理解

:grin:有个同事某一天问我embedding向量化的过程,巴拉巴拉一堆,在日常写代码就两步构建向量矩阵查询但是向量化的真正意图是什么?或者说为什么要进行向量化?个人觉得应该先从onehot说起,在日常的工程中经常会遇到各种各样的id类特征,这些特征类别量很大,比如用户的id会有好多亿,如果你直接使用onehot那么你的特征在这一个上面就已经上……

GRU原理白话解析

GRU原理白话解析

接上一篇描述RNN网络说道gradient vanish的问题,要解决这个问题,那么gru/lstm是解决其问题的,说的抽象一点是解决这个问题,实在一点就是要解决记忆问题。基本原理假设给你一个很长很长的文章,一开始你读了很多行还记得前面写了啥,大概描述内容都记得,但是越往后面渐渐的你发现之前的内容是啥记得不太清了,gru就可以帮助你一直记住你想要记住的东……

MTL有效性

MTL有效性

我们假设我们有两个相关的任务A和B,依赖一个共享的隐藏层表示F。1、Implicit data augmentationMTL可以有效增加用于模型训练的样本量。由于所有任务难免会有一些噪声,当我们在任务A上训练模型, 我们的目标是学习针对任务A的一个好的表示,可以完全避免依赖数据的噪音,而且泛化效果好。由于不同的任务有不同的噪声模式,一个自动学习两个任务……

RNN模型入门

RNN模型入门

研究这RNN,还是要为后面的Attention相关服务的,以前的工程里面也用过对特征使用Attention机制,但是业务场景只是使用而已,最近要去研究NLP相关通用能力,与NLP相关的基础算法都要去了解一下。这个也不是RNN的基础详细解释,毕竟网上的文章都是随处可以看到了,这个也是自己到处看看然后自己做个简单的笔记记录吧!RNN循环神经网络首先跟时间序列……

word2vec到bert发展史

word2vec到bert发展史

Bert 最近很火,应该是最近最火爆的 AI 进展,网上的评价很高,那么 Bert 值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多 NLP 的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是 Bert 具备广泛……

DCN网络浅析

DCN网络浅析

在CTR预估领域出现了很多模型,之前看过一篇微信文章讲述十大经典CTR模型,DCN就是其中一个模型,估计很多公司都已经将其应用到自己的业务场景中了。最早的wide&deep网络,对wide部分特征的要求是很高的,超高维特征加上线性模型是可以去的不错的效果,主要是模型会简单并且可解释性会很好,对于wide&deep其实对特征的数据依赖是很大的……

浅谈机器学习共线性问题

浅谈机器学习共线性问题

这两天组里有同事在做特征分析这块的工作的时候其实会涉及到特征共线性问题,所以趁这个机会也去理解一下这个概念,说实话以前也没太在意这个问题。先看下共线性的基本概念多重共线性(Multicollinearity)是指线性回归模型中的自变量之间由于存在高度相关关系而使模型的权重参数估计失真或难以估计准确的一种特性,多重是指一个自变量可能与多个其他自变量之间……

rbm受限波兹曼算法理解

rbm受限波兹曼算法理解

本文主要是参考了http://blog.echen.me/2011/07/18/introduction-to-restricted-boltzmann-machines/ 这篇文章,这个文章从二分因子的角度去理解,真的是讲得清新脱俗。背景:假设你要求一群用户从0-100分来给一组电影打分。在经典的因子分析中,你可以尝试依据一组隐藏因子来解释每部电影及用户……