在线学习想要解决的问题 在线学习 ( OnlineLearning ) 代表了一系列机器学习算法,特点是每来一…
问题:Youtube为什么要用这个巨大的softmax多分类来建模,而不是用p(w|user,video)的二…
在看一个大佬向量的解释时候提到召回中的向量的解耦,看完之后有所感触,回想 DSSM 中的实现,跟这描述似乎完全…
这篇文章主要介绍周国睿大佬的新工作:CAN: Revisiting Feature Co-Action for…
新业务线上现在有很多种召回策略,在线和离线都有,使用深度召回期望能召回与用户更相关并且感兴趣的物品。这几天页研…
引言 关于faiss的使用也是在使用embedding相似度召回的时候接触到,的确是一个高效的计算相似度的方案…
引子 大名鼎鼎的NLP论文《all in attention》诠释了attention的厉害。attentio…
ID类特征在很多应用场景下都会遇到,电商里面的物品id,信息流里面资讯id,用户的id等等。id 类特征可以直…
最近在看一些图像去重的一些方法,网上一搜就会看到phash、dhash和ahash等基于哈希方法的去重算法,这…
百度的Familia提供了工业界主题向量的应用,现在应该很多的工业界项目中会应用到,也取得不错的效果。官方的文…
在前面两篇文章中,我们用一个框架梳理了各大优化算法,并且指出了以Adam为代表的自适应学习率优化算法可能存在的…
在上篇文章中,我们用一个框架来回顾了主流的深度学习优化算法。可以看到,一代又一代的研究者们为了我们能炼(xun…
机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就…
这个是一个朋友面试时遇到的问题,这个问题个人觉得算是一个开放性的问题,同时需要你对深度学习有着宏观的认识,并且…
:grin:有个同事某一天问我embedding向量化的过程,巴拉巴拉一堆,在日常写代码就两步 构建向量矩阵 …
接上一篇描述RNN网络说道gradient vanish的问题,要解决这个问题,那么gru/lstm是解决其问…
我们假设我们有两个相关的任务A和B,依赖一个共享的隐藏层表示F。 1、Implicit data augmen…
研究这RNN,还是要为后面的Attention相关服务的,以前的工程里面也用过对特征使用Attention机制…