Alg - 算法之道

Alg 万字长文：从MHA->MLA的研究

]

出现这篇文章也是最近回顾transformer ，看到了这两个词，其实道理很简单，只不过自己一直叫法跟这个不同…

tranformer架构的提出是2017年google做机器翻译的团队提出来了，文章一出来产生的影响很大，毕竟…

在做深度学习的时候，softmax是一个经常遇到的计算公式来，但是还没深究过这个究竟是怎么算的。计算的基础公式…

序幕随着对大型语言模型（LLM）的关注浪潮，许多开发人员和组织正忙于利用大模型的能力来构建应用。但是，当…

前言前段时间短暂的参加了一些冷启排序方面的一些工作，期间主要工作应该就是实现poso这篇论文了。这篇文章出自…

前言周五下午吧，翻开那本推荐系统的书，看到了MF和FM在一块，单从字面来看两个是完全对称的字母，但是却是不同…

总体结构重点来看下 TinyBERT，它是由华为出品，非常值得深入研究。TinyBERT 对 embeddi…

1 前言近年来深度学习模型在计算机视觉、自然语言处理、搜索推荐广告等各种领域，不断刷新传统模型性能，并得到了…

很早之前看B站up主稚辉君的一些视频，有个视频说到他在华为那边的搞边缘计算，当时没有这个好奇心去查这个边缘计算…

IFTTT 在什么都讲究「智能」的今天，互联网服务日新月异的变化可能会使你眼花缭乱。社交网络、云服务、网络媒体…

提前说一句不太好听的话，其实这个论文这个环节我看的懵逼，不是太懂。公式推理看起来都是对的，从上往下推是可以推的…

这篇继续接上篇文章ips，讨论下ips如何去解决IEB问题的。论文里给出的大的标题是对IPS的描述是在一个叫“…

又耽搁了一段时间，这篇是杨康之后的第一篇吧，也是2023年的第一篇，一下子感觉激情澎湃。今天还是继续捣鼓es…

今天继续ESCM的研究，考虑到latex打公式挺麻烦的（我偷懒），我直接粘贴论文里的图，但是我会用白话文来说明…

最近一周有个课程培训需要选一个课题进行ppt汇报，排序这块选了多目标任务，想起之前做esmm这块有点经验，然后…

前言最近看到一篇文章，讨论如何通俗易懂的理解nce loss ？看完了之后有点新的体会，顺便唠嗑一下一些实践…

现在在做的一个项目里面的场景比较多，每一个小场景都会有一个策略，也有是模型的，目前是部分场景共用一个，但是也存…