dssm与fm召回上的对比

4,601次阅读

共计 1493 个字符，预计需要花费 4 分钟才能阅读完成。

首先，DSSM：在这里特指双塔模型；FM自不必说。

大家都懂再来啰嗦下双塔和FM在做召回时，线上的部署方式：双塔：离线：训练完成后，对于item-embedding，离线灌库，形成特征索引库，以供后续线上向量检索用；在线：get到用户请求后，去特征索引库取用户特征，kv之后拿到特征emb，一般是concat后过fc之后形成最终的user-emb，与之前灌入索引库的item-embs进行K近邻检索，形成召回结果。FM：离线：item-embedding基本同双塔；在线：get到用户请求后，取特征->获取emb->对embeddings进行pooling，形成最终的user-embedding，之后也是进行K近邻检索。

显然，FM在get到特征的emb后，直接pooling，而双塔则需要concat之后过fc，concat和fc都是需要一部分计算开销的，故在此方面，fm占优。

双塔由于其天然的结构特性，实际上是有这“实体分离”的意思，这里的实体可以是query和doc、也可以是user与item、也可以是item与item，而从fm结构上来看，不具备这种形式，故，双塔模型从结构上来看，不仅仅可以作u2i的场景，更可以扩展至i2i等场景，这方面，双塔可能更占优势。

正所谓成业风云，败也风云，双塔模型由于结构特性，增加了其可扩展性，但也由于这点，导致左右塔的交互过晚，交互不充分，而FM由于其模型结构，不存在这个问题，一般情况下我们只做到二阶的交叉，而且有对应的优化算法。但是咱们话锋一转：双塔模型这个缺点真的是致命的吗？从业界使用效果经验反馈来看，未必！而且双塔由于左右塔均为mlp形式，使其可以很方便加入Attention、SENET等网络算子来过滤一些指征能力较差的特征，从而缓解特征交互晚的问题，这也是双塔模型结构灵活性体现之一；结构灵活性体现之另一方面在于：大家思考下，双塔模型真的只是左右各自一个mlp就完事儿了吗？答案显然是否定的，发散下思维，每个塔可不可以是加入更复杂的网络结构呢，当然可以，我们甚至可以将每个塔加入DCN、CIN等子网络，最终再在交互层进行交互，虽然没有改变交互的时间，但是改变了交互的数量，这更能进一步缓解双塔的问题。

前述提到，fm获取最终话user-emb是直接pooling的方式，这种方式虽然节约了计算资源，但是损失了很多信息，整个过程中也没有任何的参数加入，而且每个feature的emb维度必须一致才能进行pooling，故最终的emb表达能力一定是受限的；相比之下，双塔模型就不存在这个问题，每个feature-emb甚至不需要有相同的维度，因为是直接concat到一起的，这样在原始的emb喂给fc层之前，最大的程度的保留了信息，后面靠fc层进行信息提取与降维，也加入了更多参数，泛化能力有一定的保证。

双塔模型的结构，天然适合近年来非常流行的对比学习，基本可以断定未来会有持续的市场；且更重要的，双塔结构可以很自然的引入pairwise的方式进行学习，从这方面来说，潜力是很大的，个人理解，在推荐(非搜索)领域，相比于排序层，pairwise是非常适合的，因为召回模型一个最大的问题就是样本的选取，正样本还算好说，负样本对于召回来说，非常有艺术性，因为在做召回时，很难清楚的界定到底一条样本是不是真正的负样本，但pairwise学习方式很好的规避了这个问题，也就是说：只要pair对选取的好，我才不管你具体某一条样本是不是真负，我就只管学习两两样本之间的差异就行了。

正文完

请博主喝杯咖啡吧！