再看Youtube DNN 关于 softmax召回的解释

5,868次阅读

共计 721 个字符，预计需要花费 2 分钟才能阅读完成。

问题：Youtube为什么要用这个巨大的softmax多分类来建模，而不是用p(w|user,video)的二分类（类似点击率预估）来建模？对这个问题，文中没有给出明确的答案。

Youtube使用的多分类softmax模型
优化这样一个具有海量类别的softmax非常困难，不得不牺牲准确度，而使用Sampled Softmax来近似
如何定义负样本？难道真像文章中所说，为每个完成观看的视频，都简单抽样几千个未观看的视频作为负样本？要知道，大量的未观看的视频，压根就没有曝光过，如此简单抽样，样本带有极大的bias。当然，可以只将曝光却未观看的视频作为负样本，但是曝光过的视频，绝大部分是来自上一个版本的推荐引擎，这样收集到的数据同样带有bias。

二分类的类似“点击率预估”模型：
思路简单，让我来做召回，我的第一个直觉就是采用二分类算法来观测是否完成观看
实现简单，Sampled Softmax简化后，也还需要计算几千次点积、exp、加和，而二分类连这个都省了。而且我们同样可以将完成观看的概率写成 [公式] ，在线召回时同样可以简化为“近邻搜索”问题而加快计算。
同样受“如何定义负样本”问题的困扰，但是所受影响与softmax多分类完全相同，“多分类建模”在这一点上没有优势。
目前，我能够想到的唯一解释是：softmax loss只和true label=1的类的预测概率有关。为了让softmax loss足够小，不仅“真正完成观看的视频”的概率要大（即分子要大），其他“未完成观看的视频”的概率要小（即分母要小）。这样一来，优化softmax loss类似于在pairwise LTR优化BPR loss，比简单的CTR/CVR预估更加符合推荐系统的实际需求。

正文完

请博主喝杯咖啡吧！