延迟归因–样本加权

5,188次阅读

共计 644 个字符，预计需要花费 2 分钟才能阅读完成。

延迟转化应该是很多 cvr 预估场景都会遇到的问题，这个也是用户的行为有很大的关心，本身用户的深层行为是一个漏斗，越往深层行为越稀疏。这就衍生一个问题，使用实时的数据去更新模型就会遇到label标签不准的问题，最近看到阿里的es-dfm这里列举了多个延迟归因模型，我也看了一段时间的延迟归因相关的，就此慢慢的说下当前看到的一些方法或者思路。

目前模型是增量训练方式进行更新的，深度转化行为延迟比较大，如果不做特殊处理容易一个点击行为先发生，作为负样本进入模型进行训练，过了几天用户付费了，再以正样本进入模型训练。一方面是训练不准确，另一方面对于新上线广告而言容易出现较大转化率低估的情况。这个延迟问题对于Ctr模型来说会更加大。
延迟归因--样本加权

这里我们认为7天是转化行为回流最大窗口（能覆盖95%+的情况），首先会增量训练一个T-7的模型，因为这个时候转化数据已经回流完全，因此这个模型没有延迟转化问题。

然后每天会刷新最近7天的正负样本数据，并且根据每天转化回流比例来调整样本权重来打平正负样本比。接着我们会base T-7的模型，以最近7天的调权样本数据进行增量训练，得到T-0的模型，这样T-0模型在样本比例上打平了延迟转化问题。

上面的这种方式需要计算 t-7 内每天的回流比，以此来实现样本的加权，我自己的理解是不同的转化目标回流的比例也是不一样的，针对不同的目标要分别计算作为样本的权值。

这种没有改变现有的模型，只是调节了权重，后续还会有很多是通过模型的方式来实现ubias 估计。

正文完

请博主喝杯咖啡吧！

post-qrcode

算法计算广告

发表至： Alg

2021-11-02

版权声明：本站原创文章，由 admin 2021-11-02发表，共计644字。

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Feature-based VS Fine-tuning

威尔逊置信区间排序

边缘计算简介

解决Position bias 方法之一：PAL算法

kaggle比赛点击率 Criteo_dataset 数据集

GitHub copilot AI代码补全

评论（没有评论）

验证码