当前位置：首页 > news >正文

从广告点击到下单转化：阿里ESMM模型如何用多任务学习解决CVR预估的样本偏差难题

news 2026/6/9 8:57:47

解密阿里ESMM模型：多任务学习如何重塑广告转化率预估

在数字营销领域，广告主最关心的核心指标莫过于转化率——那些点击广告的用户最终完成购买、注册或其他目标行为的比例。然而，这个看似简单的指标背后，却隐藏着两个长期困扰业界的难题：样本选择偏差和数据稀疏。想象一下，一个电商平台每天展示数百万次广告，但实际点击可能只有2%，而最终产生转化的用户更是凤毛麟角。传统方法仅基于点击样本训练转化率预估模型，就像仅凭冰山一角来推测整座冰山的形状。

1. 转化率预估的行业痛点与ESMM的破局思路

1.1 样本选择偏差：被忽视的"沉默大多数"

在广告系统的传统建模流程中，转化率预估(CVR)模型面临一个根本性矛盾：

离线训练阶段：只能使用有点击行为的样本(约占总曝光量的2%)
线上预测阶段：需要对全量曝光样本(100%)进行预测

这种样本空间的错位导致模型在实际应用中表现不佳。就像一位只在五星级酒店学习餐饮服务的学生，突然被派往快餐店工作——尽管同属餐饮行业，但环境差异使得经验难以直接迁移。

关键数据对比：

场景	样本空间	正样本比例	数据量级
CVR训练	点击用户	0.2%-5%	1万-10万
CVR预测	全量用户	0.01%-0.1%	100万+

1.2 数据稀疏：小样本中的大挑战

即使仅考虑点击样本，转化行为也极为稀少。以电商广告为例：

# 典型电商广告转化漏斗模拟 import numpy as np impressions = 1_000_000 # 百万级曝光 ctr = 0.02 # 行业平均点击率 cvr = 0.05 # 点击后的转化率 clicks = impressions * ctr # 20,000次点击 conversions = clicks * cvr # 仅1,000次转化

这种极端的数据不平衡导致：

模型容易过拟合，泛化能力差
深度学习模型参数难以充分训练
对长尾商品和新品的预测准确率低

2. ESMM模型架构：多任务学习的精妙设计

阿里妈妈团队提出的完整空间多任务模型(ESMM)，通过创新的多任务学习框架，同时解决了上述两个难题。其核心思想可以用一个简单公式表达：

pCTCVR = pCTR × pCVR

这个看似基础的概率公式，却蕴含着解决样本偏差的关键洞察。

2.1 模型结构解析

ESMM采用典型的双塔结构，但有着独特的设计哲学：

共享底层架构：
- CTR和CVR塔共享特征嵌入层
- 底层特征：用户画像、商品属性、上下文特征等

# ESMM核心结构伪代码 class ESMM(nn.Module): def __init__(self): self.shared_embedding = EmbeddingLayer() # 共享特征嵌入 self.ctr_tower = MLP() # CTR预测塔 self.cvr_tower = MLP() # CVR预测塔 def forward(self, x): emb = self.shared_embedding(x) # 共享嵌入 # 双塔并行 ctr_logit = self.ctr_tower(emb) cvr_logit = self.cvr_tower(emb) # 概率转换 pCTR = sigmoid(ctr_logit) pCVR = sigmoid(cvr_logit) pCTCVR = pCTR * pCVR # 关键公式实现 return pCTR, pCVR, pCTCVR