数据科学家关于个性化项目长期实验的指南-尧图网站建设

数据科学家关于个性化项目长期实验的指南

📅 发布时间：2026/6/18 19:13:34

原文：towardsdatascience.com/how-to-set-up-longitudinal-experiments-a-data-scientists-guide-59b7aa729d20?source=collection_archive---------5-----------------------#2024-03-10

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e89dde468b0c6cd9fdf12056ec15d0bf.png

图片来源：Claudio Schwarz

解锁快速的“测试与学习”，并通过长期实验捕获全尺度个性化价值

https://medium.com/@charlesbi?source=post_page---byline--59b7aa729d20--------------------------------https://towardsdatascience.com/?source=post_page---byline--59b7aa729d20-------------------------------- Haocheng Bi

·发布于 Towards Data Science ·阅读时长：4 分钟 ·2024 年 3 月 10 日

A/B 测试 vs. 长期实验

实验不一定总是复杂的；在市场杠杆可控的情况下，简单的 A/B 测试框架就可以非常有效。实验的设计与实施应该始终与市场学习议程、市场技术（MarTech）成熟度和创意设计能力紧密结合。

让我们以购物为例。为了理解一次性促销和优惠对在线购物者的影响，简单的 A/B 测试框架（控制组和测试组）就足够了。如果这些购物者在整个客户生命周期内被分配到一致的控制组和测试组，或者有一些人中途退出，影响不大。

长期实验，也称为面板研究，提供了一种研究因果关系随时间变化的框架。与一次性实验不同，长期实验可以研究群体或样本组内发展中的模式和趋势。长期实验传统上在医学科学和经济学等领域占有重要地位，近年来在科技、零售、银行和保险等行业的应用案例也越来越多。

长期实验在复杂的个性化场景中提供了独特的优势。它们使我们能够更深入地理解个性化营销策略的累积影响，并帮助判断何时扩大这些努力。

案例研究 —— 自行车配件供应商的纵向实验

假设一个假想情境，AvidBikers 是一家领先的山地自行车配件供应商，专为骑行者定制和升级自行车提供零部件。他们最近推出了一个个性化项目，向忠实的骑行客户群体发送每周最佳优惠和促销。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/90a0faa0b6f42d8bddc702c64b06cf4e.png

图片来自 Solé Bicycles 于 Unsplash

与一次性的购物之旅不同，AvidBikers 的典型购物旅程是由一系列在线购物过程组成，客户购买所需的所有配件，以自行组装和升级自行车装备。

随着个性化项目的推出，AvidBikers 的市场数据科学团队希望了解每个单独活动的效果，以及通过联合个性化营销策略带来的整体项目层面的增量。

项目与活动实验

AvidBikers 实施了一个双层纵向实验框架，以追踪整体个性化项目的广泛影响以及单个活动的影响。这里，项目层面的效果是指运行个性化项目的影响，项目可能包含多达数千个单独的活动，而活动级别的影响则指向最相关客户发送个性化的每周最佳优惠与促销的影响。

为了实现该框架，分别在全球层面和活动层面创建了测试组和控制组。全球测试组是指在符合条件时，能够接收个性化优惠和促销的客户群体，而全球控制组则被划分为“保留”组。在全球测试组内，我们进一步划分出活动级别的测试组和控制组，以衡量不同个性化策略的影响。

应对动态客户进出

然而，挑战来自于新客户和流失客户，因为他们可能会破坏测试-控制组的平衡。首先，客户流失可能对测试组和控制组产生不均衡的影响，造成无法归因于个性化处理/干预的无法控制的差异。

为了应对这种偏差，新客户被分配到项目层级和活动层级的测试组和控制组，并进行统计检验以验证组之间的平衡性。此外，还会进行纵向质量检查，以确保受众分配在每周之间保持一致。

衡量、迭代与重复

衡量通常被（错误地）与实验互换使用。简单来说，两者的区别在于，实验是一种测试假设并识别因果关系的框架，而衡量则是收集和量化观察到的数据点。

测量是捕捉学习成果和公司努力的财务影响的关键。与实验类似，AvidBikers 准备了程序和活动级别的测量文件，进行统计测试，以了解程序和活动级别的表现及影响。程序级别的测量结果表明 AvidBikers 个性化程序的整体成功。另一方面，活动级别的测量告诉我们哪种特定的个性化策略（个性化产品或促销活动）在客户群的哪个子集上是成功的策略。

有了测量结果，AvidBiker 的数据科学家可以与他们的营销和定价团队紧密合作，通过多个快速的“试验与学习”循环找到最佳的个性化策略。

大规模实施纵向实验

在大规模实施纵向实验时，需要平衡技术基础设施和方法学的严谨性。像 Airflow 和 Databricks 这样的工具简化了工作流管理和数据处理，促进了复杂实验的协调。然而，成功的基石依然是精心设计和执行的实验框架，该框架需根据具体的业务背景量身定制。

根据我的个人经验，复杂问题如冷启动、客户流失和策略重叠可能会出现，这需要在实验设计和实施过程中根据具体情况进行评估和定制。然而，随着客户需求的不断变化，纵向实验的战略实施已成为以客户为中心的个性化演变的关键基础。

感谢阅读，敬请期待未来更多数据科学和 AI 话题😃