淘宝直播流量与供给端到端联动探索

当前位置：首页 > 滚动 > >正文

淘宝直播流量与供给端到端联动探索

来源：DataFunTalk 时间：2023-07-01 01:06:25

X 关闭

导读淘宝直播以轻松友好的内容导购形式，相对高性价比的购物属性，满足了用户在休闲时间进一步碎片化的情况下，对高节奏生活、社交属性和碎片化娱乐场景的需求。用户可以方便地关注自己喜欢的店铺、达人和品牌，同时回归生活消费。随着用户渗透率的提升，淘宝直播对整个核心电商业务的贡献也越来越大。目前，淘宝直播已吸引了大量主播入驻并开播，成为淘系生态圈中不可或缺的一环。

全文目录：

(相关资料图)

1. 淘宝直播体系化调控能力演进

2. 实时动态多元价值路径人群建模

3. 流量调控与共给端到端联动

4. Q&A

分享嘉宾｜李伟民（为明）阿里巴巴大淘宝直播技术算法专家

编辑整理｜王鑫民同济大学

出品社区｜DataFun

淘宝直播体系化调控能力演进

目前淘宝直播推荐算法工作阶段性重心转向发现性和实时性。从C端用户的视角出发，重新定义人货场的匹配推荐，以提高用户的真实体感。而对于流量调控算法而言，为了鼓励主播开播、加速主播成长、优化主播生态，流量扶持或流量激励是重要的方式组成，更多的是从B端视角即主播商家侧出发，提供业务运营可控途径，扶持激励主播成长，促进生态平衡繁荣。

围绕直播主播生态与主播成长大目标，直播流量调控系统承担了多维度的业务诉求，构建了较为完善流量调控机制体系。比如产品功能上的分享任务、排位赛，运营杠杆下的领航计划、营销活动，产算机制内的新主播冷启、实时赛马、潜力主播、场观保底等等。

与商品、图文、短视频等业务场景相比较，直播场景具有较大的差异性，无论是供给的时效性，其他场景内容供给是全周期的，即生产出来后可以时时刻刻作为内容池子去分发，而直播不一样，其生命周期仅存在于直播间从创建到关闭这段时间，即只有主播开播期间才能生产内容并进行流量分发或调控，因此有较强的实效性。另外内容的动态变化性，其他场景内容是离线生产的，生产后各种属性信息基本就确定下来了，而直播的内容是实时生产的，是流式的内容，很难知道下一刻的直播内容是什么，主播上架商品、商品秒杀、评论抽奖、红包雨、粉丝互动等一系列直播间动作或状态都随时会发生或变化，会影响到直播间的氛围或直播间对用户的吸引力或承接能力，无疑会对流量调控工作提出了更高的挑战要求。

进一步，从主播的生命周期价值来看，从LTV的视角出发，其价值在时刻发生变化，无论在每场内还是不同场间。无论在技术还是业务上，流量调控在直播领域存在很多挑战和问题。除了一些调控原始的问题，在预估主播开播时长、保持流量平稳性、提升推荐算法和调控算法效率等方面都需要持续优化，以实现用户找到符合兴趣的直播间，实现用户侧价值、主播匹配到高互动意愿和高转化意愿的用户以调动主播积极性的目标，实现主播侧价值，进而最终实现平台价值。

目前，淘宝直播涉及多个核心场域，每个场域都有不同的业务逻辑和产品认知。围绕主播生态和主播成长两大目标，我们希望建立一个统一的流量平台管理能力，协调差异化的传控诉求的同时，缓解业务需求与分发协调的困难。同时，希望支持主播、货品、用户等多维度的调控诉求，构建一个更实时化、精细化、业务多维度可控的体系化调控能力，服务整个直播生态的健康发展和流量规划可控。

目前，淘宝直播已经迭代了一套相对完善的直播调控流量中控系统，以满足多维度的调控业务诉求。从技术和架构的角度来看，整个系统可以从三个视角进行讨论，即调控策略维度、流量调控目标维度和调控场景维度。

首先，调控策略维度。我们构建了包括主播场次维度、货品维度、营销活动维度、用户PV维度等多方面的调控能力。每个部分下又涵盖了不同的调控细化能力。能够覆盖像主播场次的宏观多类型保量，增量调控，分时段精准调控等，还有像搭建了以品为核心的商品调控链路，强化货品供给端到端联动流量分发的能力。基于货品的人群圈选+商品维度流量调控，结合看点的实时消息做到在主播讲解品的瞬间起量，分钟级精准快速保量。营销玩法联动流量机制，用户pv粒度精准控制等等。

其次，调控目标维度。类似于我们向主播宣导时长和成交是流量上升的重要考核因素，对于调控流量，不同的调控业务类型，不同类型的人设主播，不同场次预期目标安排对于调控的业务诉求也是不同的，比如针对内容型主播或者新咖入淘，对于调控流量是否能带来更高的粉丝转化和留存有着更强的需求，针对带货主播大场成交转化无疑是更加重要的目标等，那么站在调控目标角度，如何去强化明确激励流量的ROI属性：时长、转粉、转化、用户拉新等，而不仅仅是pv完成率，这是传统调控所难以达到的。那么针对调控架构的设计，我们也希望拥有这种可以多元目标转变的定制化能力。

最后，调控场景维度。淘宝直播目前覆盖核心场景众多，缓解直播流量控制的确定性业务诉求与跨域各分发场景在流量调控上的协同困难，中控系统构建了多场景的动态实时协调能力，结合主播历史渠道流量分布，场景流量规模，是否新人主播，是否预设pvr信息等进行分渠道流量预规划，调控过程中，结合调控现状（当前目标，流量进度，计算误差，时间信息等），进行各场景实时pvr动态调整规划，结合调控实时反馈，缓解调控难度保障完成率，避免流量过度集中到某个特定场景，同时提升流量效率。中控统一架构下的差异化各场景调控人群生成，保证调控稳定性的同时，提升流量效率，兼顾平稳性与效率。

在整个架构下，算法也是进行了多维度多切口的迭代优化，例如营销活动联动流量调控，淘宝直播动态精准端到端人群构建，直播流量多价值路径建模，如何优雅的进行货找人/人找人多粒度人群匹配，流量池下的直播网络流建模，调控特色的排序体系化建设等等。

那么纵观整个直播流量调控体系，围绕众多业务诉求，算法侧我们可以整体抽象出来一些核心问题：

1.众多差异化的调控诉求，构建体系化的解决方案

2.流量控制的确定性业务诉求与各分发场景在流量调控上的协同困难

3.流量调控任务的完成率与平稳性保证

4.持续提升调控流量的效率价值

5.直播端到端供给如何联动分发

6.调控激励流量是否多元ROI属性可定制

实验实时动态多元价值路径人群建模

对于激励流量调控而言，各差异化类型的调控计划本质均是在已有推荐系统的基础上，调控算法通过干预公域推荐流量的分发来给到主播额外的推荐流量。在面向B端视角的情况下，我们可以从另一个视角去诠释推荐和调控的差异性，推荐重视给特定用户推荐更加契合的候选主播列表，而调控侧重给调控目标主播推荐更加契合的候选用户列表。举一个更加通俗的例子，从推荐角度来看，假设全用户召回的情况下，对于用户A，兴趣相关性较高的主播B是一个较好的优质候选待推荐主播。而从调控角度来看，对于B主播的调控计划，用户A不一定在最match当前主播的高调控目标价值用户集合中。

那么针对上述算法抽象核心问题和我们对调控的另一个视角的阐述，一个较好的可通用化的切入点就是如何更加合理有效的构建调控人群方案，那么我们可以一起讨论如何创新性的将主播调控人群圈选问题转化为给主播实时推荐直播在线用户问题，引入面向主播侧的算法实时个性化推荐能力，并对整个系统流程架构进行简介，一方面兼顾调控平稳性与调控完成率，持续提升调控流量效率价值，另一方面，能够端到端的联动直播供给与分发，更深入的，我们希望调控人群架构的设计能够强化明确激励流量的ROI属性等。

直播业务中，传统的圈选人群通常是业务和算法团队根据业务经验、调控计划规模、主播人设和货品招商情况进行定向圈选的。然而，传统的圈选方式通常会存在以下几个潜在问题：

1. 离线调控人群很难在效率和完成率之间做到较好的平衡，且调控过程平稳性有待加强：

这是因为直播间的实时在线用户相对于整个用户群体来说是一个相对较小的群体。为了保证调控任务的可执行性和完成率，传统人群的圈选量级通常会达到上千万规模，不仅规模巨大，而且人群内部的用户质量良莠不齐，因此导致难以保证推荐效率。如果要提高推荐效率，将推荐人群圈选得较小，那么任务的完成率就会受到影响，难以实现平稳调控。此外，离线人群的用户到达分布是不稳定的，容易出现抖动或毛刺等现象。

2. 离线调控人群圈选，难以做到“千主播千人群”以及根据主播和用户的实时行为动态调整人群。

通常，圈选规则是根据历史的业务经验和主播的历史表现行为进行制定的，这导致了无法根据用户和主播的实时行为状态进行动态调整，只能进行一些简单的人工增减活动等。在这种情况下，更难以实现实时的千主播千人群。

3. 如何去强化明确激励流量的ROI属性：时长、转粉、转化、用户拉新等，而不仅仅是pv完成率。

对于推荐系统而言，阶段性时间内推荐系统输出的流量或导向是明确的。但对于调控计划来说，不同的调控计划、类型和主播等都可以具有更加明确的偏向属性，调控人群的多元属性可明确定制化是我们的架构希望能够达到的。

针对上述问题，在流量调控的人群方案上，我们经历了三个阶段的探索：

第一阶段，离线人群圈定，属于传统调控人群圈定的方案。在这个过程中，我们和业务方合作积累一定的直播典型人群，能够满足不同类型的流量调控诉求，如不同类型的大咖入淘，领航计划等。第二阶段，离线人群圈定结合动态人群扩展方案。在第一阶段的基础上，我们搭建动态人群扩展场景，联动调控系统，构建基于调控误差、调控目标规模的动态人群包扩展功能。对整个人群生成写入逻辑进行了全链路梳理优化，线上基本保证10min内更新完毕千万级叠加人群。在这种机制保障下，一方面我们可以在离线的时候对人群进行更精细化的逻辑控制生成，而不用担心由于人群规模问题导致线上计划的不可执行或者流量后续乏力，另一方面调控的整体完成率得到了进一步的提升，避免了人工预估调整的繁琐工作，同时平均调控完成率进一步提升。第三阶段，端到端直播间在线用户精准动态人群调控方案。结合前两阶段的方案积累和优势，进一步创新性的将主播人群圈选问题转化为给主播实时推荐用户问题，引入主播侧算法实时个性化推荐能力。

整体的方案结构如上图，重点在于如何将主播调控人群问题转化为给主播实时推荐直播在线用户，并引入个性化推荐能力。模型造方面需要解决主播视角下推荐系统面临的负载问题，例如，对于一个主播，候选用户量级比用户视角推荐主播的候选量级明显大很多，这对于任何推荐系统来说都是很高的负载。而在线调控方面需要兼顾用户规模和调控精准性，同时能够兼顾主播人群的泛化性能力。

人群模型的整体构造分为两部分：离线大模型和线上实时化模型。离线大模型容纳了大量多元异构行为信息，线上实时化模型则采用了一些创新性优化，如 attention算力下沉等，并引入人群聚类算法可以很好地在调控精度和计算负载之间做出权衡。在实时在线用户的底池中，所有用户都是对直播间实时在线的，保证推荐的精准度。此外，还引入了针对人群规模的个性化预估和实时的误差修正，以及基于人群的曝光过滤和子人群的失效时间预估，比较自然的将推荐系统的能力迁移过来，提高主播侧的调控计划的效率和pv价值。

首先介绍人群模型部分。离线大模型和线上实时化模型。第一个是以双塔为基准的在线人群推荐模型，主要是快速实时地进行人群的推荐；另一个是离线的大模型，引入更多更复杂的多元异构信息，从而进行更加全面的用户信息刻画。

整体而言，人群模型主要在以下几个方向进行了优化：

1.直播自序列表征能力的增强

2.直播用户商品心智刻画

3.多元异构兴趣建模及融合

4.模型算力与精度共同提升

关于直播序列信息表征方面。探索挖掘用户行为信息，我们可以发现，用户关于直播领域的兴趣覆盖往往较少，拉取较长时间跨度后兴趣主播覆盖量并没有得到有效的提升。故直接构建直播长期序列会使得整体兴趣会偏向于用户的较久远的直播兴趣，且信息增益没有得到明显提升，那么如何就直播自序列的节点表征信息进行增强则显得较为重要。

直播自序列扩展建模这方面我们进行了一些相关探索尝试，首先是关于自行为序列节点的信息扩展，可靠兴趣节点在a2a（主播to主播）数据中按带截断权重search出每个key对应的权重topN的新account list，保证每个扩展主播都和源节点主播具有着高度的相关性，随后多个新扩展主播list按照行为时间和a2a关系权重聚合形成该用户的transfer直播序列，transfer直播序列扩展提供了一种快捷高效的序列信息扩展方式，再此之外，我们也建模了如何进一步提升直播序列本身的表征能力的同时把点边关系信息刻画也融入进来，把用户行为序列向网状化的扩展，以此来反应用户层级兴趣。

如下图所示，类似ripple net网络的信息聚合方式，通过异构行为节点的自然聚合，使得模型表达能力的进一步提升，行为节点间relation的刻画，点和点之间的链接不仅增强了对于点本身的刻画，而且带来可解释的关系推荐。

关于直播用户的商品心智。通常离不开“人，货，场”，三种要素的刻画，而对于手淘，用户一般具有体很强的商品心智。直播作为手淘中的一种重要内容供给，在推荐系统构建的时候也需要重视用户的商品心智，重视品在推荐中的重要性，同时通过深度挖掘用户在商品域的不同时期的兴趣及兴趣随时间的变化情况并泛化到直播域的兴趣表达，可以较好的提升直播低活，零活人群的效率指标以及推荐准确性。

具体来说，商品兴趣转移扩展建模，我们通过严口径下item2account数据构建，将用户在商品域兴趣随时间的变化情况泛化到直播域兴趣表达，找到用户可能潜在的兴趣主播。超长商品序列分时段建模，引入超长全域商品序列及LSH等轻量级attention建模方式，通过刻画用户长期兴趣及兴趣演变，尤其是对直播低活零活用户，超长商品域序列的引入对该部分用户兴趣泛化起到了比较重要的作用。

主播实时讲解类目检索建模，一般而言target attention 中相关性较低两个实体的attention的加权系数往往很低，通过超长序列结合类目过滤的方式能够比较好的完整聚合当前candidate相关性较高的动态激活的用户兴趣序列，对于直播业务而言，商品域超长序列如何通过合理有效的方式关于直播candidate进行检索是需要探索的问题。最后我们采用主播类目作为使得检索序列相关性得到提升。虽然用户对于主播一跳行为通常受到已有认知的影响，但是更加精准的二跳信息匹配，预期能够更好的留住用户，进而触达用户的购买需求。

关于融合多元异构信息的建模，如上所述我们对直播用户商品心智进行了较为全面的刻画，基于此我们进一步思考，如何能够更加全面合理的建模用户的全域兴趣，手淘用户在其他域上通常有着一定丰富度的兴趣覆盖，如商品，短视频等，能够合理全面的刻画商品域，短视频域的用户兴趣，可以较好的泛化到直播域可能的潜在兴趣，此最后有了用户在各个领域的兴趣表征之后，如何进行合理化的整合和表达也则显得十分重要。

传统模型架构中关于直播域seq与商品域seq等序列的应用方式通常为target attention后concat进入mlp的方式，这里探索如何进一步挖掘其他非直播域行为序列中的信息，之前的seq利用的方式本质上是通过seq生成candidate的一个embedding表达，而其他域的seq所生成的直播的embedding表达不一定完全合适直播域建模，根据之前pvr数据反馈来看有倾向于热品等的情况。我们通过建模多域异构兴趣匹配问题，不单单生产target的embedding表达，而是进一步挖掘比如短视频域上哪些行为的组合表达和当前的target有着更高的匹配程度，从而探索他域异构序列到直播域兴趣的泛化方式。

对于直播业务，如引入短视频序列，商品序列等他域异构序列，除了进行target attention以外，再引入序列兴趣匹配问题建模，通过利用attention过程中产生的相关性向量进行匹配性特征抽取，基础模型该过程通过一个两层的cnn进行，获取如何的组合方式与当前的target具有更好的匹配性，而不是仅仅获取一个target的embedding表达，最终得到不同域的用户兴趣匹配和target attention表征组，然后接入全联接的底层，使得用户他域异构序列兴趣能够更好泛化到直播域来。此外值得一提的是，商品序列，短视频序列等进行按照序列异构序列匹配建模实验，均带来了auc的提升，而直播序列本身进行序列匹配建模后auc持平不变，这说明了对于自身序列而言，target attention本身已经是一种较为友好的建模方式。

关于多域活跃度影响下的兴趣融合，有了各个domain下的用户直播兴趣表达，进一步研究如何更好的去整合多域异构兴趣信息，特征工程中我们构建了一部分活跃度相关的特征表达，然而该部分特征对个性化推荐的影响其实而言相对较小，更加合理化的应用该部分特征，同时更好的整合用户多域异构兴趣。

这里我们在原有的活跃度表征的基础上，丰富了用户关于不同域的活跃情况，近期在直播，短视频，商品等的偏好情况，如果能够比较合理的高效进行多域兴趣间的交互和融，借鉴DCNv2的类似思想则是一个潜在可行的解决方案，把输入映射到低维空间，再映射回来，在多个子空间里学习异构兴趣及domain活跃度的多阶交叉，既控制了复杂度的同时较好的完成了多域兴趣的交互融合，模型在现有大模型的基础上加入异构兴趣交互融合网络模块，模块的输入为多域异构序列不同域的兴趣匹配和target attention表征组以及用户关于各域近期的活跃度信息，向上通过一个三层的DCNv2交叉网络，每层的expert和映射空间维度逐渐降低，进行显示的活跃度信息，异构兴趣信息交互。

关于模型算力与精度共同提升。为了缓解直播用户规模群体与调控模型精准的性诉求矛盾，兼顾主播人群泛化性能，对于实时在线模型，我们在双塔的基础上，拆解计算图为原有双塔部分和基于path 分解形成的行为主播到关联主播的分数融合部分，继续扩展i2a等多种path，线下共同训练，线上进行计算图拆解，path 部分通过查表完成，用这种方式可以去逼近和下沉target attention的性能指标。

直播人群聚类部分。人群推荐模型的建立让我们拥有了对每个主播去选择用户的能力，而维护在直播间内所有实时在线的用户数据底表表，作为调控人群召回底表，这样保障了我们的调控人群底池，一方面底池最大规模即为直播间在线实时用户量级，另一方面所有进入底池的用户均为直播实时在线用户。

进一步，在此基础上引入人群聚类算法建模，使得我们可以控制推荐给主播的用户集合颗粒度从单个用户到相似子用户群体自由缩放可控，同时子人群的概念就单用户而言，更加便于进行人群曝光率(曝光量/召回量)，人群失效时间等预估计算，也可以在计算开销和调控精度上做一个较好的权衡。具体来说，将用户向量embedding进行算法聚类得到用户子类，离线用户聚类子类在join上直播间实时用户数据后形成数据底表。从而可以将主播的人群圈选问题转化为给主播个性化推荐每个动态变化的cluster，除了引入实时推荐个性化能力，另一方面我们机制的设计也便于进行主播侧的曝光过滤等类似用户侧的推荐算法逻辑。

个性化人群规模预估部分。主播个性化实时调控人群圈选基于直播间实时在线的用户构建，随后我们结合曝光率(曝光量/召回量)就可以相对准确的去预估线上调控任务所需人群的大小。但是不同于商品短视频等推荐，直播是一个实时流的状态，其曝光率会随着时间和自身讲解状态以及当货品的信息实时发生变化，因此我们会基于主播离线曝光率预估计算初始人群的量级，然后线上根据实时曝光率统计来动态修正预估人群量级。

主播调控人群线上推荐部分。线上对主播调控子人群推荐过程中，我们将主播的高相关性候选人群向量召回并写入的同时，记录下每个人群cluster的量级和时间戳，结合历史停留时长数据预估判断调控子人群的失效时间，动态维护曝光cluster的列表。调控子人群失效时间判断结合调控子人群窗口曝光过滤机制，能够保证每次写入的均为当前直播在线用户中和主播实时高相关性的候选人群子集，同时整体开销较低、实时性好、量级稳定维持在设定的大小，因此可以很好的平衡效率和完成率，避免因离线人群到达分布不稳定而导致的流量\"尖刺\"等问题。

最后，实时动态多元价值路径人群建模部分。如何去强化明确激励流量的ROI属性：时长、转粉、转化、用户拉新等，而不仅仅是调控pv完成率，是我们对调控任务的预期。那么针对调控人群架构的设计，我们也希望拥有这种可以多元目标转变的定制化能力，而这是传统人群圈选所难以达到的。

进一步的，对于推进系统，在一个相对的时间阶段内，推荐系统的主流衡量标准是相对稳定的，即便推荐多目标建模，ltr的融合的方式也是阶段性确定性的，但是对于具体的调控计划任务，我们希望它是多元变化可定制的。对于调控流量，不同的调控业务类型和人设主播，每场对于调控的业务诉求也是不一样的，比如针对内容型主播或者新咖入淘，对于调控流量是否能带来更高的粉丝转化和留存有着更强的需求，针对带货主播大场成交转化无疑是更加重要的目标。基于此，我们搭建了基于核心人群的多目标调控链路，之前的人群链路主要影响推荐的召回，而核心人群的调控链路影响全链路，细粒度pv可控。

具体来说，定义一个更加精准轻量的核心人群，通过核心人群pid控制对应侧重目标的核心人群在调控流量中的实时pvr占比。通过退化流量调控pid，来表征对于非场观看目标下的任务，实时流量进度相比时间进度可以损失的目标值，代表了可以置换其他侧重roi属性的一个退让上界限，模型上，鉴于排序限制和对调控模型精准性的进一步要求，下沉attention计算能力，通过拆解计算图为原有双塔部分和基于path分解形成的行为主播到关联主播的分数融合部分，线下共同训练，线上进行计算图拆解，结合之前的人群聚类自由度放缩机制，从而使得模型能够保证大规模打分的基础上可以逼近精排的效果。当然对于重点提前明确排期的和长期扶持主播，离线大模型打分也会引入系统作为重要参考。整体方案兼顾了调控激励的实时性，精准性，平稳性，泛化性等多方面诉求。

流量调控与供给端到端联动

对于直播数智化营销基础建设，丰富货品侧智能运营工具和能力，我们构建了一系列营销能力，如主播爆品预估、潜力新品预估、主播PV价值预估等。加强业务同学对于流量价值的心理预期，提高与主播团队和业务团队之间的沟通和环节把控，同时也落地成了一些相关的业务产品。我们围绕用户、主播和商品三元图网络结构建模结合直播间在线用户精准动态人群方案，端到端的联动营销供给与流量调控分发，提升流量的确定性，从而实现流量的整体闭环。

实际上，无论是爆品预估、新品发现，还是PV价值预估、流量预估等，本质上都是在这个三元网络图上进行若干限定并求解一个最大值或最小值的问题。这也是我们解决营销问题的主要思路，扩展主播样本，主播商品样本到用户-主播-商品三元网络样本，结合直播用户到达率预估建模，以及特定待预估问题的目标维度聚合，那么我们就有了可以解决通用问题的一套方案。

当然我们还尝试过小样本的迁移学习，同样取得了还不错的效果，主体思路的难点在于，如何动态的的挑选推荐样本中哪些样本时具备营销样本迁移学习价值的，我们给出的解决方案通过对齐营销样本与推荐样本，通过聚类和动态迭代不断挑选出和营销域样本更相关的推荐样本，以及对于主播宝贝袋多商品的建模方式等。

结合流控方面的工作与营销部分的探索，我们可以衍生出很多相关的流控与供给端到端联动的应用落地方案，下面简单的介绍一部分应用方案：

泛精细化流量匹配：结合我们的爆品预估/pv价值预估结果，联动直播间端到端实时动态人群，可以比较自然的实现：货找人/人找人。我们可以用我今天想要的货品集合思路去找到直播间当前最相关的一批在线用户，进行流量的激励和调控，也可以通过主播的人设，对标的主播，对这场直播的预期，找具有成熟直播体系的成功标杆主播，用它的受众人群模式去为自己的落地，扶持自身的成长。包括一些爆品的流量打爆等等。

都比较自然的结合了我们营销与流控两部分工作。实时精准流量匹配：通过主播货品信息结合潜在爆品预估/主播看点/货品rundown信息，可以比较自然的构建主播货品粒度直播间实时动态人群调控的应用方案，根据u-a-i的三元关系能力，即针对主播和主播实时讲解的货品信息进行动态人群实时圈选，是很合理的思路演化，例如在主播入淘的调控计划过程中上，主播的货品基本很多都是跨类目的，业务诉求自然的也会希望调控流量能够结合实时货品的信息，保证实时调控人群更加切合当前时段的商品信息。

实时商品信息+主播信息共同inference出复合主播embedding向量实时召回对应的人群数据，在基于直播间实时用户链路基础上，直播动态人群信息数据更新能够在10s量级内完成，通常而言，主播讲解商品排期具有阶段相似性，这个人群时效性已经能够比较好的切合同一场次下的货品实时讲解变化。

新咖主播扶持：提到调控算法建模与营销相关工作，新咖主播的精准扶持是一项重要的业务需求，对于这一部分主播严重缺乏历史信息参考，开播场次少，主播的embedding信息学习不充分。在设计端到端直播精准人群调控方案中对于新咖主播扶持也可以比较好的兼容进来，对于有一定开播场次历史数据的新咖主播，算法可以相对精准的计算出新咖主播相似扩展主播，结合货品类目信息，整体pv价值段预估参考可以相对比较好的锁定新咖主播的相似主播集合，随后对相似主播进行信息聚合产出新咖主播embedding向量来实现实时动态人群调控。

当然我们也经常遇到相对极端的案例，首秀零粉丝开播。在进行动态调控人群的构建时候，我们则采用参考结合行业先验知识的方式构建主播embedding，结合对标主播类目下其他关联主播信息，主播到主播相似扩展，基于知识相似/类目相似主播结合货品类目信息产出候选主播embedding向量，实时去拓用户，实验表明对于纯冷启动新咖主播引入同样获得了较好的效果业务指标。

多元流量价值路径：对于流控调控，不同的调控业务类型，不同类型的人设主播，主播不同的成长阶段，不同场次预期目标安排，对于调控的业务诉求通常有着明显的差异性，在调控完成率的基础上，进一步强化明确激励流量的ROI属性：时长、转粉、转化、用户拉新等是更加自然的业务诉求。我们利用流控端到端联动供给的技术架构，在时长，互动，成交等不同的roi侧重任务中都取得了显著甚至翻倍的核心指标提升。

Q&A

Q：在流量管控和推荐的分发逻辑中，在人群管控上是否可能存在业务或数据逻辑上的冲突？例如，流量管控认为某些用户不适合接收某一类内容，因此不会向他们分发内容；但是后续的算法逻辑可以认为这些被丢弃的用户实际上是高价值用户，这种冲突如何处理呢？

A：实际上，这个问题在各种内容场景下相对普遍。核心问题在于我们对于价值的定义，对于内容场，我们认为通常价值构成其实有三部分，用户价值，创作者价值，平台价值。用户价值比较容易理解，推荐系统通常要解决的核心问题即面向用户进行高效推荐。但在实际业务中，其他价值也是不能忽略甚至至关重要的，像淘宝直播业务，我们需要考虑创作者价值（主播视角价值），平台价值（主播生态，主播成长）等，所以需要在一个更高的维度去进行体系化的方案设计，达到多价值的共同繁荣。

以上就是本次分享的内容，谢谢大家。

▌2023数据智能创新与实践大会

数据架构/数据效能/智能应用/算法创新……

4大体系，专业解构数据智能

16个主题论坛，覆盖当下热点与趋势

70+演讲，兼具创新与最佳实践

1000+专业观众，内行人的技术盛会

点击下方链接了解详情：

X 关闭

淘宝直播流量与供给端到端联动探索

推荐内容

最近更新