基于实时流的广告特征平台的建设与实践

发布日期：2023-06-28 11:00:58 来源：技术联盟

李渊驰哔哩哔哩技术 2023-06-27 12:01 发表于上海

本期作者

【资料图】

李渊驰

哔哩哔哩资深开发工程师

背景介绍

作为一个拥有庞大年轻用户群体和多元化内容资源的视频平台，B站为广告主提供了丰富的投放场景。为了实现更精准的广告投放，B站商业化技术团队深入挖掘用户、物料、场景等多方面的数据特征，并构建精细化的目标受众画像。这些数据在经过特征计算后会成为模型训练所需的训练样本，通过模型训练得到能够对广告创意进行点击率、转化率预估的深度模型。当用户进行访问时，作为广告检索引擎的一部分，在线CTR预估服务会使用深度模型，对候选集内的广告创意逐个进行点击率、转化率预估，这些数值会在精选阶段用来挑选出价值最高的广告创意返回给用户。模型预估的准确性直接决定了广告检索引擎的效果，为了确保模型训练和模型推理阶段所使用的样本数据的一致性，提供一个全面、稳定、高效的广告特征平台显得尤为重要。

遇到的问题

模型训练

模型训练分为离线训练和实时训练两部分，在构建特征平台之前，特征处理的主要流程如下图所示。

离线训练

离线训练主要用于训练以天为单位的模型，通过处理前一天的日志数据得到训练样本，分为数据拼接、样本生成、模型训练三个阶段：

1) 数据拼接

将广告引擎日志和用户行为日志进行拼接，写入日志消息队列，进一步和离线Hive表和离线Redis库中的预处理数据进行拼接，生成离线Hive表作为离线视图，最后将数据文件存储至HDFS。

2) 样本生成

使用MapReduce框架读取并处理HDFS上的数据文件，使用Python脚本进行特征计算，将生成的训练样本文件存储至HDFS。

3) 模型训练

模型训练框架从HDFS读取样本文件，执行模型训练任务。

实时训练

实时训练主要用于训练以小时为单位的模型，通过处理前一个小时的日志数据得到训练样本，由于处理的数据量较小且时效性更高，实时训练能够得到更好的效果：

1) 数据拼接

与离线训练有所不同，实时训练的过程中，在日志消息与离线数据进行拼接后，将消息写入新的消息队列作为实时视图。

2) 样本生成

使用Flink流处理框架读取消息队列，使用Java实现的UDF来进行特征计算，将生成的训练样本文件存储至HDFS。

3) 模型训练

模型训练框架从HDFS读取样本文件，执行模型训练任务。

模型推理

在线CTR预估服务，将使用深度模型对候选集中的广告创意进行点击率、转化率预估，其中特征处理的主要流程如下图所示：

在线推理

在线服务部分，CTR预估服务会将请求侧数据和广告侧数据进行拼接，处理后生成推理样本，与模型训练类似，也分成数据拼接、样本生成、模型推理三个阶段：

1) 数据拼接

广告检索引擎将请求侧数据和从BS服务召回的广告侧数据发送至CTR预估服务，CTR预估服务与在线词表和在线Redis进行拼接。

2) 样本生成

CTR预估服务使用C++实现的特征计算算子完成特征处理，生成训练样本。

3) 模型推理

CTR预估服务使用深度模型对样本进行推理，计算得到广告创意的点击率、转化率预估值。

结合上述模型训练和模型推理的执行流程，可以发现现有系统存在以下问题：

1) 数据源分散

训练时数据源来自于多个预处理结果，拼接成本较高。

2) 数据不一致

训练时数据和推理时数据的产出分别来自于两组任务，任务间数据处理方式存在差异，产出版本也不统一。

3) 计算不一致

在离线训练、实时训练、在线推理三个流程的特征计算阶段，分别需要使用Python、Java、C++三种语言进行实现，代码逻辑难以完全一致。

4) 排查问题成本较高

当需要排查模型训练和模型推理的一致性问题时，离线无法获取推理阶段使用的完整特征数据，难以快速准确定位问题。

架构设计

针对上述问题，我们希望能够提供一个涵盖模型训练过程和模型推理过程的特征平台，确保模型训练时和推理时样本数据的一致性，从而提升模型预估的效果。同时考虑到模型训练过程中，数据拼接阶段的资源开销，我们设计了一套基于在线服务侧的实现方案，通过在线服务侧上报特征数据的方式，大幅简化了模型训练过程中的数据拼接工作。新的实现方案涵盖了模型推理和模型训练两个部分，具体如图所示：

模型推理

模型推理侧的升级点主要是提供了竞胜广告的特征数据上报能力，具体包括了：

1) 获取实时Redis数据上移至广告检索引擎

Redis中主要存储了实时的用户侧特征数据，获取数据的操作上移至广告检索引擎后，确保了发送至CTR预估服务和特征上报服务的用户侧特征是一致的

2) 新增在线特征上报服务

在线服务侧新增了特征上报服务，广告检索引擎在返回竞胜的广告创意前，会将该广告侧数据和请求侧数据一起发送至特征上报服务。该服务与CTR预估服务使用相同的代码实现，并且加载了相同的在线词表，在经过数据拼接阶段后，会将拼接完成的信息作为一条文本消息上报至消息队列，其中包含了特征计算阶段所需的全部字段。

3) 升级C++特征计算库

通过进一步优化，将CTR预估服务中的特征计算模块升级成了特征计算库，主要进行了如下修改：

a. 新增序列化/反序列化功能，能够对拼接后的用户侧和广告侧数据进行序列化/反序列化操作。

b. 移除/简化第三方库的依赖，尽可能降低JNI调用过程中的额外依赖。

模型训练

模型训练侧的升级点主要是简化了数据拼接，并且统一了模型训练和推理的特征计算实现，具体包括了：

1) 简化数据拼接

由于特征上报日志中已经包含了特征计算的全部字段，因此新方案只需要拼接用户行为日志和特征上报日志，将结果写入消息队列即可得到实时视图，将结果写入Hive表即可得到离线视图。

2) 统一离线训练和实时训练

在离线训练的过程中，使用Flink-Batch的方式从离线视图中获取数据，后续操作与实时训练相同，使用UDF生成训练样本，并将样本数据写至HDFS。

3) 使用JNI调用特征计算库

使用JNI技术实现了在Flink流处理框架中，通过UDF调用C++特征计算库进行处理，统一了特征计算的代码实现。

实践及收益

自特征平台上线以来，已有三个深度模型采用新方案进行训练，在模型效果和训练成本上均取得了显著收益。

在模型效果方面，累计修复了72%的特征一致性问题（其中9%的特征严重不一致，diff比例大于10%），从而提高了模型预估的准确性。这使得效果广告整体收入提升了1.30%，同时在信息流、Story和播放页三个场景中，点击率分别提升了4.61%、1.36%和2.42%。

在训练成本方面，大幅简化了离线训练和实时训练过程中的数据拼接，降低了Flink硬件资源需求，使得模型训练的Flink任务并发度下降了79%。此外，通过对视图模块的重构，训练任务流程变得更加清晰简洁，进一步降低了模型迭代和问题排查的成本。

总结和展望

在商业技术部的工程团队、数据团队和算法团队的紧密协作下，我们成功构建了一套实时流广告特征平台。这一平台克服了数据源分散、数据不一致、计算不一致以及排查问题成本较高等诸多挑战。它为离线训练和实时训练提供了一套统一的数据处理和特征计算方案，简化了数据拼接流程，提升了模型预估的准确性，并降低了训练成本。

为了持续优化广告特征平台，各团队将在未来的工作中加强沟通与协作，共同探讨和研究平台的优化方向。我们将致力于进一步提升模型性能，优化训练和推理流程，并为商业化业务的持续增长提供坚实的技术支持。

以上是今天的分享内容，如果你有什么想法或疑问，欢迎大家在留言区与我们互动，如果喜欢本期内容的话，欢迎点个“在看”吧！

标签：

上一篇:环球快报:三亚鸟巢度假村别墅（三亚鸟巢度假村） 下一篇:环球快报:三亚鸟巢度假村别墅（三亚鸟巢度假村）

基于实时流的广告特征平台的建设与实践

基于实时流的广告特征平台的建设与实践

李渊驰哔哩哔哩技术2023-06-2712:01发表于上海本期作者李渊驰哔哩哔哩

环球快报:三亚鸟巢度假村别墅（三亚鸟巢度假村）

当前大家对于三亚鸟巢度假村都是颇为感兴趣的，大家都想要了解一下三亚

ST通脉6月28日快速反弹

以下是ST通脉在北京时间6月28日10:17分盘口异动快照：6月28日，ST通脉

“黑豹妈妈”获奥斯卡终身成就奖|每日看点

【环球时报综合报道】奥斯卡主办方美国电影学院26日宣布，奥斯卡将授予

环球关注：“戊戌六君子”之一，以24岁年华，碧血染千秋｜栋栋娜娜说福建历史名人（89）

闽山绵延，铸就福建人不屈的脊梁；闽水滔滔，赋予福建人宽广的胸怀。这

6月28日生意社异丁醛基准价为6533.33元/吨

6月28日，生意社异丁醛基准价为6533 33元 吨，与本月初(7533 33元 吨)

每日看点!朱法栋调研合作桥乡、新桥镇重点工作

红网时刻张家界6月27日讯（永定区融媒体中心记者谢丽琼）6月27日，永定

普京：俄强力部门遏制了一场内战|今日关注

俄罗斯总统普京当地时间27日说，俄强力部门人员平息叛乱企图，实际上是

新紧凑型SUV皓瀚开启盲订 搭载东风自主研发的“车慧眼” 每日时讯

东风风神全新紧凑型SUV——皓瀚于6月25日开启盲订。该车采用DSMA2 0平

20年来首次！美国出现5例疟疾本地感染病例_环球快讯

财联社美国联邦卫生官员表示，美国已发现5例疟疾感染病例，这是自2003

卓胜微（300782）：6月27日北向资金减持48.61万股

6月27日北向资金减持48 61万股卓胜微。近5个交易日中，获北向资金减持

09款奥德赛 操作手册下载_09款奥德赛_全球要闻

1、2009款的本田奥德赛车型，实际使用过程当中的油耗大约在百公里10升

世界球精选！央广网财经分享会在京召开 专家学者热议高质量发展新动能

6月27日，央广网财经分享会在北京召开。本期分享会主题为“新产业新消

全球快讯:星球石墨：证监会同意公司发行可转债募资不超6.2亿元

星球石墨6月27日公告，中国证券监督管理委员会同意公司向不特定对象发

辣食尚麻辣香锅加盟怎么样？加盟辣食尚麻辣香锅有哪些好处？

品牌名称辣食尚麻辣香锅加盟所属行业麻辣香锅主营产品麻辣香锅加盟费用

每日视讯：“一带一路”青年长沙说③｜一花不是春！长沙文化“走出去”，各国青年“走进来”

湖南日报·新湖南客户端6月27日讯（记者熊远帆）今天上午，2023“一带

消息！东塘街道牛婆塘社区举办安全生产月主题活动

湖南日报新湖南客户端6月27日讯（通讯员李靖）今年6月是全国第22个安全

世界实时：江西农业银行

本文内容是由小编为大家搜集关于江西农业银行，以及的资料,整理后发布

吃夏黑葡萄会胖吗 吃夏黑葡萄注意什么

夏黑葡萄的特点是早熟，无核，高糖低酸，香味浓郁，肉质细脆。适量食用

中国太平重疾险怎么样？通过了解公司发展、产品信息和产品费用三方面-每日热闻

中国太平重疾险怎么样？2023年第一季度的偿付能力报告显示，核心偿付能

环球短讯！广康生化龙虎榜：机构净卖出710万元

广康生化龙虎榜：机构净卖出710万元

中国女篮34分大胜新西兰

北京时间6月27日，2023年女篮亚洲杯小组赛，中国女篮80-46大胜新西兰队

马克笔是什么笔是水彩笔吗_马克笔是什么

1、麦克笔（英语：Markerpen或marker），又名记号笔。2、是一种书写或

当前快讯:甬金股份(603995.SH)拟将公司名称变更为“甬金科技集团股份有限公司”

智通财经APP讯甬金股份603995SH发布公告随着公司的不断发展公司规模日

万联证券：LPR下调，房贷利率调降空间进一步加大|热资讯

乐居财经李礼6月27日，万联证券发布房地产行业周观点。行业核心观点：

安装 6 月更新后，部分谷歌 Pixel 6/7 用户遭无故耗电和过热问题

山东中医药大学组织统一战线专家赴宁津开展义诊活动 世界今热点

Ace系列手机骁龙升级 助力销量同比提升362%

北京大学国家发展研究院张维迎：不应频繁调整利率政策

居民如何看待既有住宅加装电梯？面临哪些堵点？上海这样推进→

大通退6月27日打开涨停_环球观点

有界线性算子的动力学性质_对于有界线性算子的动力学性质简单介绍 天天速读

长安汽车增资至76亿

午间公告：浙江交科拟对子公司增资10亿元

昆明5岁男童被幼儿园老师掐得青一块紫一块！出现中度抑郁，甚至自残……

华匠医学机器人完成数千万元 A+ 轮融资

借呗逾期会上门核实吗？会影响信用吗？

杭州富春江畔双浦镇：村民家门口出摊，拉满人间烟火气

薛明耀调研园林绿化管护及道路工程建设

全球快看：未成年怎么样才能还清欠父母的债

广东省德庆县发布大雾黄色预警 当前关注

2021冬天送男友什么礼物最好

短期压力犹存 人民币汇率将回归宽幅震荡格局_全球速看料

2014年执业药师考试成绩查询不到_2014年执业药师考试成绩查询 全球热讯

千方百计优服务解难题 以助企实效力促经济持续回升向好

暗渡陈仓的典故 关于暗渡陈仓的典故_世界视点

今日热议：移动端必备！这个工具高速下载全网资源，比迅雷好用十倍

有点_对于有点简单介绍

两天跌去30%！AI大牛股玩砸了 接下来怎么走？知名媒体人高调宣布进入股市

昆明学院举行电商直播大赛

下拉菜单是否怎么设置_下拉菜单怎么设置简介介绍 世界观察

“杨一刀”手执小小银针在非洲圈粉，勤学苦练掌握针刀“绝活” ，援非期满后主动申请“再干一年”

新消息丨感受长江壮阔与都市繁华 徒步“万里长江第一桥”成外地游客首选

环球百事通！浣熊_浣

6月28日，生意社异丁醛基准价为6533 33元吨，与本月初(7533 33元吨)

新紧凑型SUV皓瀚开启盲订搭载东风自主研发的“车慧眼” 每日时讯

09款奥德赛操作手册下载_09款奥德赛_全球要闻

世界球精选！央广网财经分享会在京召开专家学者热议高质量发展新动能

吃夏黑葡萄会胖吗吃夏黑葡萄注意什么

山东中医药大学组织统一战线专家赴宁津开展义诊活动世界今热点

Ace系列手机骁龙升级助力销量同比提升362%

有界线性算子的动力学性质_对于有界线性算子的动力学性质简单介绍天天速读

广东省德庆县发布大雾黄色预警当前关注

短期压力犹存人民币汇率将回归宽幅震荡格局_全球速看料

2014年执业药师考试成绩查询不到_2014年执业药师考试成绩查询全球热讯

千方百计优服务解难题以助企实效力促经济持续回升向好

暗渡陈仓的典故关于暗渡陈仓的典故_世界视点

两天跌去30%！AI大牛股玩砸了接下来怎么走？知名媒体人高调宣布进入股市

下拉菜单是否怎么设置_下拉菜单怎么设置简介介绍世界观察

新消息丨感受长江壮阔与都市繁华徒步“万里长江第一桥”成外地游客首选

聚焦：丹寨供电局：送清凉保供电

游客踢死大雁未被追责并非园方和稀泥

摇头摆尾的动物是什么属相_摇头摆尾的动物是什么生肖环球速递

23浙江债35今日发布发行公告天天热点评

盈盛控股乔迎宾：不显山露水潜心打造“智能办公”

中沃防火门马忠良：前半生守国门后半生护家门

商家花10万请人直播带货结果3个月卖了不到700元