机器之心原创
作者:吴欣
手握腾讯全系广告资源位,百亿级的日均曝光,腾讯广告可谓是一个被忽视的大规模AI技术「练兵场」。
这是陶明第三次参加腾讯广告算法大赛。他来自吉林大学,这一赛事恰好也贯穿了他的研究生生涯。他从研一开始参加第一届大赛,到如今他已研三毕业,腾讯广告算法大赛也步入了第三年。
除了通过大赛交流学习外,验证自身对于算法的思考成为他参加本次广告大赛的重要因素。谈起这三年「打比赛」的经历他深有感触:最开始选手都采用相类似的模型,如今模型差异与多样化越来越明显;最开始大家主要使用XGBoost机器学习算法做预测,而如今更多使用效果更优的LightGBM算法,同时深度神经网络也成为选手尝试的对象。
陶明也是腾讯广告算法大赛的「常胜将军」,第一届比赛团队斩获季军,第二届团队获得冠军,今年第三届又摘得季军,可谓硕果累累,小有收获。或许正是大赛所带来的积淀与成就感,他也选择以一名算法工程师的身份作为自身职场的开端。
而在腾讯广告算法大赛的背后,腾讯广告正试图以大赛为纽带,连接工业界和学术界,由腾讯广告提供经过脱敏处理的实际业务数据和真实应用场景,结合学术界的技术探索,从而推动腾讯广告乃至引领整个互联网广告行业的发展。
1.从真实业务场景出发
在互联网广告中,广告主十分关心一件事——如何用尽可能少的成本达到预期的投放效果。此时,广告曝光预估就显得尤为重要,它是一种更直观的投入产出量化参考工具,广告主可以根据曝光预估结果提前调整广告投放出价、定向、时段等设置,制定合适的广告投放策略。
更准确的广告曝光预估对广告主而言无疑是一把「利器」,能够帮助广告主达成更好的传播效果,并节省试错的时间和金钱成本。
但要把广告曝光预估做到极致,对于行业而言并非易事。以腾讯广告为例,它涉及社交、游戏、音乐、视频、新闻等多元复杂的场景,每个场景都有较大的差异,以腾讯新闻为例,这一产品具有很强的媒体属性,往往一个热点新闻发生后,形成用户人群的流量波峰,进而导致不同时间段内流量有较大的波动,广告曝光的量级极有可能产生巨大变化,这都给预估工作带来很大挑战。
因此,腾讯广告从实际业务出发,将广告曝光预估作为本届广告算法大赛的考题,开放源于业务的脱敏广告数据,并提供算力支持,以期在学术界点燃星星之火,通过AI和机器学习解决实际问题。这一点与前两届比赛可谓一脉相承。
腾讯广告副总裁罗征
腾讯广告副总裁罗征解释,「广告曝光预估是一个重要工具,并且这也是广告主们最关心的工具之一,曝光预估准确能对广告投放的操作效率有很大提升,因此我们选择了这一内容作为今年的赛题。」
要想打造一个预测模型,首先要了解腾讯广告的业务逻辑。
腾讯效果广告采用的是GSP(GeneralizedSecond-Price)竞价机制,广告的实际曝光主要取决于两个因素,广告的流量覆盖大小和在竞争广告中的相对竞争力水平。
其中,广告的流量覆盖取决于广告的人群定向(匹配对应特征的人群数量)、广告素材尺寸(匹配的广告位)以及投放时段、预算等。而广告的竞争力水平主要受出价、广告质量、用户体验等因素的影响。
综上,前者决定广告能参与竞争的次数以及竞争对象,后者决定在每次竞争中的胜出概率。二者最终决定广告每天的曝光量。
而对于腾讯广告算法大赛的参赛选手而言,他们首先需要将广告业务语言来转化为可量化的数值指标,即将广告设置的人群定向、投放时段、选择的流量版位、竞价方式、出价等转化为描述覆盖用户人群大小、竞争环境激烈程度以及自身竞争力相对水平等数值指标。
选手通过历史中各类广告在竞价系统中的曝光历史进行训练,以学习出竞争环境的变化趋势以及广告竞争力水平和最终曝光效果的隐藏联系,达到预估广告未来曝光的目标。
一位闯入决赛圈的统计学研一学生表示,「比赛中我们遇到的最大挑战是对广告业务的理解,另外因为非科班出身,我们在算法上的基础较弱。」
尽管各个参赛团队面临的问题不同,但对于业务场景的理解,对于算法模型的思考都是比赛考核的重点。此外,大赛除了常规的准确性指标考核外,还加入出价单调性相关的评估指标,以此凸显对实际业务场景的重视。
2.从象牙塔走向练兵场
本届腾讯广告算法大赛共吸引了1万余名海内外选手参与,经过近3个月的角逐,10支队伍进入决赛现场,在腾讯滨海大厦展开最后PK。
机器之心发现,进入决赛的选手多在研究生阶段。颇为有趣的是,本届比赛除了学生选手外,还有多个工业界团队参与,学界工业界一起打擂。
透过10支队伍的现场答辩展示,我们看到各个队伍基于对赛题的理解,制定相应的策略,进而提取特征,搭建自身的模型。今年决赛队伍使用模型的共性是,大多数团队都使用了LightGBM机器学习模型,以及深度神经网络(NN),并且机器学习的权重会更高,不同之处在于在主流框架基础上,各个团队探索了多样化的算法应用。
来自甜橙金融的工业界团队并没有使用流行的NN模型,他们主要基于LightGBM模型进行预测,也取得了决赛第四的成绩。
决赛第七团队「人工智障」的一位选手分享道,最开始他一直在探索NN模型在广告曝光预估中的应用,但尝试过后发现NN模型的效果并不如队友用LightGBM做出的效果,最终他们通过近3:7的权重进行模型融合,取得了不错的效果。
冠军队伍「鱼遇雨欲语与余」答辩环节
最为值得