多媒体技术论文研读 告

多媒体技术论文研读 告

一、论文基本信息

二、研究背景

随着互联 人工智能技术的飞速发展,学习用户特征并精准投放广告能够显著提升广告的点击率(ClickThrough-Rate,CTR)与转化率(Conversion Rate,CVR).人群智能定向是解决广告投放问题中极其重要的一环,业界主流方法是使用转化用户和非转化用户训练基于用户特征的判断其是否会成为转化用户的分类模型.该分类器的优劣依赖广告的实际转化人群规模,但在实际应用中通常面临某些广告转化人群不足的问题,现有的单模态检索方案只关注于单个模态的特征(文本/图像),忽视了不同模态间的内在共有联系,使得挖掘出的广告特征不全且包含大量噪声,最终导致相似广告的检索结果质量不高,从而导致相似转化人群的扩充质量低下.而近年来兴起的跨模态检索方案主要关注以文搜图或以图搜文,并且没有考虑到通用目标检测器并不适用于特定领域图像数据这一事实.

三、研究方法

基于目前精准投放广告模型的问题,该论文提出了一种以广告分类为基本训练目标的多模态商品广告特征融合建模方法,具体来说,分别使用Transformer模型提取文本语义特征,使用目标检测YOLO模型挖掘图像中细粒度的视觉特征,并结合文本注意力机制识别图像中与商品相关的目标,以降低无关目标给广告特征带来的噪声影响.同时,该文提出了一种多模态融合注意力机制,以高效融合广告文本和图像特征.该模型命名为ToTYEmb(Text oriented Transformer-Yolo fusion Embedding).另外,该文还将相似广告扩充、转化人群扩充加入到现有的人群智能定向工作流中。模型整体架构如图1所示。

图2 人群智能定向更新与可插拔相似广告检索地扩充框架

四、结论和心得

4.1模型结果

该文以Word2Vec、ELMo、GPT、Bert、RoBerta、VGG16、InceptionV4、YOLO、ViLBERT、ESIM、ABCNN和DIIN为基线模型,该文模型整体来看,依据图文融合embedding思想所构建地最后三种模型在precision@k地指标上均远远高出单独从文本/图像角度依据embedding/matching方式召回相似广告,Top10精确率至少高出15个以上的百分点,这表明融合文本与图像信息对于相似广告检索而言是至关重要的。

多媒体技术论文研读 告

表1 文本方法和基线方法召回实验效果对比

4.2 心得

ToTYEmb模型能提取图文嵌入作为广告地融合内容特征,同时融合文本语义信息和图像的视觉信息,解决相似广告检索问题,进而将其作为可插拔组件加入到现有人群智能定向更新框架中,提升广告投放推荐的效果。相比于其它方法,该模型有如下优势:(1)利用YOLO以及基于文本线索的注意力机制,可提取出商品对应区域目标特征,从而减少背景噪声和无关目标。(2)以文本为线索,引导YOLO模块区域排序,避免丢失重要信息。(3)多模态注意力机制有效融合了文本模态和图像模态,使得特征向量更加健壮。
本次研读的这篇论文,让我开拓了视野。其能提取图文嵌入作为广告的融合内容特征,同时融合文本语义信息和图像信息,弥补了单模态Embedding信息的不足。能够讲文本和图像很好的结合起来,用于相似广告的检索,有很强的实际意义与落地空间。但现实生活中,海量的广告数据只有图片或者文字,如何实现模态之间的转换,弥补单模态的缺陷仍需要进行解决。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年10月22日
下一篇 2022年10月22日

相关推荐