OMG合约广告之视频图像标签广告
一、产品介绍
1.1背景
视频图像标签广告出现的主要原因是深度学习图像识别算法的成熟,核心驱动是广告主的强烈需求,同时数据集的快速增长给实现带来极大的便利。
深度学习的兴起
深度学习算法不断优化
GPU飞速发展带来的计算能力提高
深度学习平台的成熟
数据集的快速增长
互联网带来了海量数据
开源数据集越来越多
广告主的强烈需求
广告主对视频图像特定标签投放(如:明星)具有强烈的尝试意愿
在角标、中插、暂停等广告位上,当前播放视频图片是广告的一种强环境属性
通过分析当前播放图片的属性与广告的关系可以带来广告效果的提升
1.2意义
视频图像标签广告的意义分三个方面:
对媒体:挖掘可售卖库存
通过对视频进行分析标注,可以生成视频在某段时间的各种标签
这些标签即是新产生的广告库存,可以用于广告售卖与投放
对广告主:提升广告效果
在视频播放的某一时刻进行角标等广告投放时,当前播放片段的标签信息可以用作点击率预估的特征,进而提升广告效果
对用户:增强广告体验
通过视频图片和广告匹配,可以消除场景与广告不适配带来的负面体验
二、视频图像标签广告
2.1产品架构
系统整体分为五部分:广告需求分析模块、视频标签生成模块、标签模型生成模块、库存预估询量模块、订单投放展示模块
2.2模块介绍
广告需求分析模块:与广告主进行交互,利用广告主提供的图像、文本等信息分析广告主的需求,结合视频标签和标签模型给出下单请求
标签模型生成模块:通过自有数据和开源模型进行图像模型和文本模型的训练
视频标签生成模块:挑选合适的视频在合适的时间段和位置进行标注,输出可用的标签集合、视频到标签的索引,以及标签到视频的倒排索引
库存预估询量模块:接收广告主的请求,进行库存预估和分配
订单投放展示模块:对视频进行广告打点,选择合适的时机进行展示
三、视频图像标签模型
视频图像标签广告出现的主要原因是CNN卷积神经网络的发展,下面简单描述下CNN的发展史
3.1CNN的开端与突破
LNt
标志着CNN卷积神经网络的真正面世
包含现在CNN网络的基本组件:卷积层、Pooling层、全连接层
AlxNt
标志着CNN卷积神经网络的历史突破,比之前的非CNN图像算法大幅度提高分类准确率
提出非线性激活函数RLU,解决梯度消失和爆炸问题
提出防止过拟合的方法Dropout
提出了数据增强方法,将输入图片进行平移,旋转、截取等操作
3.2CNN的发展
3.2.1网络加深
VGG
VGG最突出的贡献在于表明了网络层数越深,效果越好
使用了3x3的小卷积核,提升了精度
3.2.2增强卷积模块功能
IncptionV1
提出了NtworkInNtwork的结构,目的是增强卷积模块功能
简单说就是分成4个通道,然后做一些不同大小的卷积,之后再堆叠起来
增加了网络对尺度的适应性
使用1*1的卷积进行维度变换
IncptionV2
提出了BatchNormalization,使规范化到一个N(0,1)的高斯分布
用2个连续的3x3卷积层(strid=1)组成的小网络来代替单个的5x5卷积层,即保持了感受野又减少了参数
IncptionV3
首次采用了卷积核分解(Factorization),提出nxn卷积都可以通过1xn卷积后接nx1卷积来代替,从而进一步减少参数
3.2.3网络加深+功能增强
RsNt
借鉴HighwayNtwork思想,引入残差结构:相当于旁边专门开个通道使得输入可以直达输出,而优化的目标由原来的拟合输出H(x)变成输出和输入的差H(x)-x
残差网络解决层次比较深的时候无法训练的问题,提高了准确率
Incption-RsNt-V2
简单来说就是用Incption单元来替代RsNt中的卷积层
效果又进一步提升
3.3从CNN到R-CNN
如果说图像分类问题是解决了"是什么"的问题,那么物体检测就是解决了"在哪里"的问题。物体检测一个典型的思路就是去搜索所有可能的位置,然后对这些所有可能的位置进行分类,看看它是否包含特定的物体。
R-CNN
首先候选区域生成(rgionproposal):一张图像生成1K~2K个候选区域(采用SlctivSarch方法,根据颜色,边缘,纹理等等快速地找到可能存在的目标候选框ROI)
然后特征提取:对每个候选区域,使用深度卷积网络提取特征(CNN:VGGRsNt)
接下来类别判断:特征送入每一类的SVM分类器,判别是否属于该类
最后位置精修:使用回归器精细修正候选框位置
Fast-RCNN
R-CNN的主要缺点在于每张候选图像都需要用CNN来计算下特征,实际上,很多的计算应该是可以共享的。其实整张图只需要计算一次就足够了。
联合训练(SVM分类,bbox回归联合起来在CNN阶段训练)将最后一层Softmax换成两个,一个是对区域的分类Softmax(包括背景),另一个是对boundingbox的微调。(同时利用了分类的监督信息和回归的监督信息,使得网络训练的更加鲁棒,效果更好)
Fastr-RCNN提出了一个ROI层,统一将不同大小的特征下采样成7*7的大小送到下一层网络。
Fastr-RCNN
Fastr-RCNN的检测流程如上图所示,其中灰色部分的特征提取网络是RPN网络和FastRCNN所共享的,可以是VGG、RsNt或其他网络。
提取的特征会在51*39个位置上的每个位置,生成9个大小和比例不同的anchor,因此可以检测不同尺寸大小和比例的物体。
不同的anchor对应原图上大小尺寸和比例不同的候选框。这些候选框通过RPN网络后,RPN网络会分别给出属于前景和背景的概率以及候选框的平移缩放尺寸,即是候选的ROI。
通过FastRCNN网络后会输出属于类K的概率和分别属于类L时应该平移缩放的参数。
SSD
SSD采用VGG16的基础网络结构,使用前面的前5层,然后利用astrous算法将fc6和fc7层转化成两个卷积层。再格外增加了3个卷积层,和一个avragpool层。
SSD和Fastr-RCNN的主要不同之处在于Fastr-RCNN需要两个阶段,第一阶段是提取候选框(使用RPN网络自行提取),第二阶段才是对候选框进行物体类别识别和位置精修。而SSD采用了一步到位的方法。
SSD可以看做一个强化版的RPN,但与RPN一个输出层不同,SSD会有好几个输出层:比较浅的输出层分辨率较高,用来检测小一些的物体,比较深的层检测大的物体,最后再把所有层的检测结果合在一起,进行一个非极大抑制(NMS)得到最终的输出,这样可以达到多尺度的目的。
物体检测想要做得更好,本质还是要去解决物体和模板的配准对齐的问题,包括位置和尺度上的对齐。R-CNN系列方法把配准对齐的问题交给了RPN网络,而SSD这种一步到位的检测器,就只能靠模型本身的感受野去做配准对齐。因此从方法论来看,前者更容易学习,效果也会更好,但后者的实时性会更强。
四、产品效果
4.1产品业务
4.1.1场景识别
基础网络:Incption
示例:
4.1.2物体识别
基础网络:SSD
示例:
4.1.3明星人脸识别
基础网络:Incption-RsNt
示例:
4.1.4汽车品牌识别
基础网络:Incption-RsNt
示例:
4.2视频图像标签创造的曝光机会
目前线上已处理数千条视频,其中:
场景标签总共数十万条
物品标签总共数十万条
人脸标签总共数千条
汽车标签总共数百条
平均每个视频有数百条标签,相当于提供数百个潜在播放机会,供角标、中插、暂停等广告使用
参考文献
Y.LCun,L.Bottou,Y.Bngio,andP.Haffnr.Gradint-basdlarningapplidtodocumntrcognition.ProcdingsofthIEEE,86(11):–,.
A.Krizhvsky,I.Sutskvr,andG.Hinton.Imagntclassificationwithdpconvolutionalnuralntworks.InAdvancsinNuralInformationProcssingSystms25,pags–,.
KarnSimonyan,AndrwZissrman:VryDpConvolutionalNtworksforLarg-ScalImagRcognition.CoRRabs/.()
GoingDprwithConvolutions
BatchNormalization:AcclratingDpNtworkTrainingbyRducingIntrnalCovariatShift
RthinkingthIncptionArchitcturforComputrVision
KaimingH,XiangyuZhang,ShaoqingRn,andJianSun.DpRsidualLarningforImagRcognition.IEEEConfrnconComputrVisionandPattrnRcognition(CVPR),
Incption-v4,Incption-RsNtandthImpactofRsidualConnctionsonLarning
R-CNN:GirshickR,DonahuJ,DarrllT,tal.Richfaturhirarchisforaccuratobjctdtctionandsmanticsgmntation[C],CVPR,.
Fast-RCNN:GirshickR.FastR-CNN[C].ICCV,.
Fatr-RCNN:RnS,HK,GirshickR,tal.Fastrr-cnn:Towardsral-timobjctdtctionwithrgionproposalntworks[C].NIPS,.
SSD:SinglShotMultiBoxDtctor
赞赏
转载请注明:http://www.shijichaoguyj.com/wxbz/1555.html