稠密边界视频动作检测器DBG:Fast Learning of Temporal Action Proposal via Dense Boundary Generator [AAAI 2020]
本文主要针对时序动作提名生成任务提出了一种新的方法:稠密边界生成器(Dense Boundary Generator, DBG),能够端到端地生成高质量的时序动作提名。
BSN等基于概率序列的自下而上的方法,它生成开始和结束的时间概率序列,匹配概率峰值生成proposal,但是每个时间点只包含少量的局部信息,大概3~4s,因而无法处理复杂的活动和杂乱的背景,模糊边界定位不精确。
我们提出了密集边界生成器(DBG),利用全局提案特征来预测边界图,并探索动作感知特征进行动作完整性分析。
给定一个长视频,DBG同时生成三个评分图(开始、结束和动作完整性评分图),密集地评估所有提议。
DBG框架结构
视频表示 Video Representation
利用3D卷积网络提取视频的RGB特征和光流特征。
密集边界生成器 Dense Boundary Generator
双流基网络 Dual Stream BaseNet
输入是RGB特征和光流特征,输出是两种类型的特征:
- 双流特征:low-level,L×128
- 动作评分特征:high-level,L×1
Action-aware completeness regression
橙色的提案特征生成器分别生成两种特征组,上面一种L×L×32,L是视频特征序列的长度。最后输出预测动作完整性的分数图。
32的由来如下:分别对提案的开始和结束处扩展更多的区域,开始、动作和结束区域各采样8,16,8个点。
Temporal boundary classification
L×L×128×32
最后将四维特征图处理为两个开始和结束的概率置信度图。
后处理
融合 开始分数×结束分数×完整性分数 作为提案的分数,再利用soft nms检索N个提案。
实验
与BSN对比
- 本文是端到端
由一维边界概率序列变为二维分数图
本文引入动作提名特征生成层,该层能够有效捕获动作的全局特征,便于后面的分类和回归模块
下周计划
- 继续调研论文,看看和本文思路相似的BMN和MGG
- 未来两周考试周,好好复习