稠密边界视频动作检测器DBG：Fast Learning of Temporal Action Proposal via Dense Boundary Generator [AAAI 2020]

本文主要针对时序动作提名生成任务提出了一种新的方法：稠密边界生成器(Dense Boundary Generator, DBG)，能够端到端地生成高质量的时序动作提名。

BSN等基于概率序列的自下而上的方法，它生成开始和结束的时间概率序列，匹配概率峰值生成proposal，但是每个时间点只包含少量的局部信息，大概3~4s，因而无法处理复杂的活动和杂乱的背景，模糊边界定位不精确。

我们提出了密集边界生成器(DBG)，利用全局提案特征来预测边界图，并探索动作感知特征进行动作完整性分析。

给定一个长视频，DBG同时生成三个评分图（开始、结束和动作完整性评分图），密集地评估所有提议。

DBG框架结构

利用3D卷积网络提取视频的RGB特征和光流特征。

双流基网络 Dual Stream BaseNet

输入是RGB特征和光流特征，输出是两种类型的特征：

Action-aware completeness regression

橙色的提案特征生成器分别生成两种特征组，上面一种L×L×32，L是视频特征序列的长度。最后输出预测动作完整性的分数图。

32的由来如下：分别对提案的开始和结束处扩展更多的区域，开始、动作和结束区域各采样8,16,8个点。

Temporal boundary classification

L×L×128×32

最后将四维特征图处理为两个开始和结束的概率置信度图。

后处理

融合开始分数×结束分数×完整性分数作为提案的分数，再利用soft nms检索N个提案。