0%

【论文笔记】Fast Learning of Temporal Action Proposal via Dense Boundary Generator

稠密边界视频动作检测器DBG:Fast Learning of Temporal Action Proposal via Dense Boundary Generator [AAAI 2020]

本文主要针对时序动作提名生成任务提出了一种新的方法:稠密边界生成器(Dense Boundary Generator, DBG),能够端到端地生成高质量的时序动作提名。

BSN等基于概率序列的自下而上的方法,它生成开始和结束的时间概率序列,匹配概率峰值生成proposal,但是每个时间点只包含少量的局部信息,大概3~4s,因而无法处理复杂的活动和杂乱的背景,模糊边界定位不精确。

我们提出了密集边界生成器(DBG),利用全局提案特征来预测边界图,并探索动作感知特征进行动作完整性分析。

给定一个长视频,DBG同时生成三个评分图(开始、结束和动作完整性评分图),密集地评估所有提议。

image-20211122221510253

DBG框架结构

image-20211122221111307

视频表示 Video Representation

利用3D卷积网络提取视频的RGB特征和光流特征。

密集边界生成器 Dense Boundary Generator

双流基网络 Dual Stream BaseNet

输入是RGB特征和光流特征,输出是两种类型的特征:

  • 双流特征:low-level,L×128
  • 动作评分特征:high-level,L×1

Action-aware completeness regression

橙色的提案特征生成器分别生成两种特征组,上面一种L×L×32,L是视频特征序列的长度。最后输出预测动作完整性的分数图。

32的由来如下:分别对提案的开始和结束处扩展更多的区域,开始、动作和结束区域各采样8,16,8个点。

image-20211122232735105

Temporal boundary classification

L×L×128×32

最后将四维特征图处理为两个开始和结束的概率置信度图。

后处理

融合 开始分数×结束分数×完整性分数 作为提案的分数,再利用soft nms检索N个提案。

实验

image-20211123192610545

与BSN对比

  • 本文是端到端
  • 由一维边界概率序列变为二维分数图

  • 本文引入动作提名特征生成层,该层能够有效捕获动作的全局特征,便于后面的分类和回归模块

    image-20211123200555494

下周计划

  1. 继续调研论文,看看和本文思路相似的BMN和MGG
  2. 未来两周考试周,好好复习



-------------------本文结束 感谢您的阅读-------------------