博彩社区 博彩社区» 招生专栏
.
Wang, G., Wu, X., Liu, Z., & Qin, Z. (2023). Reducing 0s bias in video moment retrieval with a circular competence-based captioner. Information Processing & Management, 60(2), 103147. 国际B类期刊
论文简介:本文旨在解决根据自然语言文本查询从未裁剪的视频中检索特定片段的问题。现有方法通过设计多种结构来匹配视觉与文本关系,已达到较高性能。然而,这些方法易返回从0s开始的时间片段,本文称之为“0s偏差”。针对这一问题,本文提出循环协同教学(CCT)机制,利用字幕生成器从两个方面改进现有定位器:标注偏差与简单样本。相应地,CCT 包含两个过程:(1)伪查询生成(字幕生成器到定位器),目的在于将生成查询的知识迁移到定位器以平衡标注分布;(2)基于能力的课程学习(定位器到字幕生成器),在定位结果的指导下,以由易到难的方式训练字幕生成器,使假正样与伪查询构成的样本变成对定位器来说的简单样本。大量实验显示,本文提出的CCT可以减轻“0s偏差”,在两个公开数据集(ActivityNet-Captions与Charades-STA)上,相比现有方法在R@1,IoU=0.7这一指标上的平均精度提高约4%。