体育视频的内容标注和解析技术研究
这篇体育视频的内容标注和解析技术研究的关键词是内容,研究,体育,技术,视频,
一,开展本课题研究的意义
近年来,数字视频的应用日趋广泛.诸如视频点播,数字电视,数字图书馆,视频会议,远程教育等等,已经为越来越多的人所接受和熟悉.面对大量涌现的视频数据,如何找到所需的视频信息就成为一个急需解决的问题.
简单的视频名查询和类似录像机的播放功能已不能满足人们的需要.正如一本书通常会有目录和索引帮助人们迅速浏览和查询内容,一部视频同样需要有效的目录和索引.传统的方法需要由人对视频内容进行标注,十分费时费力.尤其是当视频资源的数量达到海量级,或是处理的速度要求接近实时的时候,完全采用人工的方法都会遇到难以克服的困难.为了解决这一问题,九十年代以来,出现了基于内容的视频分析和检索[1][2][3].其核心就是通过对视频内容进行计算机分析理解,建立结构和语义索引,以方便用户检索.
巨大的商业前景和重要的学术价值,吸引了来自于业界和学术界不同领域的研究人员在这一问题上开展研究.一些原型系统先后被提出,主要有IBM的QBIC/CueVideo[4][5],Virage公司的Video Engine[6],卡内基梅隆大学的Informedia[7],哥伦比亚大学的VideoQ[8]等.这些努力最终促成了国际标准——MPEG-7(多媒体内容描述接口)的诞生.但是随着问题的深入,研究人员面临了更大的障碍:视觉/听觉内容的机器理解,即难以建立底层特征与高层语义的联系.同样的难题困扰了人工智能领域多年.一般认为,寻找通用的解决方法是异常艰难的.因此,一些研究转而专注于解决特定领域的应用问题,如新闻,电影等.在这些特定领域,结合相应的领域知识,是可能将底层特征与高层语义建立某种联系的.
体育视频,即体育比赛的电视转播,作为一个重要的应用领域,一直备受关注.体育比赛一般很漫长,但对于大多数观众来说,真正关心并有可能反复观看的只是其中的一小部分.例如一场跳水比赛常常需要持续几个小时,而其中的精彩部分——运动员从起跳到入水的过程却只有短短几分钟.人们需要一种方便快捷的手段来访问体育视频的内容.
与其他视频相比,体育视频具有自己的特点.首先,体育视频中存在一些领域相关的语义事件,如跳水比赛中运动员的跳水,足球比赛中的射门等.这些语义事件往往是视频中最有价值的部分,需要进行标注以便于检索.其次,体育比赛一般有较强的结构性,如跳水比赛由若干轮组成,每轮又由若干选手组成等.为了便于对视频内容的浏览,原始的视频数据应按这些结构进行解析并组织成层次目录.本课题的目标就是研究针对体育视频内容的语义标注和结构解析技术.
尽管限于当前的技术水平,完全自动的,通用的视频内容理解是不太可能的,但是本课题的研究将证明部分的解决是有可能的和有价值的,此外我们的研究也将为最终的全面解决奠定基础.除了学术上的意义,本课题的研究还可以有以下一些直接的应用:
1,视频资料库:适用于各类体育专业人士或爱好者对收集的体育比赛视频资料进行查询,浏览和管理.目前,我们已申请到国家体育总局的科研项目——跳水训练图像分析软件系统研制.通过对跳水比赛视频的内容标注与解析,能够方便快捷的实现一个典型动作的视频数据库.
2,Web多媒体发布:适用于新闻或者体育网站在Web上及时发布体育多媒体信息.今天,已经有越来越多人的习惯于从网上获取最新的资讯.基于我们的技术,可以在第一时间采编和发布综合图文和视音频在内的体育多媒体信息.
3,个人移动业务:适用于无线服务提供商为个人提供定制的多媒体消息服务(Multimedia Message Service,简称MMS).我们的内容标注和解析技术,可以为冗长的体育视频生成摘要,从而可以根据用户的个人喜好和终端能力,向移动设备发送体育多媒体消息.
二,国内外研究现状分析
国际上对于体育视频的研究是从90年代中期开始的,属于视频检索领域的一个子课题.与新闻视频领域取得的成功相比[9][10][11],体育视频的研究相对较少也更为困难.这主要是因为新闻视频有一个基本一致的时域结构和场景语义,即先是播音员镜头,然后是新闻报道,最后再回到播音员镜头进行下面的新闻报道,而对于体育视频则不存在这样统一的结构和语义.目前体育视频的研究尚处于初期探索阶段,对于其过程和方法还没有统一的结论,也还没有可以投入实用的系统.
1,镜头检测
通常在对体育视频进行分析前,需要将其分割成镜头.所谓镜头,是指摄像机不间断拍摄的一组帧序列,它常被看成一部视频的最小结构单元.为了将镜头分割出来,需要进行镜头边界检测.镜头与镜头之间的边界有两种类型:突变和渐变.突变时,镜头直接切换到下一个;渐变时,从一个镜头到下一个镜头会有一个持续多帧的变化过程,常见的主要有淡出淡入(fade out and fade in),溶解(dissolve),擦变(wipe)等.淡出淡入是指视频帧逐渐隐去直到完全黑屏,再逐渐显现后一镜头的帧图像.溶解是指在前一镜头帧图像逐渐模糊的同时,后一镜头的帧逐渐增强,并且产生前后帧图像的重叠.擦变表现为后一镜头帧图像的区域逐渐变大把前一镜头的图像擦掉.
镜头检测的关键问题是如何区分镜头之间的切换和因为摄像机或物体运动造成的镜头内变化.由于这个原因,渐变比突变更难以检测.早期的工作主要在突变检测,近来更多的研究集中到对渐变的分析.
镜头检测的方法可以分为两类:非压缩域的和压缩域的.在[12][13]中,对各种非压缩域的镜头检测算法进行了实验评价.与非压缩域的方法相比,基于压缩域的方法不需要对视频编码流进行解码,而是直接使用如DCT系数,运动矢量,宏块(macroblock)信息等压缩域特征进行分析,从而提高了处理速度[14][15][16][17].今天大量的视频数据是以压缩格式(如MPEG)存储的,因此基于压缩域的方法往往具有更大的实用价值.
2,语义标注
所谓语义标注,是指对体育视频中的语义事件进行检测和标注,其实质就是依据事先定义好的类别对视频片段进行识别.当前,国内外对体育视频研究实际上主要集中在这个方面,下面介绍一下相关工作.
Y. Gong等首先提出了对足球比赛视频的分析[18].他们结合足球比赛的领域知识,通过场地白线识别,摄像机运动检测,足球和运动员检测等分析,对视频内容进行推断,包括处在球场什么位置,射门,角球等.例如,如果场景接近球门区域而且足球有一个向球门的运动,则可以推断这是一个射门.实验结果表明,系统对于球场位置的识别较为准确,达到90%,但是射门和角球的识别率只有53%,这主要是因为高速运动和遮挡关系,使得足球的检测较为困难.
哥伦比亚大学的Peng Xu等观察到足球比赛可以划分为两种状态:进行和暂停(如因为球在界外或裁判暂定比赛).他们开发了一个能够检测视频中的足球比赛是在进行还是暂停的系统[19].该系统对足球视频分析分为两步.首先,根据颜色分析得出每一帧中的草地颜色比率,使用这个特征将帧标注为三种:全景(globe view),近景(zoom-in view)和特写(close-up view).在检测的时候,算法可以对草色和分类决策进行学习和自动调整.接着,在对视频帧进行上述分类标记后,根据经验总结的规则(如全景一般是比赛进行,特写一般是比赛中断等)判断比赛是在进行还是暂停了.实验使用了四段来自不同足球比赛的五分钟片断,检测准确率最好达到86.5%,最坏只有67.3%.
清华大学的Ming Luo等也以足球为例提出了一个体育视频分析系统[21].他们的系统根据关键帧中场地颜色的比率和物体的大小,将镜头分类为远镜头和近镜头.此外,对于远镜头,他们观察到在射门或长传时,快速的摄像机运动通常会使图像模糊,从而提出根据帧图像的模糊度(blur extent)来检测足球比赛中的这些事件.实验结果表明算法对射门和长传事件检测的查准率为89.3%,查全率为97.2%.
Drew D. Saur等人使用直接基于MPEG压缩域的特征,实现了对篮球视频内容的自动分析和标注[22].算法首先进行基于压缩域DC图的镜头分割,然后对每个P帧统计其中运动矢量的大小,考虑特写(close-up)镜头比广角(wide-angle)镜头一般变化更激烈,将视频划分为广角镜头和特写镜头.对于广角镜头,进一步分析其中的摄像机运动,来标注特定的视频内容,如抢断,快攻,可能的投篮等.
微软研究院的Y. Rui等人提出一种依据计算量较小的音频特征来检测棒球比赛中精彩事件的方法,适用于计算能力有限的环境[23].他们的算法首先是基于机器学习的解说员激动语音识别和棒球击打声检测,然后将这两者进行概率混合来推断最终的精彩片断.与人工标注的精彩片断进行对比,实验表明他们的算法能够达到75%的准确率.
同样对于棒球,Dongqing Zhang等通过对比赛中比分和状态的字幕显示进行检测和识别来分析语义事件的发生[24][25],如触垒得分和最后一投(投手被罚出局).他们使用视频文本检测和识别技术分析比赛中的字幕信息.识别结果再进一步利用领域知识模型来提高准确度.
在体育比赛转播的时候,通常会在精彩事件之后及时穿插重放慢镜头,这方面也吸引了许多研究者的注意[27][28][29][30].通过检测重放事件,以及发现之前视频中相同内容的正常镜头,就可以为冗长的体育视频生成一个令人满意的精彩索引.
Di. Zhang针对体育视频的分析,试图提出一个一般性的框架[31].为了兼顾效率和准确性,他认为事件的检测可以分为两步进行.即基于压缩域分析的初选阶段,和基于对象层次的验证阶段.第一步,选择一些压缩域的特征,如颜色和运动等,通过统计学习的方法实现对事件的初选.第二步,在候选场景中进行对象分割,根据总结的领域规则进行判定,如对于网球比赛的发球镜头,图像中应有大块场地区域,在下方有小的运动员对象.
J. Assfalg等认为体育视频的镜头一般可以分为三类:场地,运动员和观众[32].场地镜头关注体育运动本身,表现为大块一致的颜色区域和场地线条等.在运动员镜头中,运动员作为前景中的物体出现,而背景则变得模糊.在观众镜头中,个体常常是不清楚的,而观众整体可以看作一种纹理.基于这些认识,他们通过边缘提取,图形分割和颜色
这篇体育视频的内容标注和解析技术研究的关键词是内容,研究,体育,技术,视频, 分析等,对三类镜头实现了有效的识别.
N. Babaguchi综合了文本和视觉特征来对体育视频中的事件进行检测[33].文本信息来自于电视信号中的隐藏字幕(Closed Caption).首先,通过搜寻文本中事件相关的关键字,估计事件发生的可能时间段.然后,再对时间段内的镜头进行视觉特征分析,计算与已有的事件例子的匹配度,检测出事件相关的镜头.
3,结构解析
一部视频中常常包含了成百上千个镜头,特别是在体育视频中.这主要是因为体育比赛电视转播的时候,会有多个摄像机从不同视角对比赛进行拍摄,它们之间的频繁切换就构成了镜头.为了更好的访问视频内容,除了语义标注,还需要对镜头进行有效的组织.结构解析的任务就是通过镜头组织为视频数据流建立类似书目的分层浏览结构.
以[34][35]为代表,一些研究人员提出了通用的视频结构分析方法.他们用时间约束的聚类法把视觉上相似和时间上相邻的镜头聚类在一起,再在聚类组的基础上构造场景转换图(Scene Transition Graph)或高层场景,进而形成层次化的浏览结构.但是这种统一的结构组织方式(如[34]中将视频分成帧/镜头/组/场景四层)并不适合针对体育视频的分析,这主要是因为体育比赛都有自己特定结构(如图1所示),对体育视频的分析应当结合这种领域知识.
图1 跳水比赛的树状结构
4,总结
综上对国内外研究现状的调查,我们有以下结论:
(1)应当结合领域知识进行特征选择.领域知识包括比赛相关和制作相关.比赛相关的领域特征涉及特定的体育运动,如足球比赛中的草色比率,篮球比赛中快攻时摄像机的运动等.制作相关的领域特征适用于大多数体育视频的分析,主要来自对体育视频制作的总结,如精彩场面的重放,有关运动员和比分信息的字幕显示等.综合这两类领域知识,选择合适的特征进行分析是取得研究成功的基础.
(2)多模式融合分析代表了新的研究趋势.除了视觉特征外,综合体育视频中所包含的音频特征和文本信息,能够有效提高视频分析的准确度.这也是近年来的研究热点.在体育视频中,一个语义事件常常是一个多模式的表达,如运动员的跳水事件既有视觉上的运动也有听觉上的踏板声和入水声,只对其中一个模式进行分析是不完整的.因此在对体育视频进行内容分析时,融合多模式尤为重要.
(3)尽量考虑压缩域的特征分析.一场体育比赛长达数个小时,其视频数据也非常庞大,因而提高处理速度是很有意义的,在某些要求实时应用的场合也是必需的.直接基于压缩域的分析,不需要完全解码,可以显著提高处理速度.[22][31]表明基于压缩域的分析不仅能够大幅度降低计算量,同时也能获得较好的结果,或者作为进一步处理的基础.
(4)基于统计的事件检测方法要优于基于规则的方法.早期的研究多采用基于规则的方法.但是,体育视频中的事件检测常常需要综合多种特征分析手段,需要适应不同的场景.这些都增加了直接设定规则的难度.与之相比,统计算法易于混合多种特征同时又具备一定的学习能力,因而具有更大的实用价值.
(5)忽略了对事件之间关系的研究.体育比赛中的各种语义事件不是孤立的,它们具有某种因果关系或概率相关.因此综合多种事件及其之间关系的分析,对于提高分析的精度和深度都是有价值的.
(6)缺乏对体育视频内容的结构解析.尽管许多文章中提到了体育视频的结构分析,但是它们对结构的分析主要是基本场景的分解,如[20]中将足球视频分为比赛进行和暂停,[31]中检测网球比赛的发球场景.体育视频的结构,如图1所示,通常是一个多层的目录结构.在检测基本场景的基础上,需要进一步研究高层结构的解析.据我们所知,这方面的研究还没有.
(7)没有一个统一的体育视频内容分析框架.[31]中提出了一个视频分析的一般框架,但是他们的系统主要是实现语义事件的检测,缺乏对视频结构的充分解析.根据体育视频的自身特点和应用需要,我们认为视频分析的过程应该有一个基本的框架,这对于进一步的研究无疑是有意义的.
三,研究目标,内容和拟解决的关键技术
本课题的目标是研究体育视频内容的语义标注和结构解析技术.在实际研究中,我们主要选择跳水比赛作为研究对象.跳水运动十分富有观赏性,是我国的奥运优势项目,深受人们的喜爱.跳水比赛具有一般体育比赛的典型特征,如层次化的结构,领域相关的语义事件等.通过内容分析技术的研究,最终我们将实现一个面向跳水运动的视频查询系统.
如果把视频也看作一种语言表达,视频分析在某种程度上与自然语言理解是非常类似的,其目的都是使计算机能够理解信息的内容,从而实现智能化的信息处理.自然语言理解作为人工智能中的一个重要研究方向,已经有四十多年的历史了.它对于新兴的视频分析研究必然有很多可以借鉴的地方.通常,自然语言理解将词汇作为基本的处理对象,包括自动分词,词性标注,句法分析等几个阶段.与之类似,由于镜头是视频中具有完整内容表达的最小单位,我们将镜头作为体育视频分析的基本单元,并提出如图2所示的体育视频内容分析框架.
图2 体育视频内容分析框架
1,镜头检测
与自动分词类似,镜头检测按照镜头为基本单位对视频流进行分解.镜头检测是视频内容分析的基础步骤,很大程度上影响了整个系统的性能.虽然镜头检测是一个一般性的问题,但是在体育视频中也有其特殊要求:
(1)针对体育视频数据量大的特点,算法应能实现快速检测;
(2)在体育视频中存在大量的运动,算法应能尽量避免由于运动导致的误判;
(3)作为之后分析的基础,算法应具有较高的准确性.
2,模式学习和语义标注
镜头检测后的视频流是一组镜头序列.在此基础上,语义标注通过事件检测对镜头序列进行标注.我们采用基于统计的方法来识别语义事件.识别的时候,首先通过对训练样本的学习建立分类器,然后利用这个分类器对镜头中的事件进行识别.以下问题需要解决:
(1)多模式提取和选择领域相关的特征来表示语义事件;
(2)应用压缩域分析提高处理速度;
(3)设计一个良好的学习分类模型,实现高准确度的识别;
(4)对镜头的标注应当有利于后续的结构分析.
3,文法描述和结构解析
在语义标注之后,结构解析的任务是通过对视频标注序列的分析,生成体育视频的层次浏览结构.目前,这方面还没有好的算法.为解决这一问题,我们借鉴自然语言理解中句法分析的思想,根据体育比赛具有较强结构性的特点,使用文法来定义语法规则,提出了基于文法的体育视频结构解析.在结构解析中引入文法描述,有以下好处:(1)根据文法描述可以按照体育比赛特定结构进行解析;(2)实现了领域知识和具体算法的分离.这样,只需要引入相应的文法描述,我们可以使用统一的解析器来分析不同类型的体育比赛.关键技术包括:
(1)自动生成体育视频的分层浏览目录;
(2)实际应用中视频流可能不完整或存在标注错误,解析器应具有良好的容错能力;
(3)对于大数据量的体育视频,要求结构解析的效率要高.
四,拟采取的研究方法,技术路线及可行性分析
1,基于压缩域的镜头分割算法
体育视频中常见的渐变主要有溶解,擦变,特别是其中的一些擦变具有特技效果,如图3所示.这些特定模式的擦变,通常出现在慢镜重放的开始和结束,识别这种镜头边界是十分有价值的.现有压缩域算法主要对切变检测比较成功,而对于渐变的研究不多.我们将综合压缩域的DCT系数,运动矢量以及宏块信息等,研究一种有效的渐变检测方法.
图3 体育视频中特定模式的擦变
2,体育视频中语义事件的检测
(1)通过标志性边界检测来识别重放事件
[1]中将重放分为三种类型:重复播放的同一镜头;慢动作方式重放的同一镜头;同一场景但是由不同摄像机在不同视角拍摄的.直接从内容上比较重放事件和先前视频镜头的相似性来进行分析,是很难识别准确的,尤其对于最后一种重放.
通过对体育比赛电视转播的观察,可以发现一般对于精彩片断的重放都会以一个标志性的镜头切换引入,再以类似的变化结束,如图3所示.因此对于重放事件的检测,事实上可以归结到对这种标志性镜头边界的检测,从而简化问题.我们将主要研究这种方法.
(2)利用视频文本识别确定状态事件
状态事件是和体育比赛的状态变化直接相关的,而通常在比赛状态发生变化的时候,电视转播会在视频中加入相关字幕提示,如跳水比赛中在运动员入场的时候,会有文字说明运动员姓名和所要做的动作;在一轮比赛结束的时候,会显示该轮所有选手的得分情况.
根据这个特性,我们提出通过视频中文本检测和识别的方法来检测状态事件.该方法包括两个层次.首先,通过视频文本的检测[36][37][38][39][40]就可以初步确定状态事件的出现.然后,我们对检测的文本进行识别,通过关键字的匹配,识别状态事件的类别.例如,运动员入场的字幕显示中有关键字"Round"(轮次),"Rank"(排名),"DD"(难度),"Total"(总分)等,通过匹配这些关键字,就可以判断当前镜头为运动员入场的状态事件.
(3)融合视音频双模式的目标事件检测
在目标事件中,往往存在显著的运动和音频特征,如运动员的跳水事件既有视觉上的运动也有听觉上的踏板声和入水声.融合视音频的分析避免了单纯使用视觉或听觉特征不能完整描述语义事件的不足,可以有效提高识别精度.
在进行识别的时候,我们采用混合隐马尔科夫模型和支持向量机的方法[41].支持向量机能够在小样本条件下,通过结构风险最小化准则,实现有效分类.但是支持向量机只是静态分类机,不能很好模拟时序过程.与之相反,隐马尔科夫模型虽然能够较好的处理随机时序数据的识别,但是并不能保证训练好的模型能够良好的分类未知数据.这样,将两者混合起来使用,通过在隐马尔科夫模型中引入静态数据识别良好的支持向量机,能对视频流数据取得最佳的识别效果.
3,语法制导
这篇体育视频的内容标注和解析技术研究的关键词是内容,研究,体育,技术,视频, 的结构解析
为了对输入的体育视频数据进行结构解析,首先我们需要对该类体育比赛的文法规则进行描述.乔姆斯基(Chomsky)把文法分成4种类型,即0型文法(或称短语文法),1型文法(或称上下文有关文法),2型文法(或称上下文无关文法)和3型文法(或称正则文法).型号越高所受约束越多,对语言的描述能力也就越弱.
我们使用上下文无关文法对体育比赛的结构进行描述,主要是基于以下考虑:(1)上下文无关文法完全可以胜任对体育比赛树状结构的描述;(2)上下文无关文法在自然语言理解,句法模式识别,编译技术等领域有广泛的应用,技术比较成熟;(3)基于上下文无关文法的解析器不仅可以为视频有效生成层次浏览树,而且具有较强的错误处理能力.
其中终结符r,b,e,u分别表示一轮比赛的结束,选手比赛开始,选手比赛结束和一般镜头,非终结符和为结构单元,分别代表每轮比赛和每个选手的比赛.对于语义标注序列"buuuuuuuebuuuuuuuueeur",使用文法分析器进行解析得到它的层次结构"[[buuuuuuue][buuuuuuuue]eur]".其中序列最后"r"前面的"eu"为错误标示,可以用错误恢复策略进行处理(例如,在发现终结符不能匹配时,弹出该终结符并发出警告).由于视频序列在进行基于统计的语义标注时,存在某种程度的不确定性.所以错误处理应当结合语义标注的确定度来进行.如果出错标注本身的确定度比较低,则可以认为该标注有错;如果出错标注的确定度比较高,则可以认为错误发生在它的前面.
以上,我们通过基于压缩域的镜头分割,语义事件的检测和语法制导的结构解析实现了体育视频的内容标注和解析.虽然我们主要以跳水视频为例进行分析,但是其中的技术完全可以应用到其他类似体育视频的分析中,甚至一般视频的处理中.我们的研究表明,尽管限于当前的技术水平,完全自动的,通用的视频内容理解是不太可能的,但是通过有效的人机交互和建立应用相关的模型,新的技术将可以面对视频信息大量涌现的挑战,给人们带来更加丰富和方便的体验.
五,预期研究成果及创新之处
一个压缩域镜头边界检测的有效算法
体育视频中慢镜重放的检测方法
基于压缩域的视频文本检测和分割
体育视频中状态事件的识别
视音频融合的事件检测
基于文法的体育视频结构解析
一个通用的体育视频内容分析框架及其系统实现
六,已有工作基础
1,已有资源:
4.96G的跳水比赛视频数据,总长度约8小时20分钟;
5.33G的足球比赛视频数据,总长度约9个小时;
2.58G的其他体育视频数据,包括篮球,排球和网球等;
2,已进行工作
一个基于内容的智能视频检索系统:iVideo
一种通过关键帧提取和组织来浏览视频的方式:XPlayer
可视化的视频分析工具:MediaLab
综合颜色特征和摄像机运动分析的镜头边界检测算法
基于标志模板的重放镜头检测算法
跳水比赛视频中精彩片断的自动提取:iVideoAnalyzer
基于压缩域文本检测的体育视频结构分析:SportsPlayer
3,专利和文章
王扉,李锦涛,张勇东,林守勋,"跳水比赛视频中精彩片断的自动提取",计算机研究与发展,评审中.
王扉,张勇东,李锦涛,林守勋,"在体育比赛视频中检测精彩片断的方法",(发明)专利号02156973.8,已受理.
七,研究计划及预期进展
2019/01 – 2019/04 基于文法的体育视频结构解析
2019/05 – 2019/06 压缩域的镜头边界检测算法
2019/07 – 2019/10 体育视频中的语义事件检测
2019/11 – 2019/12 跳水比赛的视频分析和检索系统
2019/01 – 2019/04 技术改进,论文写作
八,参考文献
Content-based Video Analysis and Retrieval
[1] C.W. Ngo, H.J. Zhang, and T.C. Pone, "Recent Advances in Content Based Video Analysis", International Journal of Image and Graphics, Dec 2019.
[2] N. Dimitrova, H.J. Zhang, B. Shahraray, I. Sezan, T. Huang, and A. Zakhor, "Applications of Video-Content Analysis and Retrieval", IEEE Multimedia, Vol. 9, No. 4, 2019.
[3] 庄越挺,潘云鹤,吴飞编著,网上多媒体信息分析与检索,清华大学出版社,2019年.
[4] M. Flickner et al, "Query by Image and Video Content: The QBIC System", IEEE Computer, 28(9), 1995.
[5] D. Ponceleon, S. Srinivasan, A. Amir, D. Petkovic, and D. Diklic, "Key to Effective Video Retrieval: Effective Cataloging and Browsing", in Proc. ACM Multimedia, 1998.
[6] A. Hampapur, A. Gupta, B. Horowitz, C-F. Shu, C. Fuller, J. Bach, M. Gorkani, and R. Jain, "Virage Video Engine", SPIE Storage and Retrieval for Images and Video Databases V, 1997.
[7] H. D. Wactlar, T. Kanade, M. A. Smith, and S. M. Stevens, "Intelligent Access to Digital Video: Informedia Project", IEEE Computer, Vol.29, No.3, pp.46-52, May 1996.
[8] S.-F. Chang, W. Chen, H. Meng, H. Sundaram, and D. Zhong, "VideoQ: an automated content based video search system using visual cues", in Proc. ACM Multimedia, November 1997.