上海交通大学学报(自然版), 2021, 55(5): 607-614 doi: 10.16183/j.cnki.jsjtu.2020.120

融合FCN和LSTM的视频异常事件检测

武光利,1,2, 郭振洲1, 李雷霆1, 王成祥1

1.甘肃政法大学 网络空间安全学院,兰州 730070

2.西北民族大学 中国民族语言文字信息技术教育部重点实验室,兰州 730070

Video Abnormal Detection Combining FCN with LSTM

WU Guangli,1,2, GUO Zhenzhou1, LI Leiting1, WANG Chengxiang1

1. School of Cyber Security, Gansu University of Political Science and Law, Lanzhou 730070, China

2. Key Laboratory of China’s Ethnic Languages and Information Technology of the Ministry of Education, Northwest Minzu University, Lanzhou 730030, China;

责任编辑: 石易文

收稿日期: 2020-04-26  

基金资助: 甘肃省自然科学基金(17JR5RA161)
甘肃省青年科技基金计划(18JR3RA193)
甘肃省高等学校科研项目(2017A-068)

Received: 2020-04-26  

作者简介 About authors

武光利(1981-),男,山东省潍坊市人,教授,现主要从事信息内容安全、人工智能等研究.电话(Tel.):0931-7601406;E-mail:272956638@qq.com. E-mail:272956638@qq.com

摘要

针对传统视频异常检测模型的缺点,提出一种融合全卷积神经(FCN)网络和长短期记忆(LSTM)网络的网络结构.该网络结构可以进行像素级预测,并能精确定位异常区域.首先,利用卷积神经网络提取视频帧不同深度的图像特征;然后,把不同的图像特征分别输入记忆网络分析时间序列的语义信息,并通过残差结构融合图像特征和语义信息;同时,采用跳级结构集成多模态下的融合特征并进行上采样,最终获得与原视频帧大小相同的预测图.所提网络结构模型在加州大学圣地亚哥分校(UCSD)异常检测数据集的ped 2子集和明尼苏达大学(UMN)人群活动数据集上进行测试,均取得了较好的结果.在UCSD上的等错误率低至6.6%,曲线下面积达到了98.2%, F1分数达到了94.96%;在UMN上的等错误率低至7.1%,曲线下面积达到了93.7%,F1分数达到了94.46%.

关键词: 计算机视觉; 视频异常检测; 像素级预测; 全卷积神经网络; 长短期记忆网络

Abstract

In view of the shortcomings of the traditional video anomaly detection model, a network structure combining the fully convolutional neural (FCN) network and the long short-term memory (LSTM)network is proposed. The network can perform pixel-level prediction and can accurately locate abnormal areas. The network first uses the convolutional neural network to extract image features of different depths in video frames. Then, different image features are input to memory network to analyze semantic information on time series. Image features and semantic information are fused through residual structure. At the same time, the skip structure is used to integrate the fusion features in multi-mode and upsampling is conducted to obtain a prediction image with the same size as the original video frame. The proposed model is tested on the ped 2 subset of University of California, San Diego (UCSD) anomaly detection dataset and University of Minnesota System(UMN)crowd activity dataset. And both two datasets achieve good results. On the UCSD dataset, the equal error rate is as low as 6.6%, the area under curve reaches 98.2%, and the F1 score reaches 94.96%. On the UMN dataset, the equal error rate is as low as 7.1%, the area under curve reaches 93.7%, and the F1 score reaches 94.46%.

Keywords: computer vision; video abnormal detection; pixel-level prediction; full convolutional neural (FCN) network; long short-term memory (LSTM) network

PDF (6753KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

武光利, 郭振洲, 李雷霆, 王成祥. 融合FCN和LSTM的视频异常事件检测[J]. 上海交通大学学报(自然版), 2021, 55(5): 607-614 doi:10.16183/j.cnki.jsjtu.2020.120

WU Guangli, GUO Zhenzhou, LI Leiting, WANG Chengxiang. Video Abnormal Detection Combining FCN with LSTM[J]. Journal of shanghai Jiaotong University, 2021, 55(5): 607-614 doi:10.16183/j.cnki.jsjtu.2020.120

在大数据时代,智能监控技术在分析与处理视频数据方面发挥着极其重要的作用.视频异常事件检测是智能监控技术的一个重要应用方向[1].人工检测是传统的视频异常检测方法,但人工检测方法的缺点显而易见.一方面,工作人员长时间观察监控视频会出现视觉疲劳和注意力不集中等状况,进而导致错检、漏检[2];另一方面,人工检测方法较依赖于工作人员的日常经验和反应能力[3].与深度学习相结合的智能视频监控技术在一定程度上弥补了传统检测方法的不足[4],在节省人力的同时,也更为准确高效.国内外研究人员大致基于两个研究方向解决视频异常事件的检测问题.

(1) 帧级检测.使用不同的方法提取特征,训练卷积神经网络[5]、支持向量机等模型并计算每一个视频帧是否发生异常事件的概率.何传阳等[6]针对人群异常行为提出一种改进的Lucas-Kanande光流方法.柳晶晶等[7]提出一种融合光流场和梯度的方法.都桂英等[8]提出一种改进的光流计算方法,在原方法的基础上融合加权光学能量特征(HOFO).Chen等[9]利用运动能量模型来表示人群中的局部运动模式.Luo等[10]提出一种与时间相关的稀疏编码(TSC),使用时间相关项保留两个相邻帧之间的相似性.雷丽莹等[11]提出一种基于AlexNet模型的异常检测模型,其帧级检测准确率较高,但并不能体现异常事件发生的具体区域和内容.

(2) 像素级检测.通过改进全卷积神经网络[12]、生成式对抗网络(GAN)等模型结构对输入对象中的每一个元素进行检测.周培培等[13]利用ViBE算法结合光流强度信息对视频背景进行建模和提取运动区域.Wang等[14]提出两个基于局部运动的视频描述符,分别是SL-HOF(Spatially Localized Histogram of Optical Flow)描述符和ULGP-OF(Uniform Local Gradient Pattern Based Optical Flow)描述符.Ravanbakhsh等[15]利用生成式对抗网络对视频异常事件进行检测和定位.Sabokrou等[16]最先将全卷积神经(FCN)网络应用于异常检测,提出一种级联的方式检测和定位异常区域.Fan等[17]提出Gaussian混合全卷积变分自编码器(GMFC-VAE),采用双流网络框架对RGB图像和光流进行特征提取和融合.然而,像素级检测虽然可以显示异常区域,但无法体现视频帧之间的时间相关性.

本文提出一种融合全卷积神经网络和长短期记忆网络(FCN-LSTM)的视频异常事件检测模型.首先,该模型利用卷积神经网络提取视频帧的图像特征,并输出3个不同深度的中间层结果,这些中间层结果代表着视频帧图像的浅层纹理特征和深层逻辑特征.然后,把中间层结果分别输入记忆网络中,以时间为轴线分析前后帧之间语义信息的相关性.最后,利用残差结构融合不同深度的图像特征和语义信息,构成不同层级的多模态特征,并通过跳级结构和上采样把多模态特征扩大成与原视频帧大小相同的预测图.

1 算法

1.1 设计原理

全卷积神经网络语义分割算法是由Shelhamer等[18]在2015年提出的,FCN模型通过将原始卷积神经网络中的全连接层替换为卷积核为1×1的卷积层来实现全卷积神经网络结构.由于1×1卷积在FCN网络模型里的主要作用是降维,融合不同通道上的特征,既可以减少模型参数、减少计算量,也可以对不同特征进行尺寸的归一化.通过1×1卷积和跳级结构,FCN网络可以将来自多个不同深度的特征图通过求和的方式进行融合并进行上采样,即对图像中的每个像素点进行预测,最终输出一个与输入图像大小相同的预测图.FCN网络结构如图1所示,其中数字代表每一层卷积核的个数.

图1

图1   FCN网络结构图

Fig.1   Structure diagram of FCN network


LSTM网络是一种基于循环神经网络的改进模型.传统的循环神经网络(RNN)在训练过程中容易出现梯度消失和梯度爆炸,难以处理长期依赖问题.针对这种问题,LSTM网络隐藏层使用了一种特殊的细胞结构作为基本单元,而不是传统的神经元节点.这种细胞结构中有输入门、输出门和遗忘门3个特殊的门结构,分别控制着输入状态、输出状态和记忆细胞状态,实现对前一状态的输入、输出和更新.正是这种特殊的细胞结构使得LSTM网络能够解决RNN中存在的问题,能够在处理序列信息时发挥更好的效果.LSTM网络的细胞结构如图2所示.其中:xt为当前时刻的输入; ht为当前时刻的输出;σ为Sigmoid激活函数;ft为当前时刻的遗忘门;it为当前时刻的输入门;ot为当前时刻的输出门; C~t为当前时刻的新数据;Ct为当前时刻的细胞状态.

图2

图2   LSTM网络细胞结构图

Fig.2   Cell structure diagram of LSTM network


图2可知,LSTM网络的细胞状态受到3个门的控制,也就是图2中的σ,σ的本质是Sigmoid激活函数,输出一个 0~1 之间的向量.LSTM在训练时第1步需要判断是否激活遗忘门,通过上一个时刻的输出和当前时刻的输入决定细胞状态要遗忘前一时刻的哪些数据.当ft=0时,前一时刻的细胞状态Ct-1被遗忘;当ft=1时,Ct-1被全部保留;当ft=0~1 时,Ct-1被部分遗忘.公式表示如下:

ft=σ(Wf×[ht-1,xt]+bf)

式中:ht-1为前一时刻的输出;xt为当前时刻的输入;Wf为遗忘门权重;bf为遗忘门偏置.

第2步判断是否激活输入门,通过上一个时刻的输出和当前时刻的输入决定细胞状态需要添加哪些新数据,并利用tanh函数计算出要添加的新数据.当it=0时,新数据 C~t不被添加;当it=1时, C~t全部被添加;当it=0~1 时, C~t部分被添加.其公式表示如下:

it=σ(Wi×[ht-1,xt]+bi)
C~t=tanh(Wc×[ht-1,xt]+bc)

式中:Wi为输入门权重;bi为输入门偏置;Wc 为新数据权重;bc为新数据偏置.

第3步更新细胞状态,通过遗忘门和输入门分别控制着上一时刻的细胞状态Ct-1是否被遗忘和更新.符号“○”表示两个向量对应位置的元素相乘.则

Ct=ftCt-1+itC~t

最后判断是否激活输出门,通过上一个时刻的输出和当前时刻的输入决定细胞状态要输出哪些状态特征,并利用tanh函数计算出要输出的状态特征.当输出门ot=1时,细胞状态Ct全部被输出;当ot=0时,Ct不被输出;当ot=0~1 之间时,Ct部分被输出.

ot=σ(Wo×[ht-1,xt]+bo)
ht=ottanh(Ct)

式中:Wo为输出门权重;bo为输出门偏置.

1.2 模型构建

FCN-LSTM模型的网络结构可以分为3个部分:图像特征提取部分、语义信息提取部分、特征处理部分.其中,图像特征提取部分由卷积层、池化层组成;语义信息提取部分由LSTM层组成;特征处理部分由反卷积层、跳级结构、残差结构组成.模型结构如图3所示,其中1/8、1/16、1/32为卷积池化后获得的特征图与原图的比例.

图3

图3   FCN-LSTM模型结构图

Fig.3   Structure diagram of FCN-LSTM model


1.2.1 图像特征提取部分 图像特征提取部分使用了5个卷积块,每个卷积块由2个卷积层和1个最大池化层组成.每个卷积块利用卷积层提取视频帧的图像特征,利用池化层采样突出局部特征,进而提取出更有效的特征.使用卷积核为1×1的卷积层分别作用在第3、4、5个卷积块的输出结果上,获得维度相同、不同深度的图像特征,这些特征图的大小分别是原图像的1/8、1/16、1/32,代表原图像的浅层纹理特征和深层逻辑特征.

1.2.2 语义信息提取部分 语义信息提取部分的主体是3个独立的LSTM层.为了能对不同的中间层结果提取语义信息,隐藏状态的大小分别被设置为3个中间层输出结果的特征图大小,这样就能够以特征平面为信息、以维度为序列,由浅到深地提取3个层次的语义相关性.

1.2.3 特征处理部分 特征处理部分是整个模型的核心,采用了多种特征处理方式,充分利用每个特征的优势,使输出结果更为精确.首先引用残差结构,分别将3个层次的图像特征和语义信息融合在一起,融合后的特征呈多元化,既保留了各方面的重要特征,又衍生出新特征.然后,利用跳级结构集成不同层次的融合特征,多模态特征可以充分体现出不同深度的特点,集成在一起不仅可以使不同特征之间粗细结合、优势互补,还可以使特征更完整、携带信息更准确.最后,利用反卷积将特征扩大,获得与原图像大小相同的预测图.

结合以上3个部分,本文提出了融合FCN和LSTM的视频异常事件检测模型.该模型把输入的视频逐帧分割,并通过图像特征提取部分对视频帧进行提取,获得视频帧大小为1/8、1/16、1/32不同深度的图像特征.然后,通过语义信息提取部分对3个图像特征进行分析,获得深浅不同的3个层次的语义信息.最后,通过特征处理部分将相同深度的图像特征和语义信息相融合,将不同深度的特征集成,再利用反卷积获得与原图像大小相同的预测图.

1.2.4 模型的详细配置 图像特征提取部分由14个卷积层、5个最大池化层和Relu激活函数组成.14个卷积层的输出维度依次为32、32、64、64、128、256、512、512、256、128、64、2、2、2,卷积核大小均为3×3,步长均为1,填充均为1.池化层的核大小均为2,步长均为2.

语义信息提取部分是由3个LSTM层组成,其输入维度依次为49、196、784,隐藏状态大小依次为98、392、1568,均为单层单向.

特征处理部分是由3个反卷积层和归一化函数组成.3个反卷积层的输出大小依次为14×14×2、28×28×2、224×224×2,步长依次为2、2、8,卷积核大小依次为4、4、16.

1.3 模型训练与异常检测

所提FCN-LSTM模型分别在加州大学圣地亚哥分校(UCSD)异常检测数据集的ped 2子集和明尼苏达大学(UMN)人群活动数据集上进行训练,以80%作为训练集,以20%作为测试集.训练时使用交叉熵损失函数和Adam优化器,且学习率为0.001,通过不断迭代求得最优解或局部最优解.异常检测是通过模型的输出结果获得的,模型的输出结果是与输入图像大小相同的预测图,空间形状为224×224×2.第0维表示每个像素是正常的概率,第1维表示每个像素属于异常的概率,由此可以准确定位图像中的异常区域.

2 实验结果与分析

2.1 数据集介绍

UCSD数据集是由加利福尼亚大学圣地亚哥分校创建,通过对准人行横道的摄像机采集,主要的异常行为是其他实体通过人行道.异常种类包括在行人乘坐轮椅、行人踩滑板滑行、机动车通过人行道、行人骑自行车等,数据集一共有98个视频,单独一个视频可以分为200帧,每帧图像大小为238像素×158像素.4张UCSD数据集中异常事件的图片如图4所示.

图4

图4   UCSD数据集中的部分异常事件

Fig.4   Some abnormal events in UCSD dataset


UMN数据集是由明尼苏达州大学创建,通过摄像机拍摄不同场景下的人群,并人为安排了一些异常行为.人群的异常行为有:人群的骤聚和骤散、人群的单向跑动.数据集一共有11个场景,每个场景都是先正常再异常.4张UMN数据集中异常事件的图片如图5所示.

图5

图5   UMN数据集中的部分异常事件

Fig.5   Some abnormal events in UMN dataset


2.2 评价指标

所提FCN-LSTM模型以F1分数、等错误率(EER)e和曲线下面积(AUC)S作为评价指标,并在像素级下使用3种评价指标与其他方法进行比较.

2.2.1 F1分数 在介绍F1分数之前,简要描述一下混淆矩阵.混淆矩阵也称误差矩阵,以类别个数n构造n×n的矩阵来表示精度,主要用于对分类任务的预测结果统计.

在二分类的混淆矩阵中,分为真实标签:真、假,预测标签:阳、阴,如表1所示.其中:真阳例(TP)代表真例的数据被标记为正例;伪阳例(FP)代表假例的数据被标记为正例;真阴例(TN)代表假例的数据被标记为负例;伪阴例(FN)代表真例的数据被标记为负例.

表1   二分类混淆矩阵

Tab.1  Binary confusion matrix

真阳例伪阳例
伪阴例真阴例

新窗口打开| 下载CSV


单一的精准率p和召回率r只能表征模型某方面,F1分数可看作为精准率和召回率的一种调和平均,可以较全面地评价模型.三者的计算公式为

p= TPTP+FP
r= TPTP+FN
F1=2× prp+r

2.2.2 曲线下面积 曲线下面积是指接收者操作特征曲线(ROC)与横轴之间所围成的面积.AUC是一种评价二分类模型好坏的指标,其取值范围为0.5~1,数值越大说明模型性能越好.

ROC曲线是以伪阳例率(Pfp)为横轴,真阳例率(Ptp)为纵轴得到的图像,可以直观地反映出伪阳例率和真阳例率的关系,进而判断模型的优劣.

根据表1计算伪阳例率和真阳例率,可表示为

Pfp= FPFP+TN
Ptp=r= TPTP+FN

2.2.3 等错误率 等错误率是指错误接受率(FAR)和错误拒绝率(FRR)相等时的值.ROC曲线(像素级)如图6所示.由图6可知,EER的值为ROC曲线与(0,1)(1,0)所在直线交点的横坐标,即交点对应的伪阳例率.

图6

图6   ROC曲线(像素级)

Fig.6   ROC curve (pixel-level)


2.3 实验结果

所提FCN-LSTM模型分别在UCSD和UMN数据集上进行训练,以80%作为训练集,以20%作为测试集.在训练集上,通过迭代不断更新参数,寻求最优解;在测试集上,通过训练好的模型对数据进行预测,并根据预测结果计算3种评价指标的值.为了减小计算的开销成本,在计算评价指标时利用随机抽样的方法在每个视频帧中抽取500个符合均匀分布的像素点作为样本.由于样本符合均匀分布,这就使得每个像素点被抽到的概率是相同的,被抽取的样本可以代表整个数据空间的特征.通过式(7)~(9)计算模型的F1分数,通过式(10)~(11)计算样本的伪阳例率和真阳例率并画出样本的ROC曲线.通过ROC曲线获得eS.实验结果如表2所示,ROC曲线见图6.

表2   实验结果(像素级)

Tab.2  Experiment results (pixel-level)

数据集e/%S/%F1/%
UCSD6.698.294.96
UMN7.193.794.66

新窗口打开| 下载CSV


表2可知,FCN-LSTM模型在两个数据集上均表现出较好的性能,获得了较高的SF1,说明模型具有泛化能力.其中,在UCSD数据集上,e低至6.6%,S达到了98.2%,F1达到了94.96%;在UMN数据集上e低至7.1%,S达到了93.7%,F1达到了94.46%.由图6可知,两个数据集的ROC曲线在交点之前的部分均陡直上升,交点之后的部分都保持较高的值,说明伪阳例率的值对真阳例率的值影响较小,模型有较好的预测能力.

2.4 与其他方法对比

FCN-LSTM模型与其他几种达到像素级预测的先进方法在UCSD数据集上进行比较,分别为周培培等[13] 提出的HOF-HOG模型、Wang等[14]提出的OCELM模型、Sabokrou等[16]提出的FCN模型、Fan等[17]提出的GM-FCN模型、Hinami等[19]提出的MT-FRCN模型,对比结果如表3所示.由表3可知,FCN-LSTM的e小于其他模型(降低了8.4%),并且S大于其他模型(提高了8.0%),说明FCN-LSTM比其他模型拥有更好的预测能力.

表3   各模型对比分析(像素级)

Tab.3  Comparative analysis of different models (pixel-level)

模型e/%S/%
HOF-HOG[13]-90.2
OCELM[14]1780.1
FCN[16]15.0-
GM-FCN[17]19.278.2
MT-FRCN[19]19.487.3
FCN-LSTM6.698.2

新窗口打开| 下载CSV


2.5 模型预测

在训练阶段保存训练好的模型及模型参数,在预测阶段只需把全新数据(训练集和测试集之外的数据)传入模型就可以获得预测结果,如图7所示.

图7

图7   两个数据集中的部分预测结果

Fig.7   Partial prediction results in two datasets


图7(a)为UCSD ped1数据集中的4张视频帧图像和模型的预测结果.视频帧中异常事件依次是一个人在玩滑板,一辆汽车在人行道上驶过,一个人推着手推车,一个人在骑自行车,预测图中白色部分标示异常事件轮的廓和位置.

图7(b)为UMN数据集中的4张视频帧图像和模型的预测结果.视频帧中异常行为依次是人群聚散、人群单向跑动、人群聚散、人群单向跑动,预测图中的白色部分为跑动的人的轮廓和位置.

3 结语

本文提出融合FCN和LSTM的视频异常事件检测模型FCN-LSTM.该模型不仅继承了全卷积神经网络的像素级精度,还体现了记忆网络的长期依赖关系,故该模型拥有多角度的处理视频数据的能力.在UCSD数据集上e低至6.6%、S达到98.2%、F1达到94.96%;在UMN数据集上e低至7.1%、S达到93.7%、F1达到了94.46%.

在未来的工作中,将尝试不同的方法提取不同的特征来完善所提模型FCN-LSTM,使模型预测的轮廓和位置更精准,如加入条件随机场、加入注意力机制等方法.另外,还将尝试不同的数据集以及自己学校的监控视频,不断完善本模型,使其更泛化、性能更好.

参考文献

WU G L, LIU L P, ZHANG C, et al.

Video abnormal event detection based on ELM

[C]//2019 IEEE 4th International Conference on Signal and Image Processing (ICSIP). Piscataway, NJ, USA: IEEE, 2019: 367-371.

[本文引用: 1]

闻辉, 贾冬顺, 严涛, .

智能视频异常检测事件研究分析

[J]. 信息与电脑(理论版), 2019(12):49-50.

[本文引用: 1]

WEN Hui, JIA Dongshun, YAN Tao, et al.

Research and analysis of intelligent video anomaly detection events

[J]. China Computer & Communication, 2019(12):49-50.

[本文引用: 1]

胡正平, 张乐, 李淑芳, .

视频监控系统异常目标检测与定位综述

[J]. 燕山大学学报, 2019, 43(1):1-12.

[本文引用: 1]

HU Zhengping, ZHANG (Le|Yue), LI Shufang, et al.

Review of abnormal behavior detection and location for intelligent video surveillance systems

[J]. Journal of Yanshan University, 2019, 43(1):1-12.

[本文引用: 1]

MAHADEVAN V, LI W X, BHALODIA V, et al.

Anomaly detection in crowded scenes

[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2010: 1975-1981.

[本文引用: 1]

周飞燕, 金林鹏, 董军.

卷积神经网络研究综述

[J]. 计算机学报, 2017, 40(6):1229-1251.

[本文引用: 1]

ZHOU Feiyan, JIN Linpeng, DONG Jun.

Review of convolutional neural network

[J]. Chinese Journal of Computers, 2017, 40(6):1229-1251.

[本文引用: 1]

何传阳, 王平, 张晓华, .

基于智能监控的中小人群异常行为检测

[J]. 计算机应用, 2016, 36(6):1724-1729.

[本文引用: 1]

HE Chuanyang, WANG Ping, ZHANG Xiaohua, et al.

Abnormal behavior detection of small and medium crowd based on intelligent video surveillance

[J]. Journal of Computer Applications, 2016, 36(6):1724-1729.

[本文引用: 1]

柳晶晶, 陶华伟, 罗琳, .

梯度直方图和光流特征融合的视频图像异常行为检测算法

[J]. 信号处理, 2016, 32(1):1-7.

[本文引用: 1]

LIU Jingjing, TAO Huawei, LUO Lin, et al.

Video anomaly detection algorithm combined with histogram of oriented gradients and optical flow

[J]. Journal of Signal Processing, 2016, 32(1):1-7.

[本文引用: 1]

都桂英, 陈铭进.

基于智能视频分析的运动目标异常行为检测算法研究

[J]. 电视技术, 2018, 42(12):23-26.

[本文引用: 1]

DU Guiying, CHEN Mingjin.

Research on anomaly detection algorithm of moving objects based on intelligent video analysis

[J]. Video Engineering, 2018, 42(12):23-26.

[本文引用: 1]

CHEN T, HOU C P, WANG Z P, et al.

Anomaly detection in crowded scenes using motion energy model

[J]. Multimedia Tools and Applications, 2018, 77(11):14137-14152.

DOI:10.1007/s11042-017-5020-3      URL     [本文引用: 1]

LUO W X, LIU W, LIAN D Z, et al.

Video anomaly detection with sparse coding inspired deep neural networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, PP(99):1.

[本文引用: 1]

雷丽莹, 陈华华.

基于AlexNet的视频异常检测技术

[J]. 杭州电子科技大学学报(自然科学版), 2018, 38(6):16-21.

[本文引用: 1]

LEI Liying, CHEN Huahua.

Video anomaly detection based on AlexNet

[J]. Journal of Hangzhou Dianzi University (Natural Sciences), 2018, 38(6):16-21.

[本文引用: 1]

章琳, 袁非牛, 张文睿, .

全卷积神经网络研究综述

[J]. 计算机工程与应用, 2020, 56(1):25-37.

[本文引用: 1]

ZHANG Lin, YUAN Feiniu, ZHANG Wenrui, et al.

Review of fully convolutional neural network

[J]. Computer Engineering and Applications, 2020, 56(1):25-37.

[本文引用: 1]

周培培, 丁庆海, 罗海波, .

视频监控中的人群异常行为检测与定位

[J]. 光学学报, 2018, 38(8):97-105.

[本文引用: 3]

ZHOU Peipei, DING Qinghai, LUO Haibo, et al.

Anomaly detection and location in crowded surveillance videos

[J]. Acta Optica Sinica, 2018, 38(8):97-105.

[本文引用: 3]

WANG S, ZHU E, YIN J, et al.

Video anomaly detection and localization by local motion based joint video representation and OCELM

[J]. Neurocomputing, 2018, 277:161-175.

DOI:10.1016/j.neucom.2016.08.156      URL     [本文引用: 3]

RAVANBAKHSH M, NABI M, SANGINETO E, et al.

Abnormal event detection in videos using generative adversarial nets

[C]//2017 IEEE International Conference on Image Processing (ICIP). Piscataway, NJ, USA: IEEE, 2017: 1577-1581.

[本文引用: 1]

SABOKROU M, FAYYAZ M, FATHY M, et al.

Deep-anomaly: Fully convolutional neural network for fast anomaly detection in crowded scenes

[J]. Computer Vision and Image Understanding, 2018, 172:88-97.

DOI:10.1016/j.cviu.2018.02.006      URL     [本文引用: 3]

FAN Y X, WEN G J, LI D R, et al.

Video anomaly detection and localization via Gaussian mixture fully convolutional variational autoencoder

[J]. Computer Vision and Image Understanding, 2020, 195:102920.

DOI:10.1016/j.cviu.2020.102920      URL     [本文引用: 3]

SHELHAMER E, LONG J, DARRELL T.

Fully convolutional networks for semantic segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4):640-651.

DOI:10.1109/TPAMI.2016.2572683      URL     [本文引用: 1]

HINAMI R, MEI T, SATOH S.

Joint detection and recounting of abnormal events by learning deep generic knowledge

[C]//2017 IEEE International Conference on Computer Vision (ICCV). Piscataway, NJ, USA: IEEE, 2017: 3639-3647.

[本文引用: 2]

/