改进LSTM神经网络在极短期波浪时序预报中的应用
Application of Improved LSTM Neural Network in Time-Series Prediction of Extreme Short-Term Wave
通讯作者: 朱仁传,教授,博士生导师,电话(Tel.):021-34204288;E-mail:renchuan@sjtu.edu.cn.
责任编辑: 李博文
收稿日期: 2021-11-2 接受日期: 2022-08-10
Received: 2021-11-2 Accepted: 2022-08-10
作者简介 About authors
尚凡成(1998-),硕士生,从事船海工程水动力学研究.
高效准确的极短期预报对实海况下船海结构物的施工作业安全意义重大.由于海浪的随机性,短期预报往往使用时间序列分析进行,近年来神经网络特别是长短期记忆(LSTM)神经网络在时间序列分析上预报能力强.基于此,提出一种结合生成式对抗思想的LSTM改进形式,在神经网络中嵌入频域特性等的先验知识,实现时频域信息耦合预报.经实验测试可知,该方法预报精度优于传统时序分析方法和LSTM神经网络结果,适用于极短期时序预报,有助于实现更好的船舶操纵控制.
关键词:
Efficient and accurate extreme short-term prediction is of great significance for the safety of ship and marine structures in actual sea waves. Due to the stochastic of actual sea waves, short-term prediction always uses time series analysis. The neural networks, particularly long short-term memory (LSTM) neural networks, have received increasing attention for their powerful forecasting capability in time series analysis. Based on this, an improved form of LSTM combining generative adversarial ideas is proposed, in which the frequency domain characteristics are embedded in the neural network to achieve coupled time-frequency domain information forecasting. The experimental test shows that the forecasting accuracy of this method is better than the results of traditional time series analysis methods and the LSTM neural network, and it is suitable for extreme short-term time series prediction for better ship maneuvering.
Keywords:
本文引用格式
尚凡成, 李传庆, 詹可, 朱仁传.
SHANG Fancheng, LI Chuanqing, ZHAN Ke, ZHU Renchuan.
极短期预报具有实时性、不确定性的特点,通常基于波浪或者船舶运动历史的时历数据,使用时间序列分析方法对未来一段时期的波高或船舶运动姿态进行预报.20世纪80年代左右,经典的自回归模型等时间序列建模方法开始被广泛用于波浪和船舶运动运动预报[3],这些传统时序分析计算量比较小,但主要针对线性系统,对非线性较强的系统预报结果不佳,具有很大局限性.
随着人工智能技术的发展,神经网络、支持向量机等机器学习方法日趋成熟,因其可以任意精度逼近任意的非线性函数,拟合能力较强,所以逐渐受到研究者的关注.目前在时序分析中应用较为广泛的是循环神经网络(RNN)及其一系列变体,特别是长短期记忆(LSTM)神经网络,通过引入门控单元实现了长期记忆能力[4],预报效果较好.2016年Duan等[5]将经验模态分解技术与支持向量机回归结合对显著波高进行了预测研究.2017年Li等[6]使用具有外部输入的非线性自回归(NARX)神经网络对船舶运动进行了单步与多步时序预测.2019年刘煜城[2]、2020年张彪等[7]使用RNN对船舶运动姿态进行了预报研究.但上述研究大多仍局限在原有理论框架,往往使用单一神经网络模型,并且没有充分利用诸如频谱特征等已知信息,因此预报精度受限.而随着神经网络理论的发展,开始出现第三代人工智能概念[8],注重知识、数据、算法、算力的融合,强调先验知识与基本物理定律的重要性.
神经网络是一种通用的问题处理框架,其在各个细分领域上取得较好效果离不开与该领域专家知识的融合.另外神经网络是一个典型的“黑箱模型”,通过融合专业知识有助于进一步加深对神经网络底层原理的认识,同时有助于提高网络泛化性.随机海浪仍符合一定的统计规律,特定海区的随机波浪往往具有稳定的频谱特性.在波浪和船舶运动姿态预测中,频谱特性可以发挥更为重要的作用,值得探索时频域结合的极短期预报模型.本文受生成式对抗思想的启发,提出一种改进的LSTM神经网络架构,借助生成式对抗神经网络强大的数据增强能力,将波浪的频谱特性反馈至LSTM神经网络,通过融合频域领域先验知识,增强了神经网络对频谱特性的捕捉能力,成功实现了时域、频域信息耦合预报.同时该改进也可视为在原有LSTM模型的损失函数中加入正则化项,可有效防止神经网络训练中过拟合,提高模型泛化性.另外对频域信息的学习也便于去除神经网络由于偶然误差或其他原因产生的高频噪声分量,保证了神经网络输出的预报准确性.实验表明,该模型在波浪极短期时序预报上优于传统预报方法和原始LSTM神经网络架构,具有较高的实用价值.
1 LSTM神经网络
图1
(1) 引入了门控机制控制信息传递的路径,输入门i、遗忘门f和输出门o的状态计算公式为
式中:σ(·)为Logistic函数;输出区间为(0,1);h为神经网络隐藏层的外部状态;ht-1为上一时刻的隐藏层外部状态;xt为当前时刻的输入;W为状态-输入权重矩阵;U为状态-状态权重矩阵;b为偏置向量;下标i、f和o分别对应相应的门控单元.
(2) 引入一个新的内部状态进行线性的循环信息传递,同时输出信息给隐藏层的内部状态ct和外部状态ht,计算公式为
式中:
上述门控单元中各权重矩阵和隐藏状态ct、ht在训练过程中不断更新,使得LSTM神经网络可以成功学习时序信息中的短期影响和长期规律,实现对未来时刻信息的预测.
2 基于生成式对抗思想的 LSTM改进
2.1 生成式对抗思想
式中:E为数据期望;pdata(x)与pz(z)分别为真实数据与生成数据概率分布.
在生成式对抗神经网络中需要首先固定生成器G,让判别器D最大概率地分对训练样本的标签.
随后需要固定判别器D,生成器G通过式(5)最大化D的损失以迷惑判别器,使生成器G的输出与真实数据分布趋于相近.
2.2 谱分析方法与波浪频谱特性
海浪及船舶运动通常被视为一种随机性过程,可以利用频谱分析对海浪进行统计意义上的考察.一般将随机过程由时域到频域的变换称为随机过程谱分析,设随机过程的一个样本为x(t),并设其物理含义为波面函数.使用傅里叶变换直接将上述随机过程进行时域与频域上的转换:
式中:ω为频率.
同时得到谱密度函数:
式中:T为序列周期.
上述傅里叶变换针对连续函数,实际中由于采样频率不能无穷小,得到的样本往往是有限长的离散数据,所以需要利用离散傅里叶变换方法.采用著名的快速傅里叶(FFT)算法[14]进行时频转换,该方法认为样本x(t)是由N点构成的序列,写作x(n), n=0,1,…,N-1,对应的时频转化式为
式中:k、n分别为对应于ω、t的离散变量, k=0,1,…,N-1.可借助W因子的周期性和对称性,实现快速时频转换.
图2
2.3 融合时频信息的LSTM改进形式
长时间统计得到的特定海区波浪频谱往往呈现相似特征,能够反映波浪的真实分布,其频域特性反映了波浪的重要特征信息,对极短期预报有重要意义.但时频转换难以直接融合至LSTM神经网络框架中.受生成式对抗网络(GAN)中对抗思想的启发,提出GAN-LSTM模型,旨在使用LSTM网络替代生成器,将预报得到的结果和真实数据进行频域转换后输入判别器进行判别,通过判别器使得LSTM神经网络自动学习频谱特征,实现时历特征和频谱特性的双重近似,从而使得LSTM神经网络损失函数最小化的同时实现预报频谱分布接近真实频谱分布,即输出数据的分布逐渐接近真实分布.
LSTM神经网络改进形式实现过程如图3所示,其中虚线框内为GAN中的生成器,生成器得到的频谱曲线由LSTM的输出结果经频谱变换得到,判别器区分生成器频谱分布与真实频谱分布之间差异,并将其直接反馈至LSTM神经网络促使神经网络输出数据的频谱特性能够更接近真实频谱特性.由于训练数据集往往是历史测量数据,数据量较为充足,所以使用训练数据集数据进行频谱变换可以反映特定海区对应的频谱特性,通过上述反馈过程实现频谱信息嵌入LSTM神经网络.在之后的预报过程中,可直接使用经过上述训练过程的LSTM神经网络进行预报,无需额外的频谱特征输入.通过引入GAN思想,成功解决了流式数据无法进行频谱分析的问题,成功将频谱特性融入LSTM神经网络的训练过程中,充分利用了现有信息,成功实现时频耦合预报.
图3
改进的LSTM目标函数为
式中:yi为真实值;
L1通常使用相对熵,又名KL散度表示:
式中:p为真实分布;q为生成分布;H'为交叉熵函数.
从LSTM神经网络结构的角度来看,本文中LSTM神经网络改进形式在原有LSTM神经网络目标函数中添加了反映频谱近似程度的正则化项L1,实践表明使用正则化项可以在一定程度上减小神经网络输出域空间,使得神经网络可以更快地收敛稳定,并且可以防止神经网络参数过拟合[9].LSTM改进形式的另一个优点为通过对频域特性的学习可以自动抑制输出噪声信息,实现滤波平滑过程.
3 仿真结果与分析
3.1 波高时历数据
数据来自上海船舶运输科学研究所深水拖曳水池某实验.深水拖曳水池长192 m,宽10 m,水深4.2 m;造波机为电液伺服摇板式,最大波高0.3 m,频率范围为0.25~2.00 Hz;浪高仪采用日本进口的四自由度适航仪Gel-430-S及非接触式超声波浪高仪.测量频率为50 Hz,波浪数据时长为240 s左右,共12 158个数据,基本满足训练和测试需要.模型试验与实船之间的缩尺比为λ=50,模型与实船之间满足弗劳德相似关系和斯特劳哈尔相似关系,即对应实际特征周期为λ0.5=7.071倍.
实测得到的波高(H)数据存在系统误差如零飘、随机误差如高频不规则振荡和异常误差如个别点跳点等现象,按照实验规定进行相对应的预处理,预处理后数据如图4所示,其中fr为频率.可知,预处理后数据集中于低频段,分布较为理想.进一步分析数据可知,波高时历中平均周期为0.76 s,最小周期为0.08 s,最大周期为1.84 s.
图4
3.2 模型训练与评价
3.2.1 基线模型
式中:r为模型阶数;aj为自回归系数;εt为随机扰动项.
图5
图5
波高数据自相关偏相关分析
Fig.5
Auto-correlation and partial-correlation analysis of wave height data
实际预报中,往往需要提前多步进行预报从而给后续运动控制等留出充足的决策空间,AR模型无法直接用于多步后预测,需要进行迭代递推,即使用预报得到的Xt作为已知量进一步预测Xt+1,重复该过程直至得到需要的Xt+n结果.
3.2.2 LSTM神经网络模型
神经网络模型与传统AR模型的区别在于可以直接建立Xt-p~Xt-1与Xt+n之间的关系,避免了使用递推迭代造成的误差累积.影响LSTM神经网络的超参数众多,使用网格法考察训练数据量、依赖时间步、神经网络隐层数目、隐藏状态数和优化器参数等量对最终预报结果的影响,得到LSTM神经网络模型参数如下:隐藏层数为4,隐藏状态为10,迭代次数为1 200次,依赖时间步为34.优化算法使用Adam算法,其参数lr为0.001、beta_1为0.9、 beta_2为0.99、epsilon为 1×10-8.使用0~100 s上的数据作为训练集,共 5 000 个样本点.
改进LSTM神经网络中LSTM模块同上,区别在于在训练过程中加入判别器模块,判别器为4层的感知机模块,其神经元数目设为[3,32,32,2],神经网络输入参数为频率、幅值和相位,对真实样本的结果标记为1,来自生成器的样本标记为0,目标函数使用交叉熵函数.
3.2.3 性能评价指标
上述任务需要使用合适的度量函数对模型的结果进行评价,由于常需要对比多个不同模型之间的优劣,所以性能评价函数应具有一定普适性.常见的性能评价函数包括均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)等,其定义为
式中:ytest为测试集上的真实值结果;
统一使用MSE和MAE对传统时序分析模型、LSTM神经网络模型和改进后的LSTM模型进行评价.使用测试集中100~200 s区间的数据,共 5 000 个样本点.
3.3 仿真结果与分析
分别使用基线方法(AR模型)、LSTM神经网络和改进的LSTM神经网络提前5步(0.1 s)、10步(0.2 s)、15步(0.3 s)、20步(0.4 s)对上述波高时历进行预报,训练数据集使用0~100 s数据,测试数据集使用100 ~200 s数据,性能评价指标使用MSE和MAE,结果如表1所示.
表1 不同工况下预报精度对比
Tab.1
方法 | MSE/MAE | ||
---|---|---|---|
AR模型 | LSTM模型 | 改进LSTM模型 | |
提前5步 | 1.736/0.932 | 1.539/0.943 | 1.273/0.848 |
提前10步 | 2.499/1.207 | 2.311/1.175 | 2.294/1.179 |
提前15步 | 2.514/1.222 | 2.248/1.149 | 2.178/1.134 |
提前20步 | 3.839/1.501 | 3.256/1.395 | 3.236/1.385 |
由表1可知,在多数工况下LSTM神经网络进行时间序列分析结果明显优于传统时序分析方法,在MSE指标方面,性能提升7%~15%,平均可实现11%左右的提升.改进的LSTM神经网络较基线模型和原有LSTM神经网络的预报精度均有所上升,4种工况下较基线模型性能平均提升16%,较原有神经网络性能提升5%左右,充分证明了改进后神经网络的优越性.部分情况下神经网络预报得到的MAE略大于基线方法,这可能是由于神经网络训练过程中目标评价函数设置导致,属于神经网络中的固有问题.
为了说明3种预测模型的具体效果,随机截取一段时间窗口进行观察.图6为AR模型、LSTM模型与改进LSTM模型预报结果的对比,对应工况为提前预报5步.可知,时间序列分析方法存在一定滞后性,其中AR模型滞后性最明显,且由于误差累积在部分时刻会出现突峰,而使用神经网络方法无需迭代递推,其预测总体上较稳定;神经网络的预报过程中往往会出现偶然的波动(噪声),改进后的LSTM相较于原始LSTM神经网络在一定程度上抑制了噪声分量.
图6
图6
3种模型极短期预报结果(提前预报5步)
Fig.6
Short-term forecast results of three models (5 steps in advance)
为了对比分析总体的预测结果,在整个测试集(对应时长100 s)上使用LSTM神经网络与改进LSTM进行预报得到频率特性曲线,对应工况为提前预报15步,如图7所示.
图7
图7
预测结果频率特性曲线(提前预报15步)
Fig.7
Frequency characteristic curve of prediction results (15 steps in advance)
以上结果表明,测试集上的频谱特性与图4中整体的频谱特性较为相似,说明大量波浪统计信息对应的频谱存在稳定性,故频率信息可以视为先验信息进行知识迁移用于上文所述的预报过程中.如局部放大图所示,改进LSTM对高频分量起到抑制作用,达到了之前所述平滑滤波效果.本文中按照原始采样频率50 Hz对波高时历直接进行预报,在该采样频率下大量数据位于波峰和波谷之间,可能导致神经网络对波峰和波谷的数据预报能力较差,最终出现1.6~1.8 Hz频率区间内的频谱特性曲线与真实值差别较大的结果,故可进一步探索LSTM和改进LSTM模型在粗粒度预报方面的应用.
4 结论
与图像识别、目标检测等领域不同,波浪和船舶运动对应的频谱往往是稳定的,可以为波浪预报和运动姿态分析提供重要信息.但是频谱信息目前较少地直接应用至现有极短期预报方法中,主要有两方面原因:一方面,目前的神经网络在船舶姿态时序预报领域的应用大多停留在表面,没有与本领域的专业知识进行深度融合;另一方面,频谱分析需要对数据整体进行傅里叶变换,这个方式与极短期预报中数据流式传入、预报结果流式传出的在线预报方式不符,实践中很难将频域信息嵌入其中.受生成式对抗思想的启发,巧妙地将频域信息嵌入LSTM神经网络的训练过程中,提出了GAN-LSTM改进模型,该模型具有以下优点:
(1) 可以充分利用已知信息,实现时频域耦合预报.
(2) 通过学习频域信息,抑制了原有LSTM模型高频噪声分量的输出.
(3) 通过融合频域知识,提高了训练时的收敛速度,并一定程度上提高了神经网络的泛化性.
数值仿真实验表明,上述LSTM改进模型预报精度高,在海浪预测和船舶姿态预报中可以起到重要作用.
参考文献
Real time prediction of ship response to ocean waves using time series analysis
[C]// .
LSTM: A search space odyssey
[J]. ,DOI:10.1109/TNNLS.2016.2582924 PMID:27411231 [本文引用: 1]
Several variants of the long short-term memory (LSTM) architecture for recurrent neural networks have been proposed since its inception in 1995. In recent years, these networks have become the state-of-the-art models for a variety of machine learning problems. This has led to a renewed interest in understanding the role and utility of various computational components of typical LSTM variants. In this paper, we present the first large-scale analysis of eight LSTM variants on three representative tasks: speech recognition, handwriting recognition, and polyphonic music modeling. The hyperparameters of all LSTM variants for each task were optimized separately using random search, and their importance was assessed using the powerful functional ANalysis Of VAriance framework. In total, we summarize the results of 5400 experimental runs ( ≈ 15 years of CPU time), which makes our study the largest of its kind on LSTM networks. Our results show that none of the variants can improve upon the standard LSTM architecture significantly, and demonstrate the forget gate and the output activation function to be its most critical components. We further observe that the studied hyperparameters are virtually independent and derive guidelines for their efficient adjustment.
A hybrid EMD-SVR model for the short-term prediction of significant wave height
[J]. ,DOI:10.1016/j.oceaneng.2016.05.049 URL [本文引用: 1]
Neural-network-based modelling and analysis for time series prediction of ship motion
[J]. ,DOI:10.1080/09377255.2017.1309786 URL [本文引用: 1]
基于ELM-EMD-LSTM组合模型的船舶运动姿态预测
[J]. ,
Ship motion attitude prediction based on ELM-EMD-LSTM integrated model
[J]. ,
迈向第三代人工智能
[J]. ,
SU Hang. Toward the third generation of artificial intelligence
[J]. ,
生成式对抗网络GAN的研究进展与展望
[J]. ,
Generative adversarial networks: The state of the art and beyond
[J]. ,
Generative adversarial networks: An overview
[J]. ,DOI:10.1109/MSP.2017.2765202 URL [本文引用: 1]
Adversarial discriminative domain adaptation
[C]//.
基于隐变量后验生成对抗网络的不平衡学习
[J]. ,
Unbalanced learning of generative adversarial network based on latent posterior
[J]. ,
An algorithm for the machine calculation of complex Fourier series
[J]. ,DOI:10.1090/mcom/1965-19-090 URL [本文引用: 1]
/
〈 | 〉 |