改进LSTM神经网络在极短期波浪时序预报中的应用

图1 LSTM神经网络结构图

Fig.1 LSTM neural network

(1) 引入了门控机制控制信息传递的路径,输入门i、遗忘门f和输出门o的状态计算公式为

(1)

\begin{array}{l} i_{t} = σ (W_{i} x_{t} + U_{i} h_{t - 1} + b_{i}) \\ f_{t} = σ (W_{f} x_{t} + U_{f} h_{t - 1} + b_{f}) \\ o_{t} = σ (W_{o} x_{t} + U_{o} h_{t - 1} + b_{o}) \end{array}\}

式中:σ(·)为Logistic函数;输出区间为(0,1);h为神经网络隐藏层的外部状态;h_t_-1为上一时刻的隐藏层外部状态;x_t为当前时刻的输入;W为状态-输入权重矩阵;U为状态-状态权重矩阵;b为偏置向量;下标i、f和o分别对应相应的门控单元.

(2) 引入一个新的内部状态进行线性的循环信息传递,同时输出信息给隐藏层的内部状态c_t和外部状态h_t,计算公式为

(2)

\begin{array}{l} c_{t} = f_{t} ☉ c_{t - 1} + i_{t} ☉ {\tilde{c}}_{t} \\ h_{t} = o_{t} ☉ t a n h c_{t} \end{array}\}

式中: ${\tilde{c}}_{t}$ 为当前的候选状态.

上述门控单元中各权重矩阵和隐藏状态c_t、h_t在训练过程中不断更新,使得LSTM神经网络可以成功学习时序信息中的短期影响和长期规律,实现对未来时刻信息的预测.

2 基于生成式对抗思想的 LSTM改进

2.1 生成式对抗思想

生成式对抗思想的核心思想来源于博弈论的纳什均衡^[10],由一个生成器和一个判别器构成,生成器G的目的是尽量学习真实的数据分布,而判别器D的目的是尽量正确判别输入数据来自真实数据还是来自生成器^[11].为了取得胜利,需要不断优化,提高各自的生成和判别能力,该过程使用目标函数实现.

(3)min_Gmax_D V(D,G)=

E_{x ~ p_{d a t a} (x)}

(ln D(x))+

E_{z ~ p_{z} (z)}

[ln(1-D(G(z)))]

式中:E为数据期望;p_data(x)与p_z(z)分别为真实数据与生成数据概率分布.

在生成式对抗神经网络中需要首先固定生成器G,让判别器D最大概率地分对训练样本的标签.

(4)max_D V(D,G)=

E_{x ~ p_{d a t a} (x)}

(ln D(x))+

E_{z ~ p_{z} (z)}

[ln(1-D(G(z)))]

随后需要固定判别器D,生成器G通过式(5)最大化D的损失以迷惑判别器,使生成器G的输出与真实数据分布趋于相近.

(5)max_G V(D,G)=

E_{z ~ p_{z} (z)}

[ln(1-D(G(z)))]

生成式对抗神经网络具有数据增强能力.该思想成功实现了对抗性域适应迁移学习^[12]、不平衡样本分类^[13]等应用,说明生成式具有对抗神经网络强大的信息归纳与生成能力,也证明了该思想与众多神经网络架构结合的灵活性.

2.2 谱分析方法与波浪频谱特性

海浪及船舶运动通常被视为一种随机性过程,可以利用频谱分析对海浪进行统计意义上的考察.一般将随机过程由时域到频域的变换称为随机过程谱分析,设随机过程的一个样本为x(t),并设其物理含义为波面函数.使用傅里叶变换直接将上述随机过程进行时域与频域上的转换:

(6)

\begin{array}{l} X (ω) = \int_{- \infty}^{\infty} x (t) e^{- i ω t} d t \\ x (t) = \frac{1}{2 π} \int_{- \infty}^{\infty} X (ω) e^{i ω t} d ω \end{array}\}

式中:ω为频率.

同时得到谱密度函数:

(7)S_xx(ω)=

\underset{t \to \infty}{l i m} \frac{1}{2 π T}

|X(ω)|²

式中:T为序列周期.

上述傅里叶变换针对连续函数,实际中由于采样频率不能无穷小,得到的样本往往是有限长的离散数据,所以需要利用离散傅里叶变换方法.采用著名的快速傅里叶(FFT)算法^[14]进行时频转换,该方法认为样本x(t)是由N点构成的序列,写作x(n), n=0,1,…,N-1,对应的时频转化式为

(8)

\begin{array}{l} X (k) = \overset{N - 1}{\sum_{n = 0}} x (n) W_{N}^{n k} \\ W_{N} = e x p (- j \frac{2 π}{N}) \\ x (n) = \frac{1}{N} \overset{N - 1}{\sum_{k = 0}} X (k) W_{N}^{- n k} \end{array}\}

式中:k、n分别为对应于ω、t的离散变量, k=0,1,…,N-1.可借助W因子的周期性和对称性,实现快速时频转换.

波浪起伏和船舶摇荡运动虽是一个随机性过程,但是通过上述频谱分析法可以在统计意义上进行考察分析.PM谱、ITTC双参数谱、JONSWAP 谱等多种可以近似描述波浪谱的表达式^[1]也证明了海浪虽然在时域呈现巨大随机性,但是在特定风速下,特定海区的频谱较为稳定.图2为4个机构对北大西洋海区有义波高(H_s)出现概率P(H_s)的统计,该统计说明了在特定海区中特定波高的出现概率一定.

图2

图2 北大西洋波高分布

Fig.2 Wave height distribution in the North Atlantic

2.3 融合时频信息的LSTM改进形式

长时间统计得到的特定海区波浪频谱往往呈现相似特征,能够反映波浪的真实分布,其频域特性反映了波浪的重要特征信息,对极短期预报有重要意义.但时频转换难以直接融合至LSTM神经网络框架中.受生成式对抗网络(GAN)中对抗思想的启发,提出GAN-LSTM模型,旨在使用LSTM网络替代生成器,将预报得到的结果和真实数据进行频域转换后输入判别器进行判别,通过判别器使得LSTM神经网络自动学习频谱特征,实现时历特征和频谱特性的双重近似,从而使得LSTM神经网络损失函数最小化的同时实现预报频谱分布接近真实频谱分布,即输出数据的分布逐渐接近真实分布.

LSTM神经网络改进形式实现过程如图3所示,其中虚线框内为GAN中的生成器,生成器得到的频谱曲线由LSTM的输出结果经频谱变换得到,判别器区分生成器频谱分布与真实频谱分布之间差异,并将其直接反馈至LSTM神经网络促使神经网络输出数据的频谱特性能够更接近真实频谱特性.由于训练数据集往往是历史测量数据,数据量较为充足,所以使用训练数据集数据进行频谱变换可以反映特定海区对应的频谱特性,通过上述反馈过程实现频谱信息嵌入LSTM神经网络.在之后的预报过程中,可直接使用经过上述训练过程的LSTM神经网络进行预报,无需额外的频谱特征输入.通过引入GAN思想,成功解决了流式数据无法进行频谱分析的问题,成功将频谱特性融入LSTM神经网络的训练过程中,充分利用了现有信息,成功实现时频耦合预报.

图3

图3 改进的LSTM神经网络流程

Fig.3 Flow chart of improved LSTM neural network process

改进的LSTM目标函数为

(9)f(x)=

\frac{1}{m} \overset{m}{\sum_{i = 1}}

(y_i-

{\hat{y}}_{i}

)²+L₁

式中:y_i为真实值; ${\hat{y}}_{i}$ 为预测值;L₁为式(5)对LSTM神经网络的反馈值;m为训练样本数量.

L₁通常使用相对熵,又名KL散度表示:

(10)L₁=KL(p|q)=H'(p)-H'(p,q)

(11)H(p,q)=E_z~p₍_z₎(-ln p(z))=

\sum_{z}

p(z)ln

\frac{1}{q (z)}

式中:p为真实分布;q为生成分布;H'为交叉熵函数.

从LSTM神经网络结构的角度来看,本文中LSTM神经网络改进形式在原有LSTM神经网络目标函数中添加了反映频谱近似程度的正则化项L₁,实践表明使用正则化项可以在一定程度上减小神经网络输出域空间,使得神经网络可以更快地收敛稳定,并且可以防止神经网络参数过拟合^[9].LSTM改进形式的另一个优点为通过对频域特性的学习可以自动抑制输出噪声信息,实现滤波平滑过程.

3 仿真结果与分析

3.1 波高时历数据

数据来自上海船舶运输科学研究所深水拖曳水池某实验.深水拖曳水池长192 m,宽10 m,水深4.2 m;造波机为电液伺服摇板式,最大波高0.3 m,频率范围为0.25~2.00 Hz;浪高仪采用日本进口的四自由度适航仪Gel-430-S及非接触式超声波浪高仪.测量频率为50 Hz,波浪数据时长为240 s左右,共12 158个数据,基本满足训练和测试需要.模型试验与实船之间的缩尺比为λ=50,模型与实船之间满足弗劳德相似关系和斯特劳哈尔相似关系,即对应实际特征周期为λ^0.5=7.071倍.

实测得到的波高(H)数据存在系统误差如零飘、随机误差如高频不规则振荡和异常误差如个别点跳点等现象,按照实验规定进行相对应的预处理,预处理后数据如图4所示,其中f_r为频率.可知,预处理后数据集中于低频段,分布较为理想.进一步分析数据可知,波高时历中平均周期为0.76 s,最小周期为0.08 s,最大周期为1.84 s.

图4

图4 波高数据时频域特性

Fig.4 Time-frequency domain characteristics of wave height data

3.2 模型训练与评价

3.2.1 基线模型

为了更准确地说明神经网络方法的优越性,使用传统时序模型作为基线模型进行对照,常见的传统时序模型包括自回归(AR)模型、移动平均(MA)模型、自回归移动平均(ARMA)模型等,具体模型选用根据对波高数据的自相关性和偏相关性分析决定.由图5可知,自相关图像呈现明显“拖尾”现象,偏相关图像呈现“截尾”现象.平稳时间序列的偏相关系数(PACF)为r步截尾, 自相关系数(ACF)逐步衰减而不截尾, 则序列应该选用AR模型^[15].因此,基线模型最终决定为AR模型,表达式为

(12)X_t=

\overset{r}{\sum_{j = 1}}

a_jX_t_-_j+ε_t, t∈Z

式中:r为模型阶数;a_j为自回归系数;ε_t为随机扰动项.

图5

图5 波高数据自相关偏相关分析

Fig.5 Auto-correlation and partial-correlation analysis of wave height data

实际预报中,往往需要提前多步进行预报从而给后续运动控制等留出充足的决策空间,AR模型无法直接用于多步后预测,需要进行迭代递推,即使用预报得到的X_t作为已知量进一步预测X_t₊₁,重复该过程直至得到需要的X_t₊_n结果.

3.2.2 LSTM神经网络模型

神经网络模型与传统AR模型的区别在于可以直接建立X_t_-_p~X_t_-1与X_t₊_n之间的关系,避免了使用递推迭代造成的误差累积.影响LSTM神经网络的超参数众多,使用网格法考察训练数据量、依赖时间步、神经网络隐层数目、隐藏状态数和优化器参数等量对最终预报结果的影响,得到LSTM神经网络模型参数如下:隐藏层数为4,隐藏状态为10,迭代次数为1 200次,依赖时间步为34.优化算法使用Adam算法,其参数lr为0.001、beta_1为0.9、 beta_2为0.99、epsilon为 1×10^-8.使用0~100 s上的数据作为训练集,共 5 000 个样本点.

改进LSTM神经网络中LSTM模块同上,区别在于在训练过程中加入判别器模块,判别器为4层的感知机模块,其神经元数目设为[3,32,32,2],神经网络输入参数为频率、幅值和相位,对真实样本的结果标记为1,来自生成器的样本标记为0,目标函数使用交叉熵函数.

3.2.3 性能评价指标

上述任务需要使用合适的度量函数对模型的结果进行评价,由于常需要对比多个不同模型之间的优劣,所以性能评价函数应具有一定普适性.常见的性能评价函数包括均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)等,其定义为

(13)

\begin{array}{l} α_{M S E} = \frac{1}{m} \overset{m}{\sum_{i = 1}} (y_{t e s t}^{(i)} - {\hat{y}}_{t e s t}^{(i)})^{2} \\ α_{R M S E} = \sqrt{\frac{1}{m} \overset{m}{\sum_{i = 1}} (y_{t e s t}^{(i)} - {\hat{y}}_{t e s t}^{(i)})^{2}} \\ α_{M A E} = \frac{1}{m} \overset{m}{\sum_{i = 1}} | y_{t e s t}^{(i)} - {\hat{y}}_{t e s t}^{(i)} | \end{array}\}

式中:y_test为测试集上的真实值结果; ${\hat{y}}_{t e s t}$ 为测试集上的预测值结果.

统一使用MSE和MAE对传统时序分析模型、LSTM神经网络模型和改进后的LSTM模型进行评价.使用测试集中100~200 s区间的数据,共 5 000 个样本点.

3.3 仿真结果与分析

分别使用基线方法(AR模型)、LSTM神经网络和改进的LSTM神经网络提前5步(0.1 s)、10步(0.2 s)、15步(0.3 s)、20步(0.4 s)对上述波高时历进行预报,训练数据集使用0~100 s数据,测试数据集使用100 ~200 s数据,性能评价指标使用MSE和MAE,结果如表1所示.

表1 不同工况下预报精度对比

Tab.1 Comparison of forecast accuracy under different conditions

方法	MSE/MAE
方法	AR模型	LSTM模型	改进LSTM模型
提前5步	1.736/0.932	1.539/0.943	1.273/0.848
提前10步	2.499/1.207	2.311/1.175	2.294/1.179
提前15步	2.514/1.222	2.248/1.149	2.178/1.134
提前20步	3.839/1.501	3.256/1.395	3.236/1.385

新窗口打开| 下载CSV

由表1可知,在多数工况下LSTM神经网络进行时间序列分析结果明显优于传统时序分析方法,在MSE指标方面,性能提升7%~15%,平均可实现11%左右的提升.改进的LSTM神经网络较基线模型和原有LSTM神经网络的预报精度均有所上升,4种工况下较基线模型性能平均提升16%,较原有神经网络性能提升5%左右,充分证明了改进后神经网络的优越性.部分情况下神经网络预报得到的MAE略大于基线方法,这可能是由于神经网络训练过程中目标评价函数设置导致,属于神经网络中的固有问题.

为了说明3种预测模型的具体效果,随机截取一段时间窗口进行观察.图6为AR模型、LSTM模型与改进LSTM模型预报结果的对比,对应工况为提前预报5步.可知,时间序列分析方法存在一定滞后性,其中AR模型滞后性最明显,且由于误差累积在部分时刻会出现突峰,而使用神经网络方法无需迭代递推,其预测总体上较稳定;神经网络的预报过程中往往会出现偶然的波动(噪声),改进后的LSTM相较于原始LSTM神经网络在一定程度上抑制了噪声分量.

图6

图6 3种模型极短期预报结果(提前预报5步)

Fig.6 Short-term forecast results of three models (5 steps in advance)

为了对比分析总体的预测结果,在整个测试集(对应时长100 s)上使用LSTM神经网络与改进LSTM进行预报得到频率特性曲线,对应工况为提前预报15步,如图7所示.

图7

图7 预测结果频率特性曲线(提前预报15步)

Fig.7 Frequency characteristic curve of prediction results (15 steps in advance)

以上结果表明,测试集上的频谱特性与图4中整体的频谱特性较为相似,说明大量波浪统计信息对应的频谱存在稳定性,故频率信息可以视为先验信息进行知识迁移用于上文所述的预报过程中.如局部放大图所示,改进LSTM对高频分量起到抑制作用,达到了之前所述平滑滤波效果.本文中按照原始采样频率50 Hz对波高时历直接进行预报,在该采样频率下大量数据位于波峰和波谷之间,可能导致神经网络对波峰和波谷的数据预报能力较差,最终出现1.6~1.8 Hz频率区间内的频谱特性曲线与真实值差别较大的结果,故可进一步探索LSTM和改进LSTM模型在粗粒度预报方面的应用.

4 结论

与图像识别、目标检测等领域不同,波浪和船舶运动对应的频谱往往是稳定的,可以为波浪预报和运动姿态分析提供重要信息.但是频谱信息目前较少地直接应用至现有极短期预报方法中,主要有两方面原因:一方面,目前的神经网络在船舶姿态时序预报领域的应用大多停留在表面,没有与本领域的专业知识进行深度融合;另一方面,频谱分析需要对数据整体进行傅里叶变换,这个方式与极短期预报中数据流式传入、预报结果流式传出的在线预报方式不符,实践中很难将频域信息嵌入其中.受生成式对抗思想的启发,巧妙地将频域信息嵌入LSTM神经网络的训练过程中,提出了GAN-LSTM改进模型,该模型具有以下优点:

(1) 可以充分利用已知信息,实现时频域耦合预报.

(2) 通过学习频域信息,抑制了原有LSTM模型高频噪声分量的输出.

(3) 通过融合频域知识,提高了训练时的收敛速度,并一定程度上提高了神经网络的泛化性.

数值仿真实验表明,上述LSTM改进模型预报精度高,在海浪预测和船舶姿态预报中可以起到重要作用.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

朱仁传, 缪国平.

船舶在波浪上的运动理论[M]. 上海: 上海交通大学出版社, 2019: 179-186.

ZHU

Renchuan

, MIAO

Guoping

The theory of ship motion in waves[M]. Shanghai: Shanghai Jiao Tong University Press, 2019: 179-186.

[2]

刘煜城.

基于深度学习的船舶运动极短期预报方法研究[D]. 哈尔滨: 哈尔滨工程大学, 2019.

LIU

Yucheng

Research on short-term forecasting method of ship motion based on deep learning[D]. Harbin:Harbin Engineering University, 2019.

[3]

YUMORI

Real time prediction of ship response to ocean waves using time series analysis

[C]// Oceans. Boston,USA: IEEE, 2010: 1082-1089.

DOI:10.1016/j.oceaneng.2016.05.049 URL [本文引用: 1]

[4]

GREFF

, SRIVASTAVA

R K

, KOUTNIK

et al.

LSTM: A search space odyssey

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(10): 2222-2232.

DOI:10.1109/TNNLS.2016.2582924 PMID:27411231 [本文引用: 1]

Several variants of the long short-term memory (LSTM) architecture for recurrent neural networks have been proposed since its inception in 1995. In recent years, these networks have become the state-of-the-art models for a variety of machine learning problems. This has led to a renewed interest in understanding the role and utility of various computational components of typical LSTM variants. In this paper, we present the first large-scale analysis of eight LSTM variants on three representative tasks: speech recognition, handwriting recognition, and polyphonic music modeling. The hyperparameters of all LSTM variants for each task were optimized separately using random search, and their importance was assessed using the powerful functional ANalysis Of VAriance framework. In total, we summarize the results of 5400 experimental runs ( ≈ 15 years of CPU time), which makes our study the largest of its kind on LSTM networks. Our results show that none of the variants can improve upon the standard LSTM architecture significantly, and demonstrate the forget gate and the output activation function to be its most critical components. We further observe that the studied hyperparameters are virtually independent and derive guidelines for their efficient adjustment.

[5]

DUAN

W Y

, HAN

, HUANG

L M

et al.

A hybrid EMD-SVR model for the short-term prediction of significant wave height

[J]. Ocean Engineering, 2016, 124: 54-73.

[6]

G Y

, KAWAN

, WANG

et al.

Neural-network-based modelling and analysis for time series prediction of ship motion

[J]. Ship Technology Research, 2017, 64(1): 30-39.

DOI:10.1080/09377255.2017.1309786 URL [本文引用: 1]

[7]

张彪, 彭秀艳, 高杰.

基于ELM-EMD-LSTM组合模型的船舶运动姿态预测

[J]. 船舶力学, 2020, 24(11): 1413-1421.

ZHANG

Biao

, PENG

Xiuyan

, GAO

Jie

Ship motion attitude prediction based on ELM-EMD-LSTM integrated model

[J]. Journal of Ship Mechanics, 2020, 24(11): 1413-1421.

[8]

张钹, 朱军, 苏航.

迈向第三代人工智能

[J]. 中国科学: 信息科学, 2020, 50(9): 1281-1302.

ZHANG

, ZHU

Jun

SU Hang. Toward the third generation of artificial intelligence

[J]. Scientia Sinica (Informationis), 2020, 50(9): 1281-1302.

[9]

邱锡鹏.

神经网络与深度学习[M]. 北京: 机械工业出版社, 2020: 129-145, 180-186.

QIU

Xipeng

Neural networks and deep learning[M]. Beijing: China Machine Press, 2020: 129-145, 180-186.

[10]

王坤峰, 苟超, 段艳杰,

等.

生成式对抗网络GAN的研究进展与展望

[J]. 自动化学报, 2017, 43(3): 321-332.

WANG

Kunfeng

, GOU

Chao

, DUAN

Yanjie

et al.

Generative adversarial networks: The state of the art and beyond

[J]. Acta Automatica Sinica, 2017, 43(3): 321-332.

DOI:10.1109/MSP.2017.2765202 URL [本文引用: 1]

[11]

CRESWELL

, WHITE

, DUMOULIN

et al.

Generative adversarial networks: An overview

[J]. IEEE Signal Processing Magazine, 2018, 35(1): 53-65.

[12]

TZENG

, HOFFMAN

, SAENKO

et al.

Adversarial discriminative domain adaptation

[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 2962-2971.

[13]

何新林, 戚宗锋, 李建勋.

基于隐变量后验生成对抗网络的不平衡学习

[J]. 上海交通大学学报, 2021, 55(5): 557-565.

Xinlin

, QI

Zongfeng

, LI

Jianxun

Unbalanced learning of generative adversarial network based on latent posterior

[J]. Journal of Shanghai Jiao Tong University, 2021, 55(5): 557-565.

DOI:10.1090/mcom/1965-19-090 URL [本文引用: 1]

[14]

TUKEY

C J W

An algorithm for the machine calculation of complex Fourier series

[J]. Mathematics of Computation, 1965, 19(90): 297-301.

[15]

于宁莉, 易东云, 涂先勤.

时间序列中自相关与偏相关函数分析

[J]. 数学理论与应用, 2007, 27(1): 54-57.

Ningli

, YI

Dongyun

, TU

Xianqin

Analyze auto-correlations and partial-correlations function in time series

[J]. Mathematical Theory and Applications, 2007, 27(1): 54-57.