面向时变需求的多等级急诊患者入院控制

图1 正向寻优示意图

Fig.1 Illustration of forward search

图2

图2 逆向寻优示意图

Fig.2 Illustration of backward search

双向迭代算法步骤如算法1所示.其中: $π_{t}^{m}$ 为t时段第m次迭代所得策略;m为迭代迭代编号;R_t(s, π_t)中s对应ω_t的一个特例,表示处于状态s的概率为1,处于其他状态的概率为0;与之对应,Q_t(s'|s, π_t)是Q_t(s'|ω_t, π_t)的特例.

算法1 双向迭代算法

输入初始状态分布ω₁

输出各时段策略

(1) function 双向迭代f₁ (ω₁)

(2) V_t(s)=0,∀t,s

(3) 迭代编号 m=0

(4) while m<2或( $π_{t}^{m}$ ≠ $π_{t}^{m - 1}$ , ∀t) do

(5) m=m+1

(6) for t=1 to Tdo▷正向寻优

(7) $π_{t}^{m}$ = $\underset{π_{t}}{a r g m a x}$ (R_t(ω_t,π_t)+ $\overset{M}{\sum_{i = 1}}$ Q_t(s_i|ω_t,π_t)V_t₊₁(s_i))

(8) ω_t₊₁=D_t(ω_t, $π_{t}^{m}$ )

(9) end for

(10) for t=T to 1 do▷逆向寻优

(11) ${\tilde{π}}_{t}^{m}$ = $\underset{π_{t}}{a r g m a x}$ (R_t(ω_t,π_t)+ $\overset{M}{\sum_{i = 1}}$ Q_t(s_i|ω_t,π_t)V_t₊₁(s_i))

(12) V_t(s)=R_t(s, ${\tilde{π}}_{t}^{m}$ )+ $\overset{M}{\sum_{i = 1}}$ Q_t(s'_i|s, ${\tilde{π}}_{t}^{m}$ )V_t₊₁(s'_i), ∀s

(13) end for

(14) end while

(15) return π^m={ $π_{1}^{m}$ , $π_{2}^{m}$ , …, $π_{T}^{m}$ }

(16) end function

数值实验验证了该算法在小规模数据上的最优性,需要注意的是,在所有状态中,危重患者到达或无患者到达时,决策是确定的.只有当非危重患者到达时,可能的决策有两种,可得到每个时段内不同的策略共有2^M^/3种,与状态总数M呈指数关系.由于在算法1步骤7和11中直接遍历所有策略,显然该算法难以应用到大规模抢救室入院控制问题.

2.2 逐时段策略迭代算法

为求解大规模问题进一步提出“逐时段策略迭代算法”,求解近似最优策略.该算法从时段T向时段1依次寻优,对每个时段,采取策略迭代算法,先随机选取一个策略,如先到先服务(FCFS)策略,再逐状态改进当前策略,直到相邻迭代所得策略不变,则该时段迭代过程结束,然后继续对前一个时段进行策略迭代,直到所有时段策略确定.数值实验显示,每个时段一般不超过4轮迭代策略即确定,而每轮迭代需评估的策略数仅为2M/3,求解效率大幅提升.

逐时段策略迭代算法具体步骤如算法2所示.其中:Q_t(s'| $π_{t}^{m}$ , s, a)为设定策略 $π_{t}^{m}$ 中状态s对应决策为a,t时段从状态s到状态s'的转移概率;R_t( $π_{t}^{m}$ , s, a)为设定策略 $π_{t}^{m}$ 中状态s对应决策为a, t时段初从状态s出发,得到的总收益.

算法2 逐时段策略迭代算法

输入初始策略π^st (如FCFS)

输出各时段策略

(1) function 逐时段策略迭代f₂ (π^st)

(2) V_T₊₁(s)=0, ∀s

(3) for t=T to 1 do

(4) 迭代编号 m=0

(5) $m_{t}^{m}$ =π^st

(6) while m=0或 $π_{t}^{m}$ ≠ $π_{t}^{m - 1}$ do

(7) $π_{t}^{m + 1}$ (s)= $\underset{a \in A}{a r g m a x}$ (R_t( $π_{t}^{m}$ ,s,a)+ $\overset{M}{\sum_{i = 1}}$ Q_t(s'_i| $π_{t}^{m}$ ,s,a)V_t₊₁(s'_i)), ∀s

(8) m=m+1

(9) end while

(10) $π_{t}^{*}$ = $π_{t}^{m}$

(11) V_t(s)=R_t(s, $π_{t}^{m}$ )+ $\overset{M}{\sum_{i = 1}}$ Q_t(s'_i|s, $π_{t}^{m}$ )V_t₊₁(s'_i), ∀s

(12) end for

(13) return π^*={ $π_{1}^{*}$ , $π_{2}^{*}$ , …, $π_{T}^{*}$ }

(14) end function

2.3 双向阈值迭代算法

考虑到抢救室入院控制实际应用时的便利性,本文设计阈值策略.阈值策略即为每个时段提供一个阈值,基于该阈值可确定该时段内的唯一策略.考虑两种阈值策略,空闲床位阈值策略和非危重患者阈值策略.

(1) 空闲床位阈值策略.

该策略基于系统中空闲床位的数量来决定是否接收非危重患者:当空闲床位数量大于某一阈值τ时,接收非危重患者;否则不接收非危重患者.

(2) 非危重患者阈值策略.

该策略基于系统中已有非危重患者的数量来决定是否接收非危重患者:当已有非危重患者的数量小于某一阈值τ时,接收非危重患者;否则不接收非危重患者.

阈值策略可采用上文双向迭代框架求解,本文称为双向阈值迭代算法.相比于双向迭代算法,只需将对策略的搜索调整为对阈值的遍历.双向迭代算法每个时段要遍历2^M/³个策略,而由于阈值范围有限([0, N]),每个时段只需要遍历N+1个策略,因此决策空间大大缩小,可应用于较大规模场景.

双向阈值迭代算法具体步骤如算法3所示.其中:τ_t为t时段的阈值;Q_t(s'|ω_t, τ_t)为给定阈值策略τ_t后,由状态分布ω_t转移到状态s'的概率;R_t(ω_t, τ_t)为从状态分布ω_t出发,根据阈值策略τ_t得到t时段内的总期望收益;D_t(ω_t, τ_t)为从状态分布ω_t出发,根据阈值策略τ_t得到t+1时段初的状态分布ω_t₊₁.

算法3 双向阈值迭代算法

输入初始状态分布ω₁

输出各时段阈值

(1) function 双向阈值迭代f₃ (ω₁)

(2) V_t(s)=0, ∀t,s

(3) 迭代编号 m=0

(4) while m<2或( $τ_{t}^{m}$ ≠ $τ_{t}^{m - 1}$ , ∀t) do

(5) m=m+1

(6) for t=1 to Tdo▷正向寻优

(7) $τ_{t}^{m}$ = $\underset{τ \in [0, N]}{a r g m a x}$ (R_t(ω_t,τ)+ $\overset{M}{\sum_{i = 1}}$ Q_t(s_i|ω_t,τ)V_t₊₁(s_i))

(8) ω_t₊₁=D_t(ω_t, $τ_{t}^{m}$ )

(9) end for

(10) for t=T to 1 do▷逆向寻优

(11) ${\tilde{τ}}_{t}^{m}$ = $\underset{τ \in [0, N]}{a r g m a x}$ (R_t(ω_t,τ)+ $\overset{M}{\sum_{i = 1}}$ Q_t(s_i|ω_t,τ)V_t₊₁(s_i))

(12) V_t(s)=R_t(s, ${\tilde{τ}}_{t}^{m}$ )+ $\overset{M}{\sum_{i = 1}}$ Q_t(s'_i|s, ${\tilde{τ}}_{t}^{m}$ )V_t₊₁(s'_i), ∀s

(13) end for

(14) end while

(15) return τ^m={ $τ_{1}^{m}$ , $τ_{2}^{m}$ , …, $τ_{T}^{m}$ }

(16) end function

3 数值实验

使用上海某大型三甲医院急诊部的实际运行数据,首先利用处理后的小规模数据对双向迭代算法的最优性加以验证,再基于医院真实数据对比分析各个算法的实际性能,最后对床位数量进行灵敏度分析,为抢救室入院提供易于执行的控制策略和床位数量安排指导意见.为使用均匀化方法,截断了式(8)和(10)中无限事件数,设每个时段内最多发生事件数为U_max=50,且通过实验验证了此设定可保证均匀化精度.数值实验采用的数据见网络材料 https://pan.baidu.com/s/1UaRkX-iXta2o4NBCgwthRw (提取码:jl48).

3.1 双向迭代算法最优性验证

理论证明双向迭代算法最优性非常困难.但针对小规模问题可通过枚举法枚举出所有时段策略的组合,确定最优策略以及最大收益.因此,本文将双向迭代算法与枚举法在多组实验参数下的收益结果加以对比,进行最优性验证.由于医院原始数据规模较大,考虑缩短决策期和缩小状态空间来降低求解时间,使用医院采集数据中连续6 h且设置3个可用床位,在此基础上设置不同参数共计得到8个算例.算例中统一的参数设定如表1所示,算例间参数区别包括各时段到达率和单步收益(或损失),具体参数数值见网络材料SM-1节.求解结果如表2所示,由表2可见,双向迭代算法和枚举法的求解结果完全一致,数值结果支持双向迭代算法的最优性假设.

表1 最优性验证确定参数

Tab.1 Fixed parameters used in optimality validation

参数	取值
N	3
T	6
Δ	1
μ⁰, μ¹	0.4, 0.63

表2 最优性验证结果

Tab.2 Results of optimality validation

算例	双向迭代算法总收益	枚举总收益
1	58.565	58.565
2	30.453	30.453
3	134.397	134.397
4	106.729	106.729
5	64.915	64.915
6	35.923	35.923
7	143.311	143.311
8	114.536	114.536

3.2 逐时段策略迭代和双向阈值迭代算法对比实验

由于双向迭代算法复杂度很高,难以应对实际场景带来的大规模准入控制问题,利用逐时段策略迭代算法求解近似最优策略,并从易于实施的角度,采用双向阈值迭代算法求解两种阈值策略.本节以先到先服务策略为基准策略,记为K0,分别与近似最优策略(记为K1)以及两种阈值策略(记空闲床位阈值策略为K2,非危重患者阈值策略为K3)进行对比,每种策略均由仿真进行系统的性能评估,得到总收益和患者接收率指标.采用急诊部提供的实际运行数据,考虑长度为一天24 h的决策期,床位数目、服务速率等参数如表3所示(完整参数见网络材料SM-2节).

表3 对比实验参数

Tab.3 Parameters used in comparison experiment

参数	取值
N	30
T	24
Δ	1
μ⁰, μ¹	0.1, 0.333
r⁰, r¹	20, 3
p⁰, p¹	-30,-1

4种策略收益及效率的对比结果如表4所示,表中显示均匀化评估所得收益、仿真评估所得收益(仿真10⁵ d)、算法求得的策略相比K0的收益提升(“收益提升”列)以及算法运行时间(取算法运行5次的平均时间).由表4可知,在各个策略下,均匀化评估结果与仿真结果都十分接近,误差不超过0.03%,验证了均匀化方法的评估精度.不同的策略下收益表现有显著差异,K1取得了最高收益,相比K0提升6.96%;K2与K1表现非常接近,差距不足0.1%;K3相比K0提升了3.3%,表现不如K2策略.但从效率上看,K2和K3策略由于搜索空间较小,其求解效率远优于K1策略.综合来看,K2的求解结果和效率更具优越性.

表4 各策略收益及效率对比

Tab.4 Comparison of returns and efficiencies by policy

策略	均匀化评估总收益	仿真评估总收益	收益提升/%	算法运行时间/s
K0	1023.18	1023.38	-	-
K1	1094.26	1094.58	6.96	15481
K2	1093.97	1094.14	6.91	706
K3	1057.48	1057.16	3.30	691

除了总收益外,患者接收率也是抢救室关注的重点指标,尤其是危重患者的接收率.本文通过仿真统计3项患者接收率,分别为总接收率(即不区分患者类型的接收率,记为Y)、危重患者接收率(记为Y₀)和非危重患者接收率(记为Y₁).各时段平均接收率结果如表5所示,分时段接收率见网络材料SM-3节.相比于基准策略,本文优化后的3种策略表现有所差异,虽然均提高了平均危重患者接收率,但导致平均非危重患者接收率有不同程度的降低.K1和K2的平均危重患者接收率由95.6%提升到99.1%,提高了对危重患者的服务水平,且平均非危重患者接收率保持在84%以上.K3的平均危重患者接收率尽管也提高到98.1%,但平均非危重患者接收率降低较多不足80%.由此可见,即使在相同的参数下,采取不同的策略,对患者接收率仍有较大影响,本文提出的K1、K2策略在保证总体接收率合理的情况下,更大程度上提高了危重患者的接收率而具有优势.

表5 各策略平均患者接收率对比

Tab.5 Comparison of average admission rates by policy

K0				K1				K2				K3
Y	Y₀	Y₁		Y	Y₀	Y₁		Y	Y₀	Y₁		Y	Y₀	Y₁
0.956	0.956	0.956		0.912	0.991	0.842		0.913	0.991	0.845		0.886	0.981	0.798

由于抢救室重点关注危重患者,重点针对每个时段的危重接收率进行分析,如图3所示.基准策略K0在不同时段波动很大,整体接收率低,难以实现应收尽收原则.K1有19个时段的接收率在98%以上,K2也有17个时段的接收率在98%以上,验证了K2阈值策略的性能优势.且注意到K1和K2策略在24个时段中接收率波动较小,服务水平稳定.K3策略相比K0有所提升,但有13个时段的接收率在98%以下,难以达到医院要求.整体来看,本文求解所得3种策略相比基准策略都有较大提升,其中K3提升较少,而K1和K2提升显著,尤其是K2阈值策略,既有性能优势又易于实施,优势明显.

图3

图3 各策略逐时段危重患者接收率

Fig.3 Admission rates of critical patients of each policy by time of day

3.3 床位数量灵敏度分析

显然,床位数量越多,医院就可以接收更多的患者,达到更高的接收率.但是抢救室床位资源成本高昂,医护资源也有限,并不能无限扩增床位.因此本文对床位数量进行敏感度分析,讨论不同数量的床位对危重患者接收率及总收益的影响.

除床位数量外,本节采用参数均与3.2节相同.因K2策略结果与K1策略接近,且更具实际应用意义,本节采用K2策略进行分析,讨论在该策略下床位数量的影响.考虑N∈[25,35]的变化区间,总收益变化如表6所示.由表6可以看出,床位增加带来收益增加,但增长速度越来越慢,即增加床位的边际收益越来越少.

表6 不同床位数量下收益变化

Tab.6 Change in returns with different number of beds

N	均匀化评估总收益	相比N-1的增长率/%
25	980.51	-
26	1010.43	3.05
27	1036.23	2.55
28	1058.45	2.14
29	1077.68	1.82
30	1093.97	1.51
31	1107.60	1.25
32	1118.95	1.02
33	1128.31	0.84
34	1135.90	0.67
35	1142.01	0.54

除了总收益外,抢救室还关注一天内危重患者的平均接收率R₀随床位数量的变化.不同床位数量下接收率变化如图4所示.由图4可知,随着床位数量增长,平均危重接收率持续增长,但增长率逐渐放缓,直到增加到30张床位时,平均危重接收率达到抢救室目标值Y^*=0.99.基于在合作医院调研得到的床位成本,当床位数超过30时,增加的总收益低于床位增加成本.因此,在保证平均危重接收率达到目标危重接收率的条件下,较为合理的床位数量为30,此时既能满足危重患者服务水平的要求,又控制了总投入成本.

图4

DOI:10.1007/s10696-017-9276-8 URL [本文引用: 4]

图4 不同床位数量下接收率变化

Fig.4 Changes in admission rates with different number of beds

4 结语

针对急诊抢救室床位资源紧张的问题,提出根据患者病情严重及紧急程度选择性收治患者.建立了MDP模型,考虑到到达率的高度时变特性,使用均匀化方法逐时段进行离散化并求解每个时段内的最优策略.提出了求解最优策略的双向迭代算法和求解近似最优策略的逐时段策略迭代算法,实现了在较大规模数据和较长决策期场景下的应用.为了易于在实际场景中实施,进一步设计了双向阈值迭代算法,高效地为大规模实际场景求解得到简单且有效的阈值策略.数值实验验证了双向迭代算法在小规模数据上的最优性,验证了近似最优策略以及两种阈值策略的效果,所提出的阈值策略性能与近似最优策略接近且易于实施,可以为抢救室床位管理提供有效指导.本研究方法虽可以对时变且随机患者需求等复杂条件的准入问题进行决策,但也存在一些局限.首先受限于迭代算法复杂度较高,难以应用于大规模问题,拟进一步采用深度强化学习等方法来提高求解效率.另一方面可拓展考虑对允许加床等更复杂的场景进行准入决策研究.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LEE

H R

, LEE

Markov decision process model for patient admission decision at an emergency department under a surge demand

[J]. Flexible Services and Manufacturing Journal, 2018, 30(1/2): 98-122.

[2]

万志远, 刘勤明, 叶春明, 等.

突发事件下的医院应急资源动态分配模型研究

[J]. 计算机应用研究, 2020, 37(2): 456-459.

[本文引用: 2]

WAN

Zhiyuan

, LIU

Qinming

, YE

Chunming

, et al.

Research on hospital emergency resource dynamic allocation model under emergencies

[J]. Application Research of Computers, 2020, 37(2): 456-459.

[本文引用: 2]

[3]

GEDIK

, ZHANG

S F

, RAINWATER

Strategic level proton therapy patient admission planning: A Markov decision process modeling approach

[J]. Health Care Management Science, 2017, 20(2): 286-302.

DOI:10.1007/s10729-016-9354-6 URL [本文引用: 2]

[4]

DAI

J J

, GENG

, XIE

X L

Dynamic admission quota control with controllable and uncontrollable demands and random service time

[J]. IEEE Transactions on Automatic Control, 2021, 66(6): 2925-2932.

DOI:10.1109/TAC.2020.3014117 URL [本文引用: 3]

[5]

BATISTA

, VERA

, POZO

Multi-objective admission planning problem: A two-stage stochastic approach

[J]. Health Care Management Science, 2020, 23(1): 51-65.

DOI:10.1007/s10729-018-9464-4 URL [本文引用: 2]

[6]

HULSHOF

P J H

, MES

M R K

, BOUCHERIE

R J

, et al.

Patient admission planning using approximate dynamic programming

[J]. Flexible Services and Manufacturing Journal, 2016, 28(1/2): 30-61.

DOI:10.1007/s10696-015-9219-1 URL [本文引用: 1]

[7]

DIAMANT

, MILNER

, QUERESHY

Dynamic patient scheduling for multi-appointment health care programs

[J]. Production and Operations Management, 2018, 27(1): 58-79.

DOI:10.1111/poms.12783 URL [本文引用: 2]

[8]

AYVAZ

, HUH

W T

Allocation of hospital capacity to multiple types of patients

[J]. Journal of Revenue and Pricing Management, 2010, 9(5): 386-398.

DOI:10.1057/rpm.2010.30 URL [本文引用: 1]

[9]

X J

, LIU

D C

, GENG

, et al.

Optimal ICU admission control with premature discharge

[J]. IEEE Transactions on Automation Science and Engineering, 2019, 16(1): 148-164.

DOI:10.1109/TASE.2018.2827664 URL [本文引用: 1]

[10]

KIM

S H

, CHAN

C W

, OLIVARES

, et al.

ICU admission control: An empirical study of capacity allocation and its implication for patient outcomes

[J]. Management Science, 2015, 61(1): 19-38.

DOI:10.1287/mnsc.2014.2057 URL [本文引用: 1]

[11]

CHAN

C W

, FARIAS

V F

, BAMBOS

, et al.

Optimizing intensive care unit discharge decisions with patient readmissions

[J]. Operations Research, 2012, 60(6): 1323-1341.

DOI:10.1287/opre.1120.1105 URL [本文引用: 1]

[12]

AKHAVIZADEGAN

, ANSARIFAR

, JOLAI

A novel approach to determine a tactical and operational decision for dynamic appointment scheduling at nuclear medical center

[J]. Computers & Operations Research, 2017, 78: 267-277.

DOI:10.1016/j.cor.2016.09.015 URL [本文引用: 1]

[13]

HULSHOF

P J H

, BOUCHERIE

R J

, HANS

E W

, et al.

Tactical resource allocation and elective patient admission planning in care processes

[J]. Health Care Management Science, 2013, 16(2): 152-166.

DOI:10.1007/s10729-012-9219-6 URL [本文引用: 1]

[14]

梁峰, 徐苹.

基于MDP和动态规划的医疗检查预约调度优化方法研究

[J]. 运筹与管理, 2020, 29(5): 17-25.

LIANG

Feng

, XU

Ping

Appointment scheduling of medical examination based on MDP and dynamic programming

[J]. Operations Research and Management Science, 2020, 29(5): 17-25.

[15]

中华人民共和国卫生部.

急诊病人病情分级指导原则(征求意见稿)

[J]. 中华危重症医学杂志(电子版), 2011, 4(4): 241-243.

Ministry of Health of the People's Republic of China.

Guidelines for grading the condition of emergency patients (draft for comments)

[J]. Chinese Journal of Critical Care Medicine (Electronic Edition), 2011, 4(4): 241-243.

DOI:10.1287/ijoc.2017.0799 URL [本文引用: 1]

[16]

LIU

, XIE

X L

Physician staffing for emergency departments with time-varying demand

[J]. INFORMS Journal on Computing, 2018, 30(3): 588-607.

[17]

文静, 耿娜, Xiaolan

Xie

, 等.

基于仿真的急诊室动态调度研究

[J]. 工业工程与管理, 2021, 26(3): 160-167.

WEN

Jing

, GENG

, XIAOLAN

Xie

, et al.

Simulation study of dynamic scheduling for emergency department

[J]. Industrial Engineering and Management, 2021, 26(3): 160-167.

[18]

PLATZMAN

L K

Introduction to probability models

[J]. Journal of Quality Technology, 1982, 14(4): 228-229.