上海交通大学学报, 2022, 56(8): 1067-1077 doi: 10.16183/j.cnki.jsjtu.2021.122

生物医学工程

面向时变需求的多等级急诊患者入院控制

徐捷1, 王子翔1, 刘玉欣1, 刘冉1, 杨之涛,2

1.上海交通大学 机械与动力工程学院,上海 200240

2.上海交通大学医学院附属瑞金医院 急诊科,上海 200025

Admission Control of Multi-Level Emergency Patients with Time-Varying Demands

XU Jie1, WANG Zixiang1, LIU Yuxin1, LIU Ran1, YANG Zhitao,2

1. School of Mechanical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China

2. Department of Emergency, Ruijin Hospital, Shanghai Jiao Tong University School of Medicine, Shanghai 200025, China

通讯作者: 杨之涛,男,主任医师,电话(Tel.):021-64370045;E-mail:yangzhitao@hotmail.fr.

责任编辑: 石易文

收稿日期: 2021-06-17  

基金资助: 国家社会科学基金资助项目(19BGL245)

Received: 2021-06-17  

作者简介 About authors

徐捷(1997-),男,安徽省池州市人,硕士生,研究方向为医疗服务管理和随机系统建模优化.

摘要

建立患者准入控制的Markov决策过程(MDP)模型,并基于均匀化方法对该模型进行拓展,实现逐时段的实时决策过程.拓展经典MDP迭代求解方法,提出双向迭代算法、逐时段策略迭代算法等方法对模型求解.以上海某大型医院抢救室为例,数值实验表明:对比现有决策方法,所提出的新方法可以提高危重患者的接收率,提升急诊医疗的服务水平.

关键词: 患者入院控制; Markov决策过程; 均匀化方法; 时变需求

Abstract

The Markov decision process (MDP) model is developed for the patient admission control problem and is extended based on the uniformization method to realize a real-time period-by-period decision process. The classical MDP iterative method is extended, and the two-way iteration algorithm and the two-way threshold iteration algorithm are proposed to solve the new model. Numerical experiments are conducted based on the data from the resuscitation room of a large hospital in Shanghai. The results show that the proposed method can improve the admission rate of critical patients and enhance the medical service level of the hospital compared with the existing decision method.

Keywords: patient admission control; Markov decision process(MDP); uniformization method; time-varying demands

PDF (1212KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

徐捷, 王子翔, 刘玉欣, 刘冉, 杨之涛. 面向时变需求的多等级急诊患者入院控制[J]. 上海交通大学学报, 2022, 56(8): 1067-1077 doi:10.16183/j.cnki.jsjtu.2021.122

XU Jie, WANG Zixiang, LIU Yuxin, LIU Ran, YANG Zhitao. Admission Control of Multi-Level Emergency Patients with Time-Varying Demands[J]. Journal of Shanghai Jiaotong University, 2022, 56(8): 1067-1077 doi:10.16183/j.cnki.jsjtu.2021.122

急诊部拥挤、病床资源紧张的现象在大型三甲医院经常出现,其原因十分复杂.首先,急诊不能采用预约机制,在一天的不同时段患者到达速率高度时变且不确定.同时,急诊患者的病情繁杂且有轻重缓急区别.进一步,每个患者占用医疗资源的时间具有不确定性,例如使用病床等医疗资源的时间不确定.这些复杂因素给急诊部服务管理和调度造成困难.

抢救室是急诊部的核心科室,而床位是抢救室最关键的资源,其使用的科学性与否直接影响对患者的救治是否及时、是否能做到对患者“应收尽收”的医疗原则.因此,急诊部需要在预诊时对患者病情进行分级,对病情严重的患者优先接收;对病情相对不紧急的患者根据资源占用情况选择性接收,即进行科学的入院控制.本文称前者为“危重患者”,后者为“非危重患者”.抢救室床位资源有限,如何通过合理的手段,对不同等级的患者加以控制,以提高患者健康回报和医院收益,是抢救室面临的重要问题.由于抢救室患者一般允许的等待时间很有限,所以当患者到达时需要实时决定是否接收.但是现实中做出科学实时的入院控制决策具有很大的难度,这是由于后续患者的到达、患者占用资源的时间都是高度不确定的,接收过多非危重患者导致床位不足,将可能影响后续危重患者的接收;接收过少则可能造成床位资源利用率不高,影响整体的医疗服务质量和收益.因此,抢救室需要科学的患者入院控制方法和策略,以提升整体运行和服务水平.

抢救室入院控制是医疗服务准入控制问题的典型场景之一.医疗服务准入控制是指针对待服务患者,对医疗资源(床位、检查设备等)进行动态分配调度,确定何种患者在什么时间可以获得医疗资源和服务,其主要研究方法包括Markov决策过程(MDP)[1-4]、随机规划[5]和近似动态规划[6-7]等,其主要对象分为对非预约患者和预约患者的准入控制.首先,很多文献对非预约患者进行了服务准入控制研究.文献[1]针对突发事件后的入院控制问题,考虑时变的到达率和奖励函数,建立连续时间MDP模型,并通过状态离散化的方式进行求解.文献[3]考虑质子治疗场景下治疗组合的比例约束,通过聚合MDP模型,求解获得近似最优的患者入院策略.文献[5]为提高资源利用率和降低服务成本两方面的目标,提出了双目标随机优化模型,在不确定的需求和能力下取得资源利用率和服务成本之间的最优均衡.文献[4]针对不同紧急程度患者的入院控制问题,提出了一种配额策略,在获得需求信息之前决定最大日接纳量,并证明在特定条件下该策略等价于已知需求信息的最优策略.文献[8]考虑紧急患者和预约患者竞争的入院控制问题,证明了最优配额策略呈现单调性.文献[2]则研究患者到达及病情演变均不确定条件下的入院控制问题,建立资源动态分配的MDP模型,并通过粒子群算法进行求解.文献[9-11]进一步考虑了重症监护室场景,在拒绝新来患者和让患者提前出院之间取得平衡.

除了随机非预约到达患者,目前对预约患者的准入控制也有较广泛研究,主要包括对患者的预约调度和手术择期等研究.对于医疗检查资源的预约调度问题,文献[12]考虑爽约率和到达率不同的多类患者,利用分层算法框架求解.文献[7]针对择期手术决策问题,通过近似动态规划求解,仿真显示算法结果使得医疗系统运行效果得到改善.文献[13]针对择期患者入院控制问题,建立混合整数规划模型,求解多种资源、多个时间段和多类患者的准入控制问题.文献[14] 针对多台设备多类患者场景的检查资源预约调度问题建立MDP模型,求解使得收益最大化.

本文主要采用MDP方法进行患者准入研究.虽然如上所述的MDP方法已经在相关问题得到了运用,但本研究的抢救室准入控制问题和以上文献有显著区别,针对抢救室这个具体场景下的准入控制问题,本文的研究对象和基本假设都有别与已有研究.

(1) 传统基于MDP的患者准入研究假设提前设定了决策时刻或时间槽长度,如每隔10 min决策一次,两个决策时刻之间(10 min长度内)不做任何决策,以简化模型和求解.而本文突破以上设定,允许时段内发生多个事件且进行多次决策,即患者到达时立即根据系统状态做出相应的决策,更加符合抢救室的实际运行需要.

(2) 传统MDP患者准入控制模型设定系统只有在决策时刻才会发生状态变化.因此需要对系统的随机特征加以近似和限定,例如一般假设服务时间虽然是随机量,但是离散为时间槽的整数倍.本文的MDP模型中突破此约束,允许各个随机量具有连续随机性,更加符合实际的随机特点.

(3) 传统MDP模型由于设定了特定的决策时刻,为了获得好的效果必然要求决策时刻密集,且对每个决策时刻均求解出一个决策策略,因此最终得到很多决策策略.本文突破此模式,针对一个较长时段求解得到统一策略且不限制决策时间,如此更好满足了急诊抢救室运作管理的需要,提高了研究成果实施可行性.

1 问题与模型描述

本文聚焦急诊抢救室床位资源,研究如何通过科学的手段,将有限的床位分配给不同等级的患者,即当患者到达抢救室时,按照何种策略决定是否接收该患者,以提高对患者的服务水平并提升医院的综合收益.针对急诊抢救室入院控制问题,本文根据合作医院的调研情况和实际数据做出以下几点假设.

(1) 急诊室床位总数为N,每个床位可视为此服务系统中的“服务台”.

(2) 患者实际病情复杂多变,根据我国卫生部2011年发布的急诊病人病情分级指导原则[15],急诊患者可分为4个等级,其中需进入抢救室抢救的患者可分为两个严重等级,本文称为危重患者和非危重患者.

(3) 两类患者到达速率的时变性质,参考现有文献[16],将一个较长决策期等分为T个时段,每个时段长度为Δ.例如合作医院的数据中T=24,Δ为1 h.

(4) 根据合作医院实际数据统计拟合以及相关文献的分析结果[17],设定每个时段内每类患者的到达数服从泊松分布,到达率在不同时段变化.危重患者和非危重患者在时段t(t=1, 2, …, T)内的到达速率参数分别为λt0λt1.

(5) 根据合作医院提供的数据统计拟合,设定两类患者的医疗服务时间,即其占用床位的时间,分别服从给定参数为μ0μ1的指数分布.

(6) 采用合作医院的基本收治规则,即当系统有床位空闲时,若危重患者到达,则必须本着“应收尽收”的原则加以接收,分配床位;若非危重患者到达,则可以接收,也可以拒绝接收.当床位已满时,就不再接收任何患者.

(7) 假设接收患者会产生确定的正收益,拒绝患者则会产生相应的负收益.接收一位危重患者和非危重患者的收益分别为r0r1;拒绝一位危重患者和非危重患者的损失分别为p0p1.注意此处的收益并非仅指经济收益,而是考虑了患者救治难度、患者转院风险、医院经济收益以及社会责任等因素的综合性指标.

本研究寻找科学的策略集合,使得时变需求下患者的入院控制问题最优,即求解每个时段的患者入院控制策略,在每个时段内使用对应的最优策略,以实现一个较长时域内(例如24 h)总收益最大化.在一个时段内患者随机连续到达,患者每次到达需要实时决策,这造成本问题中一个时段内虽然策略是确定的,但是决策的时间点和次数不确定.同时,本文放弃了类似研究常用的“时间槽”概念,设定患者的到达是随机且速率时变的,每次到达实时决策,这样的设定更加符合实际情况,同时也更加具有挑战性.

以上决策问题可以通过有限期无折扣的MDP模型来描述.本文建立的MDP模型主要包括4个元素,即系统状态、决策集合、状态转移概率和收益评估.

1.1 系统状态

定义系统状态为s=(nh, nl, h),nhnl分别为当前系统中危重患者和非危重患者数量;h为系统当前事件性质,取值0,1,2分别表示“危重患者到达”“非危重患者到达”和“无患者到达”,其中“无患者到达”包括“患者出院”和“系统自转移”(系统自转移见下文1.3节定义)两类事件.考虑到系统人数不超过N,因此状态总数为

M=3 i=0N(N-i+1)= 32(N+1)(N+2)

1.2 决策集合

考虑患者到达时的决策包括“接收”和“拒绝”.根据本文假设,在某些状态下,其对应决策集只有一个决策,如床位占满时,只能拒绝患者;有空床且危重患者到达时,只能接收.需要指出,无患者到达时,无需进行决策,即定义为 “空决策”,不产生收益或损失.综上,定义决策集为A={0, 1, 2},其中0表示拒绝患者,1表示接收患者,2表示空决策.若一个时段t内各个状态对应的决策均确定,则称该时段策略πt确定,任意状态s对应决策at(s)可由该策略给出,即对任意sat(s) = πt(s).

1.3 状态转移概率

相关MDP文献一般是将决策期划分为多个等长的时间槽,假设事件发生的时间间隔是离散随机,即为时间槽的整倍数,从而将模型简化为决策时刻和系统状态转移均只发生在每个时间槽端点[1,4].但由于本研究中患者到达时间和服务时间均为连续随机变量且需要实时决策,所以,使用均匀化方法[18]将系统事件发生时间离散化.对于一个连续时间马尔科夫链,令γ表示其最大转移速率,则系统在时段t内发生事件数量U (t)服从参数为γΔ的泊松分布,例如,发生事件数量为n的概率为

P(U(t)=n)=e-γΔ(γΔ)nn!

那么,若系统当前状态为si,发生一次事件后转移到sj的概率为

Pij= vij/γ,sisj1-ij(vij/γ),si=sj

式中:vij为系统从状态si到状态sj的转移速率.si=sj时,表示状态不发生改变,即系统自转移.

针对本文研究的系统,其最大转移速率γ可定义为

γ= max1tT(λt0+ λt1+Nmax{μ0, μ 1})

假设转移前系统状态为s=(nh, nl, h),采用的决策为aA;决策后的瞬时状态为sa;转移后状态为s'=(n'h, n'l, h').则系统在时段t状态转移概率Pt(s'|s, a)可讨论如下.

场景1 危重患者到达且接收,即h=0,a=1.

该决策的条件为nh+nl<N.接收患者后,sa=(nh+1, nl, 2).接收后,可能发生的随机事件如下.

(1) 患者到达.

转移后状态为s'=(nh+1, nl, h'),根据到达的患者类型h'取值为0或1,相应的转移概率分别为λt0λt1/γ.

(2) 患者出院.

若危重患者出院,转移后状态为s'=(nh, nl, 2),转移概率为(nh+1)μ0;若非危重患者出院,s'=(nh+1, nl-1, 2),转移概率为nlμ1/γ.

(3) 自转移.

状态保持不变,即s'=sa,转移概率为1-λt0+λt1+(nh+1)μ0+nlμ1/γ.

综上,该场景下状态转移概率可由下式表示:

Pt(s'|s, a)= λth'/γ, n'h=nh+1,n'l=nl,h'{0,1}(nh+1)μ0/γ,  n'h=nh,n'l=nl,h'=2nlμ1/γ,n'h=nh+1,n'l=nl-1,h'=21-[λt0+λt1+(nh+1)μ0+nlμ1]/γ,   n'h=nh+1,n'l=nl,h'=2

场景2 非危重患者到达且接收,即h=1,a=1.

该决策的条件为nh+nl<N.接收患者后,sa=(nh, nl+1, 2).接收后,同上分析可得该条件下的状态转移概率为

Pt(s'|s, a)= λth'/γ, n'h=nh,n'l=nl+1,h'{0,1}nhμ0/γ, n'h=nh-1,n'l=nl+1,h'=2(nl+1)μ1/γ,  n'h=nh,n'l=nl,h'=21-[λt0+λt1+nhμ0+(nl+1)μ1]/γ,  n'h=nh,n'l=nl+1,h'=2

场景3 患者到达,决策为拒绝或无患者到达,即a=0或h = 2.

对于危重患者到达,该决策的条件为nh+nl=N;对非危重患者,决策条件为nh+nlN;无患者到达时,采取空决策.决策后状态均为sa=(nh, nl, 2).拒绝后,同上分析可得该条件下的状态转移概率为

Pt(s'|s, a)= λth'/γ,  n'h=nh,n'l=nl,h'{0,1}nhμ0/γ, n'h=nh-1,n'l=nl,h'=2nlμ1/γ,  n'h=nh,n'l=nl-1,h'=21-(λt0+λt1+nhμ0+nlμ1)/γ,     n'h=nh,n'l=nl,h'=2

场景4 对其他未讨论情况,有Pt(s'|s, a)=0.

以上为发生一次事件时的单步状态转移,而当时段t内策略πt确定,即每个状态s对应的决策a随之确定,场景1~4的单步状态转移可表示为二维状态转移矩阵Pt;给定t时段初状态分布(即处于各状态的概率)ωt = [ωt,1ωt,2ωt,M]后,若该时段发生事件数为n,则时段末状态分布为ωt(Pt)n,而根据均匀化方法,发生事件数服从泊松分布,由此可利用函数Dt(ωt, πt)计算t时段末的系统状态如下:

ωt+1=Dtt, π t)=ωtn=0(Pt)n e-γΔ(γΔ)nn!

在系统状态ωt+1中,状态si对应的概率ωt+1, i记为Qt(si|ωt, πt),即时段状态转移概率,表示t时段初系统状态分布为ωt,采用策略πt, t+1时段初处于状态si的概率.由于当事件数n较大时,其发生概率e-γΔ(γΔ)n/n!接近于0,在数值实验中将其截断,给定事件数上限Umax,从而只对n∈[0, Umax]求和即可,下文类似.

此处引入状态分布是必要的,一方面是均匀化方法的需要,另一方面,本文目标为求解每个时段的患者入院控制策略,即该时段每个状态的最优行动.经典的MDP仅需要分别确定每个状态的最优行动,不需要同时考虑其他状态.然而本文场景下,时段内决策次数不确定,在时段内可能转移到其他任何状态.如果分别从每个状态出发计算策略,则可能在不同的状态下得到不同的策略,这与本文要求冲突.因此,需要在时段开始设定状态的分布,利用分布计算并得到时段的唯一最优策略.

1.4 收益评估

经典MDP模型为每个决策时刻确定最优策略,不同决策时刻策略往往不同.本文是为每个时段确定最优策略,即本时段内每当患者到达抢救室,均采用此策略决策,最终实现决策期(T个时段)内总的收益最大化.由于每个时段内的决策时刻和决策次数是不确定的,因此,本文在决策时所考虑的收益也区别于经典MDP,经典MDP考虑一次决策后获得的“单步收益”,而本文需要考虑一个时段内“多次决策的总收益”.本文通过均匀化方法进行收益评估.

首先考虑单步收益,即在某一状态下做一次决策所能获得的收益.对于同类型患者,接收或拒绝的收益是确定而唯一的.若时段t状态s=(nh, nl, h)采取的决策为a,则一次决策后的单步收益可以记为

ct,s= rha+ph(1-a),h=0,10,h=2

文献中一般是将决策期划分为多个固定长度的时间槽,假设事件的决策时刻均在时间槽端点,进而最大化逐点的收益之和[1].在本文研究的场景下,系统事件发生的时间间隔是连续随机的,不一定为时间槽的倍数,因此需要对收益评估做出调整.给定t时段初状态分布ωt,当该时段策略πt确定,单步状态转移矩阵Pt确定,由式(9)可知,每个状态在决策后能够获得的单步收益也随之确定,记为向量ct = [ct,1ct,2ct,M]T.若时段t内系统未发生转移,则收益为0;否则,系统发生第i(i>0)次转移后的收益可表示为ωt(Pt)i-1ct,则根据均匀化,时段t内的总收益Rt可通过函数Rt(ωt, πt)计算如下:

Rt=Rtt, π t)=ωtn=1i=0n-1(Pt)ict e-γΔ(γΔ)nn!

1.5 经典有限期MDP模型对比分析

以上构建的MDP模型与经典有限期MDP患者准入控制模型存在着显著区别.① 经典MDP模型存在确定的决策时刻,而本模型的决策时刻为患者随机的到达时刻,更加满足实时决策的需要;② 经典MDP考虑相邻决策时刻之间的单步状态转移,本模型考虑逐时段之间的状态转移,且是基于均匀化计算状态分布之间的转移;③ 经典MDP通过对每个决策时刻收益累加计算总收益,本模型则通过均匀化累加每个时段收益来计算总收益;④ 经典MDP 模型通过确定每个决策时刻的策略来最优化目标,而本模型通过确定每个时段的统一策略来优化系统.

2 算法设计

首先从经典有限期MDP的Bellman最优性方程引入本文计算方法:

Vt(s)= maxaACt(s,a)+i=1Mpt(sis,a)Vt+1(si), ∀s

式中:Vt(s)为决策时刻t状态s的最优价值,即在t时刻从状态s出发,按最优策略决策,直到决策期结束时所能获得的总收益.由式(11)可知,为了最大化状态价值,需要综合考虑当前单步收益Ct(s, a)和未来期望收益,当前状态和未来状态通过状态转移概率Pt(s'|s, a)联系.

本文对状态最优价值做出扩展,需要注意的是,本文中t不表示第t个决策时刻,而表示第t个时段.Vt(ωt)表示t时段初状态分布ωt的最优价值,即在t时段初从状态分布ωt出发,按最优策略πt*决策,直到决策期结束时所能获得的总收益.特别地,Vt(s)表示在t时段初从状态s出发,按实际状态分布ωt确定的最优策略πt*决策,直到决策期结束时所能获得的总收益.Vt(ωt)和Vt(s)存在下述关系:

Vtt)=ωt· Vt(s1)Vt(s2)Vt(sM)

其证明是显然的:由式(8)和式(11)可知,当最优策略πt*确定后,时段状态转移和时段收益评估都是对初始状态分布的线性变换,因此状态分布价值也就为各状态价值的线性组合,其权重恰为分布中各状态的概率.

根据状态价值定义以及式(12),本文提出Bellman最优性方程如下式所示:

Vtt)= maxπtRt(ωt,πt)+Vt+1(Dt(ωt,πt))= maxπtRt(ωt,πt)+i=1MQt(si|ωt,πt)Vt+1(si)

需要注意的是,经典Bellman方程式(11)中是分别对每个状态做出最优决策.但是本文Bellman方程式(13)考虑逐时段的递推关系,一个时段内可能会发生多次状态转移.根据式(10),要得到整个时段的总收益,须确定该时段完整的策略,因此不能分别求每个状态的最优决策,而是针对时段初状态分布,直接确定时段内最优策略.

为最大化决策期的总收益,本文基于Bellman最优性方程式(13)设计了双向迭代算法,确定每个时段的最优策略,即得到包含T个策略的策略集合.由于该算法复杂度较高,无法应对大规模问题,所以进一步提出逐时段策略迭代算法.另外,为便于实际应用,设计了双向阈值迭代算法来求解最优阈值策略.

2.1 双向迭代算法

由式(8)可知,给定决策期初始状态分布ω1,若各个时段策略确定,则之后各个时段初的状态分布ωt (t=2, 3, …, T)均可确定;再由式(13)结合Vt(s)定义,可从时段T向时段1方向依次计算各时段各个状态的价值Vt(s) (t=T, T-1, …, 1).经典有限期MDP采用基于Bellman方程的逆向迭代求解,但基于本文的Bellman方程式(13)无法实现这样的求解过程,其原因在于未知上一时段初的状态分布ωt,从而无法评估时段内的收益Rt和时段状态转移概率Qt(si|ωt, πt);同时,若采用正向求解,也会遇到未知下一时段初状态价值的困难.因此,本文设计双向迭代算法求解每个时段的最优策略,其中,正向寻优以时段1为起点,基于逆向寻优得到的各时段状态价值向后逐时段寻找最优策略,并更新各时段的状态分布,如图1所示;逆向寻优以时段T为起点,基于正向寻优得到的各时段的状态分布向前逐时段寻找最优策略,并更新各时段的状态价值,如图2所示;这个完整的过程称为一轮双向迭代.当相邻迭代中正向寻优所得策略不变时,算法收敛.

图1

图1   正向寻优示意图

Fig.1   Illustration of forward search


图2

图2   逆向寻优示意图

Fig.2   Illustration of backward search


双向迭代算法步骤如算法1所示.其中:πtmt时段第m次迭代所得策略;m为迭代迭代编号;Rt(s, πt)中s对应ωt的一个特例,表示处于状态s的概率为1,处于其他状态的概率为0;与之对应,Qt(s'|s, πt)是Qt(s'|ωt, πt)的特例.

算法1 双向迭代算法

输入 初始状态分布ω1

输出 各时段策略

(1) function 双向迭代f1 (ω1)

(2) Vt(s)=0,∀t,s

(3) 迭代编号 m=0

(4) while m<2或(πtmπtm-1, ∀t) do

(5) m=m+1

(6) for t=1 to Tdo▷正向寻优

(7)πtm=argmaxπt(Rt(ωt,πt)+i=1MQt(si|ωt,πt)Vt+1(si))

(8) ωt+1=Dt(ωt,πtm)

(9) end for

(10) for t=T to 1 do▷逆向寻优

(11)π~tm=argmaxπt(Rt(ωt,πt)+i=1MQt(si|ωt,πt)Vt+1(si))

(12) Vt(s)=Rt(s,π~tm)+i=1MQt(s'i|s,π~tm)Vt+1(s'i), ∀s

(13) end for

(14) end while

(15) return πm={π1m,π2m, …,πTm}

(16) end function

数值实验验证了该算法在小规模数据上的最优性,需要注意的是,在所有状态中,危重患者到达或无患者到达时,决策是确定的.只有当非危重患者到达时,可能的决策有两种,可得到每个时段内不同的策略共有2M/3种,与状态总数M呈指数关系.由于在算法1步骤7和11中直接遍历所有策略,显然该算法难以应用到大规模抢救室入院控制问题.

2.2 逐时段策略迭代算法

为求解大规模问题进一步提出“逐时段策略迭代算法”,求解近似最优策略.该算法从时段T向时段1依次寻优,对每个时段,采取策略迭代算法,先随机选取一个策略,如先到先服务(FCFS)策略,再逐状态改进当前策略,直到相邻迭代所得策略不变,则该时段迭代过程结束,然后继续对前一个时段进行策略迭代,直到所有时段策略确定.数值实验显示,每个时段一般不超过4轮迭代策略即确定,而每轮迭代需评估的策略数仅为2M/3,求解效率大幅提升.

逐时段策略迭代算法具体步骤如算法2所示.其中:Qt(s'|πtm, s, a)为设定策略πtm中状态s对应决策为a,t时段从状态s到状态s'的转移概率;Rt(πtm, s, a)为设定策略πtm中状态s对应决策为a, t时段初从状态s出发,得到的总收益.

算法2 逐时段策略迭代算法

输入 初始策略πst (如FCFS)

输出 各时段策略

(1) function 逐时段策略迭代f2 (πst)

(2) VT+1(s)=0, ∀s

(3) for t=T to 1 do

(4) 迭代编号 m=0

(5)mtm=πst

(6) while m=0或πtmπtm-1do

(7)πtm+1(s)=argmaxaA(Rt(πtm,s,a)+i=1MQt(s'i|πtm,s,a)Vt+1(s'i)), ∀s

(8) m=m+1

(9) end while

(10) πt*=πtm

(11) Vt(s)=Rt(s,πtm)+i=1MQt(s'i|s,πtm)Vt+1(s'i), ∀s

(12) end for

(13) return π*={π1*,π2*, …,πT*}

(14) end function

2.3 双向阈值迭代算法

考虑到抢救室入院控制实际应用时的便利性,本文设计阈值策略.阈值策略即为每个时段提供一个阈值,基于该阈值可确定该时段内的唯一策略.考虑两种阈值策略,空闲床位阈值策略和非危重患者阈值策略.

(1) 空闲床位阈值策略.

该策略基于系统中空闲床位的数量来决定是否接收非危重患者:当空闲床位数量大于某一阈值τ时,接收非危重患者;否则不接收非危重患者.

(2) 非危重患者阈值策略.

该策略基于系统中已有非危重患者的数量来决定是否接收非危重患者:当已有非危重患者的数量小于某一阈值τ时,接收非危重患者;否则不接收非危重患者.

阈值策略可采用上文双向迭代框架求解,本文称为双向阈值迭代算法.相比于双向迭代算法,只需将对策略的搜索调整为对阈值的遍历.双向迭代算法每个时段要遍历2M/3个策略,而由于阈值范围有限([0, N]),每个时段只需要遍历N+1个策略,因此决策空间大大缩小,可应用于较大规模场景.

双向阈值迭代算法具体步骤如算法3所示.其中:τtt时段的阈值;Qt(s'|ωt, τt)为给定阈值策略τt后,由状态分布ωt转移到状态s'的概率;Rt(ωt, τt)为从状态分布ωt出发,根据阈值策略τt得到t时段内的总期望收益;Dt(ωt, τt)为从状态分布ωt出发,根据阈值策略τt得到t+1时段初的状态分布ωt+1.

算法3 双向阈值迭代算法

输入 初始状态分布ω1

输出 各时段阈值

(1) function 双向阈值迭代f3 (ω1)

(2) Vt(s)=0, ∀t,s

(3) 迭代编号 m=0

(4) while m<2或(τtmτtm-1, ∀t) do

(5) m=m+1

(6) for t=1 to Tdo▷正向寻优

(7)τtm=argmaxτ[0,N](Rt(ωt,τ)+i=1MQt(si|ωt,τ)Vt+1(si))

(8) ωt+1=Dt(ωt,τtm)

(9) end for

(10) for t=T to 1 do▷逆向寻优

(11)τ~tm=argmaxτ[0,N](Rt(ωt,τ)+i=1MQt(si|ωt,τ)Vt+1(si))

(12) Vt(s)=Rt(s,τ~tm)+i=1MQt(s'i|s,τ~tm)Vt+1(s'i), ∀s

(13) end for

(14) end while

(15) return τm={τ1m,τ2m, …,τTm}

(16) end function

3 数值实验

使用上海某大型三甲医院急诊部的实际运行数据,首先利用处理后的小规模数据对双向迭代算法的最优性加以验证,再基于医院真实数据对比分析各个算法的实际性能,最后对床位数量进行灵敏度分析,为抢救室入院提供易于执行的控制策略和床位数量安排指导意见.为使用均匀化方法,截断了式(8)和(10)中无限事件数,设每个时段内最多发生事件数为Umax=50,且通过实验验证了此设定可保证均匀化精度.数值实验采用的数据见网络材料 https://pan.baidu.com/s/1UaRkX-iXta2o4NBCgwthRw (提取码:jl48).

3.1 双向迭代算法最优性验证

理论证明双向迭代算法最优性非常困难.但针对小规模问题可通过枚举法枚举出所有时段策略的组合,确定最优策略以及最大收益.因此,本文将双向迭代算法与枚举法在多组实验参数下的收益结果加以对比,进行最优性验证.由于医院原始数据规模较大,考虑缩短决策期和缩小状态空间来降低求解时间,使用医院采集数据中连续6 h且设置3个可用床位,在此基础上设置不同参数共计得到8个算例.算例中统一的参数设定如表1所示,算例间参数区别包括各时段到达率和单步收益(或损失),具体参数数值见网络材料SM-1节.求解结果如表2所示,由表2可见,双向迭代算法和枚举法的求解结果完全一致,数值结果支持双向迭代算法的最优性假设.

表1   最优性验证确定参数

Tab.1  Fixed parameters used in optimality validation

参数取值
N3
T6
Δ1
μ0, μ10.4, 0.63

新窗口打开| 下载CSV


表2   最优性验证结果

Tab.2  Results of optimality validation

算例双向迭代算法总收益枚举总收益
158.56558.565
230.45330.453
3134.397134.397
4106.729106.729
564.91564.915
635.92335.923
7143.311143.311
8114.536114.536

新窗口打开| 下载CSV


3.2 逐时段策略迭代和双向阈值迭代算法对比实验

由于双向迭代算法复杂度很高,难以应对实际场景带来的大规模准入控制问题,利用逐时段策略迭代算法求解近似最优策略,并从易于实施的角度,采用双向阈值迭代算法求解两种阈值策略.本节以先到先服务策略为基准策略,记为K0,分别与近似最优策略(记为K1)以及两种阈值策略(记空闲床位阈值策略为K2,非危重患者阈值策略为K3)进行对比,每种策略均由仿真进行系统的性能评估,得到总收益和患者接收率指标.采用急诊部提供的实际运行数据,考虑长度为一天24 h的决策期,床位数目、服务速率等参数如表3所示(完整参数见网络材料SM-2节).

表3   对比实验参数

Tab.3  Parameters used in comparison experiment

参数取值
N30
T24
Δ1
μ0, μ10.1, 0.333
r0, r120, 3
p0, p1-30,-1

新窗口打开| 下载CSV


4种策略收益及效率的对比结果如表4所示,表中显示均匀化评估所得收益、仿真评估所得收益(仿真105 d)、算法求得的策略相比K0的收益提升(“收益提升”列)以及算法运行时间(取算法运行5次的平均时间).由表4可知,在各个策略下,均匀化评估结果与仿真结果都十分接近,误差不超过0.03%,验证了均匀化方法的评估精度.不同的策略下收益表现有显著差异,K1取得了最高收益,相比K0提升6.96%;K2与K1表现非常接近,差距不足0.1%;K3相比K0提升了3.3%,表现不如K2策略.但从效率上看,K2和K3策略由于搜索空间较小,其求解效率远优于K1策略.综合来看,K2的求解结果和效率更具优越性.

表4   各策略收益及效率对比

Tab.4  Comparison of returns and efficiencies by policy

策略均匀化评估
总收益
仿真评估
总收益
收益
提升/%
算法运行
时间/s
K01023.181023.38--
K11094.261094.586.9615481
K21093.971094.146.91706
K31057.481057.163.30691

新窗口打开| 下载CSV


除了总收益外,患者接收率也是抢救室关注的重点指标,尤其是危重患者的接收率.本文通过仿真统计3项患者接收率,分别为总接收率(即不区分患者类型的接收率,记为Y)、危重患者接收率(记为Y0)和非危重患者接收率(记为Y1).各时段平均接收率结果如表5所示,分时段接收率见网络材料SM-3节.相比于基准策略,本文优化后的3种策略表现有所差异,虽然均提高了平均危重患者接收率,但导致平均非危重患者接收率有不同程度的降低.K1和K2的平均危重患者接收率由95.6%提升到99.1%,提高了对危重患者的服务水平,且平均非危重患者接收率保持在84%以上.K3的平均危重患者接收率尽管也提高到98.1%,但平均非危重患者接收率降低较多不足80%.由此可见,即使在相同的参数下,采取不同的策略,对患者接收率仍有较大影响,本文提出的K1、K2策略在保证总体接收率合理的情况下,更大程度上提高了危重患者的接收率而具有优势.

表5   各策略平均患者接收率对比

Tab.5  Comparison of average admission rates by policy

K0K1K2K3
YY0Y1YY0Y1YY0Y1YY0Y1
0.9560.9560.9560.9120.9910.8420.9130.9910.8450.8860.9810.798

新窗口打开| 下载CSV


由于抢救室重点关注危重患者,重点针对每个时段的危重接收率进行分析,如图3所示.基准策略K0在不同时段波动很大,整体接收率低,难以实现应收尽收原则.K1有19个时段的接收率在98%以上,K2也有17个时段的接收率在98%以上,验证了K2阈值策略的性能优势.且注意到K1和K2策略在24个时段中接收率波动较小,服务水平稳定.K3策略相比K0有所提升,但有13个时段的接收率在98%以下,难以达到医院要求.整体来看,本文求解所得3种策略相比基准策略都有较大提升,其中K3提升较少,而K1和K2提升显著,尤其是K2阈值策略,既有性能优势又易于实施,优势明显.

图3

图3   各策略逐时段危重患者接收率

Fig.3   Admission rates of critical patients of each policy by time of day


3.3 床位数量灵敏度分析

显然,床位数量越多,医院就可以接收更多的患者,达到更高的接收率.但是抢救室床位资源成本高昂,医护资源也有限,并不能无限扩增床位.因此本文对床位数量进行敏感度分析,讨论不同数量的床位对危重患者接收率及总收益的影响.

除床位数量外,本节采用参数均与3.2节相同.因K2策略结果与K1策略接近,且更具实际应用意义,本节采用K2策略进行分析,讨论在该策略下床位数量的影响.考虑N∈[25,35]的变化区间,总收益变化如表6所示.由表6可以看出,床位增加带来收益增加,但增长速度越来越慢,即增加床位的边际收益越来越少.

表6   不同床位数量下收益变化

Tab.6  Change in returns with different number of beds

N均匀化评估总收益相比N-1的增长率/%
25980.51-
261010.433.05
271036.232.55
281058.452.14
291077.681.82
301093.971.51
311107.601.25
321118.951.02
331128.310.84
341135.900.67
351142.010.54

新窗口打开| 下载CSV


除了总收益外,抢救室还关注一天内危重患者的平均接收率R0随床位数量的变化.不同床位数量下接收率变化如图4所示.由图4可知,随着床位数量增长,平均危重接收率持续增长,但增长率逐渐放缓,直到增加到30张床位时,平均危重接收率达到抢救室目标值Y*=0.99.基于在合作医院调研得到的床位成本,当床位数超过30时,增加的总收益低于床位增加成本.因此,在保证平均危重接收率达到目标危重接收率的条件下,较为合理的床位数量为30,此时既能满足危重患者服务水平的要求,又控制了总投入成本.

图4

图4   不同床位数量下接收率变化

Fig.4   Changes in admission rates with different number of beds


4 结语

针对急诊抢救室床位资源紧张的问题,提出根据患者病情严重及紧急程度选择性收治患者.建立了MDP模型,考虑到到达率的高度时变特性,使用均匀化方法逐时段进行离散化并求解每个时段内的最优策略.提出了求解最优策略的双向迭代算法和求解近似最优策略的逐时段策略迭代算法,实现了在较大规模数据和较长决策期场景下的应用.为了易于在实际场景中实施,进一步设计了双向阈值迭代算法,高效地为大规模实际场景求解得到简单且有效的阈值策略.数值实验验证了双向迭代算法在小规模数据上的最优性,验证了近似最优策略以及两种阈值策略的效果,所提出的阈值策略性能与近似最优策略接近且易于实施,可以为抢救室床位管理提供有效指导.本研究方法虽可以对时变且随机患者需求等复杂条件的准入问题进行决策,但也存在一些局限.首先受限于迭代算法复杂度较高,难以应用于大规模问题,拟进一步采用深度强化学习等方法来提高求解效率.另一方面可拓展考虑对允许加床等更复杂的场景进行准入决策研究.

参考文献

LEE H R, LEE T.

Markov decision process model for patient admission decision at an emergency department under a surge demand

[J]. Flexible Services and Manufacturing Journal, 2018, 30(1/2): 98-122.

DOI:10.1007/s10696-017-9276-8      URL     [本文引用: 4]

万志远, 刘勤明, 叶春明, .

突发事件下的医院应急资源动态分配模型研究

[J]. 计算机应用研究, 2020, 37(2): 456-459.

[本文引用: 2]

WAN Zhiyuan, LIU Qinming, YE Chunming, et al.

Research on hospital emergency resource dynamic allocation model under emergencies

[J]. Application Research of Computers, 2020, 37(2): 456-459.

[本文引用: 2]

GEDIK R, ZHANG S F, RAINWATER C.

Strategic level proton therapy patient admission planning: A Markov decision process modeling approach

[J]. Health Care Management Science, 2017, 20(2): 286-302.

DOI:10.1007/s10729-016-9354-6      URL     [本文引用: 2]

DAI J J, GENG N, XIE X L.

Dynamic admission quota control with controllable and uncontrollable demands and random service time

[J]. IEEE Transactions on Automatic Control, 2021, 66(6): 2925-2932.

DOI:10.1109/TAC.2020.3014117      URL     [本文引用: 3]

BATISTA A, VERA J, POZO D.

Multi-objective admission planning problem: A two-stage stochastic approach

[J]. Health Care Management Science, 2020, 23(1): 51-65.

DOI:10.1007/s10729-018-9464-4      URL     [本文引用: 2]

HULSHOF P J H, MES M R K, BOUCHERIE R J, et al.

Patient admission planning using approximate dynamic programming

[J]. Flexible Services and Manufacturing Journal, 2016, 28(1/2): 30-61.

DOI:10.1007/s10696-015-9219-1      URL     [本文引用: 1]

DIAMANT A, MILNER J, QUERESHY F.

Dynamic patient scheduling for multi-appointment health care programs

[J]. Production and Operations Management, 2018, 27(1): 58-79.

DOI:10.1111/poms.12783      URL     [本文引用: 2]

AYVAZ N, HUH W T.

Allocation of hospital capacity to multiple types of patients

[J]. Journal of Revenue and Pricing Management, 2010, 9(5): 386-398.

DOI:10.1057/rpm.2010.30      URL     [本文引用: 1]

LI X J, LIU D C, GENG N, et al.

Optimal ICU admission control with premature discharge

[J]. IEEE Transactions on Automation Science and Engineering, 2019, 16(1): 148-164.

DOI:10.1109/TASE.2018.2827664      URL     [本文引用: 1]

KIM S H, CHAN C W, OLIVARES M, et al.

ICU admission control: An empirical study of capacity allocation and its implication for patient outcomes

[J]. Management Science, 2015, 61(1): 19-38.

DOI:10.1287/mnsc.2014.2057      URL     [本文引用: 1]

CHAN C W, FARIAS V F, BAMBOS N, et al.

Optimizing intensive care unit discharge decisions with patient readmissions

[J]. Operations Research, 2012, 60(6): 1323-1341.

DOI:10.1287/opre.1120.1105      URL     [本文引用: 1]

AKHAVIZADEGAN F, ANSARIFAR J, JOLAI F.

A novel approach to determine a tactical and operational decision for dynamic appointment scheduling at nuclear medical center

[J]. Computers & Operations Research, 2017, 78: 267-277.

DOI:10.1016/j.cor.2016.09.015      URL     [本文引用: 1]

HULSHOF P J H, BOUCHERIE R J, HANS E W, et al.

Tactical resource allocation and elective patient admission planning in care processes

[J]. Health Care Management Science, 2013, 16(2): 152-166.

DOI:10.1007/s10729-012-9219-6      URL     [本文引用: 1]

梁峰, 徐苹.

基于MDP和动态规划的医疗检查预约调度优化方法研究

[J]. 运筹与管理, 2020, 29(5): 17-25.

[本文引用: 1]

LIANG Feng, XU Ping.

Appointment scheduling of medical examination based on MDP and dynamic programming

[J]. Operations Research and Management Science, 2020, 29(5): 17-25.

[本文引用: 1]

中华人民共和国卫生部.

急诊病人病情分级指导原则(征求意见稿)

[J]. 中华危重症医学杂志(电子版), 2011, 4(4): 241-243.

[本文引用: 1]

Ministry of Health of the People's Republic of China.

Guidelines for grading the condition of emergency patients (draft for comments)

[J]. Chinese Journal of Critical Care Medicine (Electronic Edition), 2011, 4(4): 241-243.

[本文引用: 1]

LIU R, XIE X L.

Physician staffing for emergency departments with time-varying demand

[J]. INFORMS Journal on Computing, 2018, 30(3): 588-607.

DOI:10.1287/ijoc.2017.0799      URL     [本文引用: 1]

文静, 耿娜, Xiaolan Xie, .

基于仿真的急诊室动态调度研究

[J]. 工业工程与管理, 2021, 26(3): 160-167.

[本文引用: 1]

WEN Jing, GENG Na, XIAOLAN Xie, et al.

Simulation study of dynamic scheduling for emergency department

[J]. Industrial Engineering and Management, 2021, 26(3): 160-167.

[本文引用: 1]

PLATZMAN L K.

Introduction to probability models

[J]. Journal of Quality Technology, 1982, 14(4): 228-229.

[本文引用: 1]

/