面向柔性作业车间动态调度的双系统强化学习方法

刘亚辉, 申兴旺, 顾星海, 彭涛, 鲍劲松, 张丹

A Dual-System Reinforcement Learning Method for Flexible Job Shop Dynamic Scheduling

LIU Yahui, SHEN Xingwang, GU Xinghai, PENG Tao, BAO Jinsong, ZHANG Dan

表4 工序排序决策动作

Tab.4 Decision-making action of process sequencing

符号	描述	量化方式
FIFO	先到先加工优先规则	$a_{t}^{2} = m i n r_{k, i} (r_{k, i} 为释放时间)$
SPT	工序加工时间最短优先规则	$a_{t}^{2} = m i n \overset{K}{\sum_{k = 1}} \overset{n}{\sum_{i = 1}} (e_{o_{k, i, j}}^{t} - s_{o_{k, i, j}}^{t} + r_{o_{k, i, j}}^{t})$
EDD	交货期最早加工优先规则	$a_{t}^{2} = m i n {D^{P}}_{k}$
SL	松弛时间最短优先规则	$a_{t}^{2} = m i n ({D^{P}}_{k} - x - \overset{m}{\sum_{j = 1}} B_{k, i}^{T}) (x 为当前时间)$
SRPT	剩余加工时间最长优先规则	$a_{t}^{2} = m a x \overset{m}{\sum_{j = j'}} B_{k, i}^{T} (j' 为当前工序)$