Tab.1
Performance comparison of AI agent
智能体 | 失败 次数 | 平均得分 | 平均得分 (排除失败场景) |
不作为 | 91 | 2471.42 | 4534.72 |
仅使用模仿学习训练 | 198 | 38.210 | 3820.63 |
使用引导式训练 | 7 | 4269.63 | 442.49 |
使用预警机制λ=0.850 | 0 | 4253.40 | 4253.40 |
使用预警机制λ=0.875 | 1 | 4347.56 | 4369.41 |
使用预警机制λ=0.900 | 0 | 4396.77 | 4396.77 |
使用预警机制λ=0.925 | 0 | 4493.27 | 4493.27 |
使用预警机制λ=0.950 | 0 | 4492.89 | 4492.89 |
使用预警机制λ=0.975 | 2 | 4446.12 | 4491.03 |