ML算法 | 注意事项/适用范围 | 应用实例 | SL-回归 | 研究自变量和其他变量之间的关系.一般使用不同模型进行拟合和交叉验证获得最优模型,具有很强的鲁棒性和容错性.需要考虑变量之间的相关性时采用多层回归,常用的NN模型能够无限逼近复杂的非线性模型,并行处理能力强,但是需要大量数据,输出结果的可解释性较弱. | 逻辑回归:预测催化反应产率[73] 多元LR:预测不对称反应中的对映选择性的关键参数[74?-76] 多种回归模型进行比较:预测反应产率[77] NN:正向反应预测[78] NN:从反应底物预测产物[5] NN:预测有机分子亲核性[79] | SL-分类 | 对待测数据进行分类,通常是几种算法之间比较评估得出最优模型用于后续预测分析.RF算法可以保证分类节点特征的最优性但要避免过拟合现象,ET算法可以使节点特征选择具有随机性和最优性.SVM算法可以处理非线性数据,但需要进行线性化操作,将其转化为高维线性数据. | RF、SVM、ANN:预测有机分子的水溶性[80] RF、SVM:预测交叉偶联反应各种潜在抑制配体的反应性能[39] RF:有机化合物的紫外-可见光谱分类[81] RF:设计催化剂[82] RF:预测反应类型[83] ET、RF:不对称区域选择性预测[40] | 贝叶斯理论 | 以贝叶斯公式为核心,模型容易理解,对小规模数据表现良好,过程简单,适合于小规模数据集的多分类问题,需要注意使用该理论时要有独立分布的假设前提. | 贝叶斯优化器:优化反应条件[84] 贝叶斯图卷积网络:预测分子表皮生长因子受体抑制活性[85] 贝叶斯学习:预测金属位点反应性质[86] | RL | 从环境中学习信息,比其他方法更加智能化.奖励函数的设计是整个过程的核心,适合用于反应条件的优化问题,但采样数据的效率不高. | RL:迭代化学反应结果,优化化学反应[87] 分子图+RL:分子设计[88] SMILES字符串+RL:药物设计合成[89] 分子图+RL:药物设计合成[90] |
|