机器学习在化学合成及表征中的应用

机器学习在化学合成及表征中的应用

孙婕, 李子昊, 张书宇

Application of Machine Learning in Chemical Synthesis and Characterization

SUN Jie, LI Zihao, ZHANG Shuyu

表2 ML在化学合成及表征领域的应用

Tab.2 Application of ML in chemical synthesis and characterization

ML算法	注意事项/适用范围	应用实例
SL-回归	研究自变量和其他变量之间的关系.一般使用不同模型进行拟合和交叉验证获得最优模型,具有很强的鲁棒性和容错性.需要考虑变量之间的相关性时采用多层回归,常用的NN模型能够无限逼近复杂的非线性模型,并行处理能力强,但是需要大量数据,输出结果的可解释性较弱.	逻辑回归:预测催化反应产率^[73] 多元LR:预测不对称反应中的对映选择性的关键参数^[74?-76] 多种回归模型进行比较:预测反应产率^[77] NN:正向反应预测^[78] NN:从反应底物预测产物^[5] NN:预测有机分子亲核性^[79]
SL-分类	对待测数据进行分类,通常是几种算法之间比较评估得出最优模型用于后续预测分析.RF算法可以保证分类节点特征的最优性但要避免过拟合现象,ET算法可以使节点特征选择具有随机性和最优性.SVM算法可以处理非线性数据,但需要进行线性化操作,将其转化为高维线性数据.	RF、SVM、ANN:预测有机分子的水溶性^[80] RF、SVM:预测交叉偶联反应各种潜在抑制配体的反应性能^[39] RF:有机化合物的紫外-可见光谱分类^[81] RF:设计催化剂^[82] RF:预测反应类型^[83] ET、RF:不对称区域选择性预测^[40]
贝叶斯理论	以贝叶斯公式为核心,模型容易理解,对小规模数据表现良好,过程简单,适合于小规模数据集的多分类问题,需要注意使用该理论时要有独立分布的假设前提.	贝叶斯优化器:优化反应条件^[84] 贝叶斯图卷积网络:预测分子表皮生长因子受体抑制活性^[85] 贝叶斯学习:预测金属位点反应性质^[86]
RL	从环境中学习信息,比其他方法更加智能化.奖励函数的设计是整个过程的核心,适合用于反应条件的优化问题,但采样数据的效率不高.	RL:迭代化学反应结果,优化化学反应^[87] 分子图+RL:分子设计^[88] SMILES字符串+RL:药物设计合成^[89] 分子图+RL:药物设计合成^[90]