机器学习在化学合成及表征中的应用
孙婕, 李子昊, 张书宇

Application of Machine Learning in Chemical Synthesis and Characterization
SUN Jie, LI Zihao, ZHANG Shuyu
表1 常见的分子描述符总结(以苯酚乙酯为例)
Tab.1 Common molecular descriptors(ethyl phenol as an example)
描述符名称 表现形式 优势 不足 适用范围
SMILES[13]字符
SMARTS[14]字符
Inchl字符
SMILES: CC(OC1=CC=CC=C1)=O
SMATRS: [C]-[C](-[O]-[C]1: [C]: [C]: [C]: [C]: [C]: 1)=[O]
Inchl: 1S/C8H8O2/c1-7(9)10-8-5-3-2-4-6-8/h2-6H, 1H3
采用线性方法对分子进行表示,简单易操作;不同分子的SMILES不同,具有唯一性;占用内存小,节省存储空间. 丢失分子的三维信息;每个SMILES字符串对分子图的表示方法不唯一,即可从不同方向对分子图进行编码. 不需要分子空间信息;需要大量数据进行训练的模型.
分子指纹 图示① 采用比特量形式表示分子,编解码简单;能够表示分子的局部信息;分子的特征之间相互独立. 分子信息存在冗余,占用存储空间大;计算时间长,每次计算需要进行遍历. 擅长计算分子之间的相似性;描述分子的部分结构信息.
分子图 图示② 分子可视性强;描述符可解释性强;能够描述分子的三维信息. 信息传递更新过程慢,计算过程复杂. 图神经网络模型的输入;需要分子空间信息的场合.
量子化学描述符 过渡态能量[15]、波函数、Fukui函数[16]、分子键序、分子电荷等. 能够精准计算分子的化学和物理性质. 计算时间长;计算过程繁琐. 需精确描述分子性质的场合.