北大深圳研究生院新材料学院潘锋/李舜宁AI4S进展:基于人工智能的物质结构解析算法和模型构建


背景介绍

使用人工智能(AI)技术实现材料结构解析的自动化是物质结构和新材料研究的一种新范式。北京大学深圳研究生院新材料学院潘锋教授团队基于图论数学工具,开发了一套以结构基元及其连接关系与相互作用为要素的材料基因挖掘方法,成功构建了包含60万余种独立晶体结构的材料学数据库(Sci China Chem, 2019, 8, 982; Natl Sci Rev, 2022, 9, nwac028)。根据该数据库可以生成材料的各类模拟图谱,包括X射线衍射(XRD)图案、中子衍射图案、红外/拉曼光谱等等。这些数据为推动材料表征领域的AI辅助科学(AI4S)研究提供了重要基础。

对于无机化合物,X射线衍射(XRD)分析在物质结构解析的过程中起到了重要作用。传统的XRD分析流程中,研究人员在面对未知材料时如果无法从数据库中找到其物相的晶体结构,则需要借用相近的结构模型,通过对该模型进行调整以获得实测物质的晶体结构。该过程中所借用的结构模型对应了未知材料的一种可能的结构类型。对未知材料结构类型的判别一般依赖于专家知识,因而采用机器学习方法实现该过程的自动化仍十分困难。其关键在于无机材料的结构类型种类繁多,导致了训练得到的深度学习分类模型往往难以获得较高精度。

成果掠影

近日,北京大学深圳研究生院新材料学院潘锋/李舜宁团队基于所构建的材料数据库,设计了一个基于残差神经网络的深度学习模型CrySTINet该模型能够从实验表征得到的XRD数据中准确识别出未知材料的结构类型,为自动化XRD分析提供了新的途径。相关研究成果以“Crystal Structure Assignment for Unknown Compounds from X‑ray Diffraction Patterns with Deep Learning”为题,发表于《Journal of the American Chemical Society》(J. Am. Chem. Soc. 2024, DOI: 10.1021/jacs.3c11852)。

该工作中,研究团队设计了一个由多个子模型组合而成的模型框架,每个子模型通过残差神经网络对特定数量的结构类型进行判别,通过联合多个子模型的判别结果可以给出未知材料的最可能结构类型。在该框架下,CrySTINet可以扩展至新的结构类型而无需对已有子模型进行重新训练,从而使模型能够广泛应用到各类无机材料的研究之中。

研究团队选用了100种最常见的结构类型的模拟XRD数据来训练CrySTINet的初始子模型。这一共包含了63963种无机化合物,覆盖了元素周期表中的几乎所有元素。模型在模拟数据集上的准确率达到了80.0%,并且在实验数据集中也拥有同样高的准确率。研究团队进一步使用了梯度加权类激活映射(Grad-CAM)来解释CrySTINet的分类决策。其结果表明,在每个子模型中,神经网络会将注意力集中至特定衍射角区间以提升子模型中相应结构类型的分类准确率,但这会导致子模型在面对某些分布外数据时容易给出过高的置信度值。因此,在只依靠神经网络输出的置信度值作为结构类型判定依据时,CrySTINet的准确度较低,只有65.7%。而在判定依据中引入与相应结构类型平均XRD图谱对比得到的余弦相似度值后,则可以补充XRD数据的全局特征信息,从而避免模型陷入对特征峰的过度依赖而导致的误判。以该置信度值与余弦相似度值组合构造的参数作为判定依据,可使CrySTINet的准确度最终提升至80.0%。

图1 基于AI的XRD结构解析方法。

图2 模型在不同材料结构类型上的准确率。

图3 使用Grad-CAM解释模型的分类决策。

成果启示

本工作提出了一种由多个子模型联合判别材料结构类型的深度学习框架,能够使该XRD解析工具方便地拓展至新的结构类型且同时保持针对已有类型的预测精度。该工具不受材料成分的限制,且可以分析无序的固溶体材料,因而有望在金属材料、钙钛矿材料、锂电池材料等多个领域中进行应用。本研究所提出的框架可以拓展至中子衍射和红外/拉曼等图谱的自动化分析工具的开发中,从而为实现自驱动实验室(self-driving laboratories)提供关键的研究基础。

全文链接:https://pubs.acs.org/doi/10.1021/jacs.3c11852

分享到