抛弃试错法,让机器学习教你设计新材料


【引语】

干货专栏

材料人现在已经推出了很多优质的专栏文章,所涉及领域也正在慢慢完善。有很多小伙伴已经加入了我们,但是还满足不了我们的需求,期待更多的优秀作者加入,有意向的可直接微信联系 cailiaorenVIP。我在材料人等你哟,期待您的加入!

1前言

材料的革新对技术进步和产业发展具有非常重要的作用,但是传统开发新材料的过程,都采用的试错法,实验步骤繁琐,研发周期长,浪费资源。实验过程中,研究人员往往达不到自己的实验预期,而产生了很多不理想的数据。虽然这些实验过程给我们提供了试错经验,但是失败的实验数据摆放在那里彷佛变得并无用处;此外,目前材料表征技术手段越来越多,对应的图形数据以及维度也越来越复杂,依靠人力的实验分析有时往往无法挖掘出材料性能之间的深层联系;再者,随着计算机的发展,许多诸如第一性原理计算、相场模拟、有限元分析等手段随之出现,用以进行材料的结构以及性能方面的计算,但是往往计算量大,费用大。这些都是限制材料发展与变革的重大因素。

为了解决上述出现的问题,结合目前人工智能的发展潮流,科学家发现,我们可以将所有的实验数据,计算模拟数据,整合起来,无论好坏,便能形成具有一定数量的数据库;在数据库中,根据材料的某些属性可以建立机器学习模型,便可快速对材料的性能进行预测,甚至是设计新材料,解决了周期长、成本高的问题。近年来,这种利用机器学习预测新材料的方法越来越受到研究者的青睐。2018年,在nature正刊上发表了一篇题为“机器学习在分子以及材料科学中的应用”的综述性文章[1]。文章详细介绍了机器学习在指导化学合成、辅助多维材料表征、获取新材料设计方法等方面的重要作用,并表示新一代的计算机科学,会对材料科学产生变革性的作用。

基于此,本文对机器学习进行简单的介绍,并对机器学习在材料领域的应用的研究进展进行详尽的论述,根据前人的观点,总结机器学习在材料设计领域的新的发展趋势,以期待更多的研究者在这个方向加以更多的关注。

2机器学习简介

所谓的机器学习就是赋予计算机人类的获得知识技能的能力,然后利用这些知识和技能解决我们所需要解决的问题的过程。

利用机器学习解决问题的过程为定义问题-数据收集-建立模型-评估-结果分析。如图2-1所示[2]。就是针对于某一特定问题,建立合适的数据库,将计算机和统计学等学科结合在一起,建立数学模型并不断的进行评估修正,最后获得能够准确预测的模型。

图2-1 机器学习的学习过程流程图

为了通俗的理解机器学习这一概念,举个简单的例子:

当我们是小朋友的时候,对性别的概念并不是很清楚,这就属于步骤1:问题定义的过程。这个人是男人还是女人?

随着我们慢慢的长大,接触的人群越来越多,了解的男人女人的特征越来越多,如音色、穿衣、相貌特征、发型、行为举止等。这就是步骤二:数据收集

跟据这些特征,我们的大脑自动建立识别性别的模型。这样当我们遇见一个陌生人时。我们便能马上辨别他的性别。属于步骤三:模型建立

然而,刚刚有性别特征概念的人,往往会在识别性别的时候有错误,例如错误的认为养着长头发的男人是女人,养短头发的女人是男人。对错误的判断进行纠正,我们的大脑便记住这一特征,并将大脑的模型进行重建,这样就能更准确的有性别的区别。这属于步骤四:评估。

最后我们拥有了识别性别的能力,并能准确的判断对方性别。这就是最后的结果分析过程。

当然,机器学习的学习过程并非如此简单。根据机器学习训练集是否有对应的标识可以分为监督学习、无监督学习、半监督学习以及强化学习。机器学习分类及对应部分算法如图2-2所示。需要注意的是,机器学习的范围非常庞大,有些算法很难明确归类到某一类。而对于有些分类来说,同一分类的算法可以针对不同类型的问题(引自https://blog.csdn.net/sinat_27554409/article/details/72823

984),在解决实际问题时要做具体的分析。此外,随着机器学习的不断发展,深度学习的概念也时常出现在我们身边。深度学习是机器学习中神经网络算法的扩展,它是机器学习的第二个阶段--深层学习,深度学习中的多层感知机可以弥补浅层学习的不足。深度学习算法包括循环神经网络(RNN)、卷积神经网络(CNN)等[3]。本文对机器学习和深度学习的算法不做过多介绍,详细内容课参照机器学习相关书籍进行了解。

图2-2 机器学习分类及算法

3 机器学习算法在材料设计中的应用

“使用计算模型和机器学习进行材料预测与设计”这一理念最早是由加州大学伯克利分校的材料科学家Gerbrand Ceder教授提出。Ceder教授指出,可以借鉴遗传科学的方法,就像 DNA 碱基对编码蛋白质等各种生物材料一样,用“材料基因组”编码各种化合物,而实现这一“编码”的工具便是计算机的数据挖掘及机器学习算法等。这一理念受到了广泛的关注。随后,2011年夏天,奥巴马政府宣布了“材料基因组计划”(Materials Genome Initiative,简称MGI),该计划在材料科学中掀起了一场革命。目前,机器学习在材料科学中已经得到了一些进展,如进行材料结构、相变及缺陷的分析[4-6]、辅助材料测试的表征[7-9]等。

3.1 材料结构、相变及缺陷的分析

2017年6月,Isayev[4]等人将AFLOW库和结构-性能描述符联系起来建立数据库,利用机器学习算法对成千上万种无机材料进行预测。首先,构建带有属性标注的材料片段模型(PLMF):将材料的晶体结构分解为相互关联的拓扑片段,表示结构的连通性;为PLMF图中的顶点赋予各个原子独有的物理和化学性能(如原子在元素周期表中的位置、电负性、摩尔体积等),以此将不同的材料区分开。然后,采用梯度提升决策树算法,建立了8个预测模型(图3-1),其中之一为二分类模型,用于预测该材料是金属还是绝缘体;另外7个模型为回归模型,预测绝缘体材料的带隙能(EBG),体积模量(BVRH),剪切模量(GVRH),徳拜温度(θD),定压热容(CP),定容热容(Cv)以及热扩散系数(αv)。经过计算并验证发现,在数据库中的26674种材料中,金属/绝缘体分类的准确度为86%,仅仅有2414种材料被误分类(图3-2)。发现极性无机材料有更大的带隙能(图3-3),所预测的热机械性能与实验和计算的数据基本吻合(图3-4)。

图3-1机器学习流程图

图3-2 数据集分类图图3-3                     

  图3-3 带隙能与电离势关系图

图3-4 模型预测数据与计算数据的对比曲线

2018年Zong[5]等人采用随机森林算法以及回归模型,来研究超导体的临界温度。首先,根据SuperCon数据库中信息,对超过12,000种已知超导体和候选材料的超导转变温度(Tc)进行建模。根据Tc是高于还是低于10K,将材料分为两类,构建非参数随机森林分类模型预测超导体的类别。随机森林模型以及超导材料Tc散点图如图3-5、3-6所示。随后开发了回归模型来预测铜基、铁基和低温转变化合物等各种材料的Tc 值,同样取得了较好结果,利用AFLOW在线存储库中的材料数据,他们进一步提高了这些模型的准确性。最后,将分类和回归模型组合成一个集成管道,应用其搜索了整个无机晶体结构数据库并预测出30多种新的潜在超导体。因此,复杂的ML算法的应用大大加速对候选高温超导体的搜索。

图3-5 随机森林算法流程图

图3-6超导材料的Tc散点图

3.2 辅助材料测试的表征

近年来,由于原位探针的出现,使研究人员研究铁电畴结构在外部刺激下的翻转机制成为可能。然而,实验产生的数据量、种类、准确性和速度成阶梯式增长,使传统的分析方法变得困难。因此,2018年1月,美国加州大学伯克利分校的J. C. Agar[7]等人设计了机器学习工作流程,帮助我们理解和设计铁电材料。首先,利用主成分分析法(PCA)对铁电磁滞回线进行降噪处理,降噪后的磁滞曲线由(图3-7)黑线所示,能够很好的拟合磁滞回线所有结构特征,解决了传统15参数函数拟合精度不够的问题(图3-7)红色。然后,为了定量的分析压电滞回线的凹陷特征,构建图3-8所示的凸结构曲线。利用k-均值聚类算法,根据凹陷中心与红线的距离,对磁滞回线的转变过程进行分类。当我们进行PFM图谱分析时,仅仅能表征a1/a2/a1/a2与c/a/c/a之间的转变,而不能发现a1/a2/a1/a2内的反转,因此将上述降噪处理的数据、凸壳曲线以及k-均值聚类的方法结合在一起进行分析,发现了a1/a2/a1/a2内的结构的转变机制。并利用交叉验证的方法,解释了分类模型的准确性,精确度为92±0.01%(图3-9)。此外,作者利用高斯拟合定量化磁滞转变曲线的幅度,结合机器学习确定了“峰”/“谷”c/a/c/a - a1/a2/a1/a2域边界上的铁弹性增加的特征(图3-10),而这一特征是人为无法发掘的。一旦建立了该特征,该工作流程就可以量化具有统计显着性和纳米级分辨率的效应。

图3-7 单个像素处压电响应的磁滞回线:原始数据(蓝色圆圈),传统拟合曲线(红线)和降噪处理后的曲线(黑线)。

图3-8压电响应磁滞回线的凸壳结构示例(红色)。 标记表示凸多边形上的点。 阴影区域表示用于创建凹度曲线的区域

图3-9分类模型精确度图

图3-10

(a~d)由高斯拟合铁电体计算的凹面积图;(e)分层域结构的横截面的示意图;(f, g)靠近表面显示切换过程的特写镜头;(h)a1 / a2 / a1 / a2频段压电响应磁滞回线;(i)表示材料的能量吸收特性的悬臂共振品质因数图像

在扫描透射电子显微镜(STEM)的数据分析中,由于数据的数量和维度的增大,使得手动非原位分析存在局限性。为了解决这个问题,2019年2月,Maksov等人[9]建立了机器学习模型来自动分析图像。首先,构建深度神经网络模型(图3-11),识别在STEM数据中出现的破坏晶格周期性的缺