大数据时代如何抓住机遇并应对挑战

Alisa 5年前 (2019-10-06) 4290浏览

2010年，《经济学人》发表了一篇长达14页的关于大数据应用的前瞻性研究，作者是被誉为“大数据时代的预言家”维克托·迈尔·舍恩伯格，他指出：大数据带来的信息风暴正在变革着我们的生活、工作和思维，将开启一次包括思维变革、商业变革和管理变革的时代转型。作为材料科研工作者，如何在大数据时代抓住机遇并应对挑战呢？或许我们可以在新兴的并在迅速发展的材料信息学中找到答案。

梅特卡夫定律（Metcalfe’s law）是一个关于网络价值和网络技术发展的定律，其表述为：V=K*N²，其中，V是网络价值，K为价值系数，N为网络节点/用户数量。借助计算机运算能力的提高，采用高通量技术、组合实验和表征方法等在现代材料研发中的应用，材料数据将呈几何级数的爆发式增长，如图1所示，从大量的数据中发现知识是未来材料研发的主要方法。

图1 梅特卡夫定律下的材料基因工程

1999年，John R Rodgers教授首先提出材料信息学（Materials Informatics）这一概念，认为是计算科学在材料数据的解析、管理和分析上的应用，以加快和促进新材料开发和设计，同时推动材料研究从传统的经验、理论和计算模拟阶段进入由大数据驱动的研发时代^[1]。

图2为利用材料信息学进行知识发现的流程示意图。材料信息学的含义可归纳为材料科学与工程领域的大数据分析，通过计算机技术对海量的材料数据进行数据挖掘和可视化分析，并从中提取、总结出材料的成分、工艺、结构和性能的关系，以实现知识共享，有力促进新材料新工艺的研发设计。

图2 利用材料信息学进行知识发现的流程^[2]

目前，国内外科研机构包括大学、科研院所，以及GE、THE等部分商用企业都处于制造数据的阶段。例如，哈佛大学的清洁能源计划，以太阳能电池的分子材料作为研究重点，建立Molecular Space数据库，借助密度泛函理论收集数据库，通过机器学习来预测模拟物质模型的实际属性；麻省理工学院Materials Project的数据库保存了约10万种材料信息，通过人工筛选、机器学习的方式来探究各种材料规律；哈佛大学和IBM公司联合免费公布了最大的太阳能电池材料数据库，包含230多万个备选材料，为太阳能电池的研究提供数据支持；肯特州立大学Laura M. Bartolo教授等人建立了材料信息学实验室，研究金属材料、生物材料、聚合物材料及其构效关系；美国通用电气公司GE应用高通量实验技术，寻找符合性能要求的高温合计，并提出建立ICME-NET应用于陶瓷基复合材料、合金的开发和转子的材料应用改造^[3-5]。

材料信息学的理论架构如图3所示，大致包括从信息获取、存储和显示、信息传递、信息和知识管理，以及信息应用等涉及的七个部分，分别为用户层、应用层、功能层、网络层、存储层、数据层和设备层。

图3 材料信息学的理论框架^[6]

材料信息学的研究领域分为：数据产生、数据管理和知识发现，其实质是材料集成设计和材料数据库平台的搭建，以及材料领域的大数据分析。

一、数据标准

统一的数据标准是数据库之间实现数据共享的基础。国际标准化组织（ISO）制定了一系列“产品模型数据交互规范”（STEP, Standard for the Exchange of Product Model Data, ISO10303）标准，用以描述整个产品生命周期内的产品信息，旨在实现产品数据的交换和共享。美国国家标准和技术研究院（NIST）基于XML开发的MatML，是专门为材料数据信息管理和交换的可扩展标识语言。

二、材料信息数据库

材料信息包括：分类（大、小类）、结构（晶体结构、化学成分、相图、相结构）、外观（形状、尺寸、光泽、颜色）、性能（物理、力学和使用性能）、加工（制备方法、加工工艺）、使用（使用条件、变形、断裂、失效和破坏形式）、文献（图书、期刊、专利、论文等）、行业（专家、设备、产品、机构）和实验信息（实验模型、测试信息、实验装置、结果）。

按信息内容可划分为材料基础性能数据库和材料信息数据库；其中，材料基础性能数据库主要包括材料的机械性能、晶体结构、热力学动力学数据和物理性能，为材料设计提供基础数据；材料信息数据库则利用先进的信息技术，从文献、互联网等各个渠道中提取和管理材料数据，包括材料的生产工艺数据、性能数据和服役性能等。

Granta开发的CMS和ASM开发的Mat.DB是离散数值型数据库，随着Web技术的发展，美国的MatWeb和日本的MatNavi都是著名的在线材料数据库。

MatWeb拥有超过115000种材料的性能数据，涵盖金属、塑料、陶瓷和化合物，数据主要源自制造商产品检验，其余来源于数据手册或专业协会，还具备ANSYS、Solid Works等CAD / CAM软件的数据输出的功能。MatNavi由日本国立材料科学研究院(NIMS) 组建，拥有9个基础性能数据库( 计算相图、计算电子结构、中子嬗变、扩散数据库等) 、5个结构材料数据库( 蠕变、疲劳、腐蚀等) 、4个工程应用数据库( 金属材料、CCT曲线、材料风险信息平台) 和5个数据应用系统，目前已经有超过149个国家的11万用户注册使用。

目前中国较为系统的在线数据库为国家材料科学数据共享网，该数据库以北京滚球体育大学为中心，汇集了全国30余家科研单位的数据，整合了超过60万条各类材料科学数据。

随着信息技术的发展，新的材料信息数据库将涵盖材料基础性能数据库，并整合工艺数据、文献专利、各国标准、专业图书和行业信息统一管理，利用数据挖掘技术对材料数据库中的大量数据进行分析和预测，快速发现新的知识和规律，是未来数据驱动材料研发的主要研究领域。

三、集成材料设计平台

材料集成设计平台是以MGI为指导，集成材料数据库、高通量材料计算、材料测试与表征，材料数据管理和分析系统为一体的现代材料研发设计平台。

目前在建的材料集成设计平台有美国的Automatic Flow(AFLOW)和中国科学院计算机网络信息中心组建的Mat-cloud。

四、材料数据挖掘技术的内容和应用

（1）材料数据可视化

可视化是将数据和信息通过一定的方法转化为大脑易于分析和理解的视觉形式。基于材料数据的材料结构可视化信息的构建可以助力研究人员从不同视觉维度进行分析和解释材料性能和材料结构之间的关系。

图4 利用数据挖掘方法进行知识发现的流程^[7]

（2）材料数据挖掘

数据挖掘（Knowledge-Discovery in Databases，KDD）是使用特定的算法对大数据集进行搜索，提取数据库中的知识的过程。图4为利用数据挖掘进行知识发现的流程示意图，可以看出，该过程主要包括数据输入、数据预处理（数据汇合、数据清洗、特征选择等）、数据挖掘和后处理（模式过滤、可视化等），最终得到有用的信息（知识）。

传统的数据挖掘技术主要有线性和非线性分析、回归分析、因素分析和聚类分析，随着数据挖掘技术的飞速发展，决策树理论（Decision Trees）、人工神经网络（Artificial Neural Network，ANN）等新的技术不断应用于材料研究中。

决策树是通过概率论的直观运用建立的树形结构，其中每个内部节点代表一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。决策树是分类模型的非参数方法，不需要昂贵的计算，非常容易理解。

人工神经网络（ANN）是模拟生物神经系统，由一组相互连接的节点和有向链组成网络，每个节点代表一种特定的输出函数，即激励函数（Activation Function），每两个节点间的连接代表一个对于通过该连接信号的加权值（权重）。人工神经网络（ANN）的特点是：可用来近似任何目标函数，但需要选择合适的拓扑防止模型的过拟合；可以处理冗余特征，冗余权值非常小；对训练数集的噪声非常敏感；当隐藏节点数量巨大时，ANN 的训练相当耗时，但测试分类非常快。

数据挖掘方法以数据输入并分析预测产生模型输出，可以利用其对材料大数据分析建模发现潜在的组织性能影响规律，特别是在晶体结构方面的研究，因为晶体结构数据是离散非连续的，因此采用数据挖掘方法进行分析和预测会很方便快捷。

（3）数据分析和图像处理

扫描/透射电镜（Scanning/Transmission Electron Microscopy，S/TEM）、扫描探针显微镜（Scanning Probe Microscopy）和micro-Raman、ToF-SIMS（time-of-flight secondary-ion mass spectrometry）等化学成像方法（Chemical Imaging Method）开辟了材料结构和功能的高分辨率成像道路，产生了大量的2D结构、功能和光谱数据，这就为数据存储、输出转化和物理提取等方面带来了更多的挑战和机遇。例如，利用电子显微镜得到的一个分辨率为（2048*2048）的大约1000帧的动态变化视频（或高光谱数据集）对应于18GB的数据集；在（1024*1024）*（1024*1024）像素分辨率下获得的每个样品区域的局部衍射图案对应的4D STEM数据集约为4.4TB。

Zhan等人利用广义线性回归（GLR，generalized linear regression）、高斯过程回归（GPR，Gaussian process regression）和支持向量回归（SVR，support vector regression）三种不同的机器学习算法预测了热传输过程中的热阻值，并与传统的声学不匹配模型（AMM，acoustic mismatch model）和弥散不匹配模型（DMM，diffuse mismatch model）进行了比较，结果如图5所示，从相关系数R可以看出这三种方法具有更高的准确性^[8]。

图5 通过AMM、DMM、GLR、GPR和SVR预测的界面热阻值与实验值之间的相关性

目前，自动编码器、卷积神经网络和生成对抗网络等三种机器学习算法已经广泛用于图像识别和数据生成。

变分自动编码器（Variational Auto Encoder，VAE）是一种人工神经网络，以完全无监督的方式学习相变和顺序参数等数据编码。

生成对抗网络（Generative Adversarial Networks，GAN）是一类机器学习系统，其中两个神经网络相互竞争，一个零和游戏框架。

卷积神经网络（Convolutional Neural Network，CNN）是一类深度神经网络，在图像的模式识别任务中表现优异，可有效的侦测出目标图像中存在的模式，通过对模型中的探测器（filters）进行提取，可以有效揭开模型内部的一些运行机制，若能够将材料表征为合适的数据结构，使用卷积神经网络建立出材料性能预测模型并有针对性的对模型中识别出的模式进行分析，则可有效发现影响材料性能的因素及其规律。

图6为将材料信息学应用于热传输问题的示意图，Yang等人利用线性回归、多项式回归、决策树、随机森林和人工神经网络等机器学习方法通过已知的系统温度、耦合强度和拉伸应变预测出石墨烯和氮化物（h-BN）之间的界面热导率（Interfacial Thermal Conductance，ITC），并与分子动力学模拟进行了比较，最后发现人工神经网络得到了更好的预测结果^[9]。

图6 应用材料信息学方法研究热传输问题的示意图

五、原子分辨成像的未来机遇

近年来，R. Melko、Carrasquila等人在理论领域已经证明了物体提取的可行性，同时，机器学习技术在相变检测等方面取得了巨大的突破。例如，人工神经网络已成功应用于2D Ising、Potts模型、3D Hubbard Fermi模型、晶格规范理论和Chern绝缘体等经典和量子系统中的相位和相变检测；在不明确标记和配置的情况下，使用成像数据作为输入，通过混淆学习进行故意错误标记数据来“学习”相变，这种方法已证明了Kitaev链中的拓扑相变和经典Ising模型中的热相变，同时扩展到使用一对判别合作网络从完全未标记的数据中检测相变，例如超流体等多体相的相变。

我们发现，综合利用数据挖掘和机器学习可以从介观和原子解析的定量测量数据中提取出物理信息，但同时也存在一些问题。例如，STEM实际上限于3D原子序列的2D投影，并且这种限制可能影响机器学习方法的适用性；对于扫描探针显微镜，亚表面层对表面原子行为的影响是不确定的；对于分层材料，虽然通常所有原子单元都是可见的，但有一些数据点也可能丢失，并且来自局部倾斜的信息可能也会丢失^[10]。

对于一些宏观有序参数未知，受强相互作用的缺陷所约束；或存在具有分层排序、竞争基态和相关无序等情况，人们仍必须进一步确定机器学习是否能提供必要的工具来提取相关的物理信息^[11,12]。

最后，还有一些问题也值得我们关注和思考：

数据所有权和共享

如果考虑到数据所有，如何促进数据共享？谁负责数据维护？

元数据管理

元数据本质上是一组描述另一组数据的数据，它描述了一种数字资源，可以准确有效地恢复信息并检验其完整性。那么，什么是适当的元数据架构？元数据最佳的保存和管理方法是什么？

多数据管理

如何有效地处理从多个来源获得的异构数据，例如，数据序列、图形、显微照片、模型等？如何使异构数据能对不同领域的人员有价值？

参考文献

[1] Raccuglia, K. C. Elbert, P. D. F. Adler, et al. Machine-learning-assisted materialsdiscovery using failed experiments [J]. Nature, 2016, 533(7601): 73-76

[2] Agrawal A, Choudhary A. Apl Materials [J], 2016, 4 (5): 1-17

[3] Sparks T D, Gaultois M W, Oliynyk A, et al. Scripta Materialia [J], 2016, 111: 10-15

[4] Wang Zhuo, Cui Yuwen, Materials Informatics and Its Application in Materials Research [J], Materials China, 2017, 36(2):132-140

[5] M. Rickman, H.M. Chan, Materials informatics for the screeningof multi-principal elements and high-entropy alloys [J], Nature Communications, 2019, 10: 2618

[6] Rajan, P. F. Mendez. Materials Informatics[J], Statistical Analysis & Data Mining, 2013, 1(4): 470

[7] Doreswamy，Hemanth K S． International Journal of Database Management Systems［J］，2012，3 ( 1) : 512－522．

[8] Zhan, T.; Fang, L.; Xu, Y. Sci. Rep. 2017, 7 (1), 7109

[9] Wiao Wan, Wentao Feng, et al. Materials Discovery and Properties Prediction in Thermal Transportvia Materials Informatics: A Mini Review [J]. Nano Lett. 2019, 19, 3387−3395

[10] M. Rickman, T. Lookman, S.V. Kalinin, Materials informatics: From the atomic-level to the continuum[J]. Acta Materialia 168 (2019): 473-510

[11] Seeram Ramakrishna, Materials informatics[J], Journal of Intelligent Manufacturing, 2019, 30: 2307-2326

[12] Gentoku Nakada, Yasuhiko Igarashi,Materials-Informatics-Assisted High-Yield Synthesis of 2D Nanomaterials through Exfoliation [J], Theory Simul. 2019, 2, 1800180

本文由胡凡供稿。

欢迎大家到材料人宣传滚球体育成果并对文献进行深入解读，投稿邮箱: tougao@cailiaoren.com.

投稿以及内容合作可加编辑微信：cailiaorenVIP.