Nature:大数据下,不对称催化中对映选择性的预测


作者介绍:

Matthew S. Sigman是美国有机化学家,师承E. N. Jacobsen,现为犹他大学教授。

经历:

1992索诺马州立大学(California)B. S.(Michael E. Wright教授),1996 华盛顿州立大学 Ph. D(Bruce E. Eaton教授),1996-1999 哈佛大学 博士研究员 (E. N. Jacobsen教授),1999-2004 犹他大学 助教,2004-2008 犹他大学 副教授,2008-现在犹他大学 教授,2009-2010 犹他大学 Huntsman Cancer Institute 客座教授。

研究概要:

1. Pd催化烯烃不对称官能团化[1]

2. 多维模拟优化对映选择性的催化剂和配体设计(物理有机化学)[2]

3. 电催化与氧化还原液流电池(Redox Flow Batteries)[3]

如果感兴趣,大家可以去看一下,链接已在文后附上。

接下来,我们就介绍今天的重头戏,大数据对于不对称合成的帮助!!!

众所周知,我们生活在一个被大数据包围的时代,貌似很多事情都可以通过大数据来分析和指导,那么,在非对称合成中,大数据是否也能对我们的合成有一定的指导作用呢?

选择性是化学合成的关键。如果合成反应不是选择性的,它便不能提供所需产物的良好产率,并且还需要繁琐的纯化过程。因此,化学家们一直在寻找预测化学反应选择性的方法。可以构建计算模型,但是它们的开发是费力的,并且它们通常特定于特定的反应类型。近期,Reid和Sigman表明,选择性模型可以半自动方式构建,并在一系列反应中进行推广。

催化过程的效果取决于可能的过渡态,其核心的特征在于非共价相互作用决定了它们的几何形状和能量。 这种相互作用通常难以识别和定义,因为它们在能量上很弱并且对每种反应组分(催化剂,底物,试剂,溶剂等)的分子性质都很敏感。然而,很多反应机理中的异常值可能隐藏在较大的数据集中,因为当反应情况发生变化时,我们的模式识别技能不会感知关键的一般性。

在这里,我们开发了一个工作流程,对350多种不同反应组合的所有反应变量进行参数化,从而可以开发全面的统计模型,进而能够预测完全不同结构基序的反应性能。

所以我们提出了几个问题:

(1)是否一个机理可以应用到同一个子系列的反应中?

(2)如何将数据采集和数学描述相结合的数据驱动工作流程用于建立多种多重反应谱的统计模型?

(3)可以观察一个或多个反应条件来预测另一个反应的表现吗?

为了解决这种相关性挑战,我们设想了一种对映选择性催化的策略,包括应用现代数据分析方法和先进的参数集。 在这种方法中,结合了描述集-定量结构-活动关系(QSAR),分子机理(MM)和密度泛函理论(DFT)。通过结合适当的数据组织和趋势分析技术,可以建立反应之间的一般关系。 统计模型预测新反应类型性能的能力被用作机理可转移性的验证。

反应平台的选择

图1. 机理可转移性的流程图

a. 机理可转移性。基于BINOL的磷酸催化亚胺的亲核加成作为工作流程开发的一般反应。
b. 预测工作流程。通过采用将所有反应变量与对映选择性相关联,实现机理转移性策略来简化反应性能预测。可以建立一般相关性以揭示相关过渡态中的任何反应组分与对映选择性之间的相互作用。导致统计模型捕获的对映选择性催化的机理原理可以转移到训练数据集中未包含的真正不同的结构基序。Σ表示所考虑的描述符类别的总和。

对于特定分子子集缺乏结构共性会在识别每个成分的,理解和广泛的参数集方面产生挑战。为了解决这个限制,我们探索了两种方法:

(1)我们收集了来自DFT计算的参数,这些参数令人满意地描述了包含常见结构特征的分子,包括Sterimol参数,键长,角度测量,分子振动和强度,自然键轨道(NBO)电荷,极化率,最高占据分子轨道(HOMO) 最低的未占分子轨道(LUMO)能量。 我们收集了反应配偶体和催化剂的这些参数。

(2)我们使用二维描述符(例如拓扑和连接性,例如分子形状,大小和杂原子数),因为这是评估结构上不同分子(如溶剂)的传统方法。 其他反应变量,例如试剂或催化剂的浓度和分子筛的包含物也包括在分类描述符中。

综合模型开发

然后将线性回归算法应用于整个数据集(367个反应),以确定由工作流程的前一步骤中收集的参数定义的每个反应变量的分子结构与实验确定的对映选择性之间的相关性。

图 2. 综合模型开发

a. 通过每个反应变量的参数化促进包含367个数据条目的综合回归模型。'sol'是溶剂,'NBON'和'NBOC'是亚胺天然键轨道参数,Ls是最小亚胺取代基的立体描述符,'H-X-CNu'是亲核角度测量,Lcat是催化剂2-取代基的长度。正电性百分比对映体过量(%e。)值表示E-亚胺过渡态,负电性百分比对映体过量值表示Z-亚胺过渡态。 该线是拟合的,y = 0.88x + 0.05。 留一法(LOO)交叉验证得分为0.87; 平均k倍(此处为4倍)交叉验证得分为0.87; 适合度R2的优劣为0.88; 预测的R2为0.87。

b. 通过留一反应(LORO)分析测试数据集中的机理可转移性。 不同的反应(由各个出版物确定)被定义为验证集。该线是拟合的,y = 0.84x + 0.12。R2是84; 使用LORO预测的R2(这里省略了七个反应)是0.85。

耦合到模型和验证策略的描述符定义确实证明了模式可以匹配。这与一组确定的关键非共价相互作用在一般反应类型中赋予不对称诱导的假设是一致的。从本质上讲,这个工作流程提供的证据表明,一种反应可用于定量地预测另一种反应的结果。

趋势分析

虽然图2中的综合模型展现了所选参数来描述该系统的一般性的能力,但我们工作流程的最终目标是识别微妙的潜在机制现象。

图 3. 重点关联性的开发

a. 回归E-imine模型包含来自9个文献资料的数据挖掘的204个条目。 'CI'和'PEOE5'是溶剂描述符,'B5PG'和Ll是亚胺空间描述符,LUMO是描述亲核试剂的最低未占分子轨道能量,Lcat是催化剂2-取代基的长度,'iPOas'是 P-O不对称拉伸强度和'AREA'是一个偏远的环境角度。该线是拟合的,y = 0.80x + 0.35。LOO交叉验证得分为76; 平均k倍(此处为4倍)交叉验证得分为0.74; R2是0.80; 预测的R2为0.73。

b. 解读E-imine模型术语。该模型强调了空间和电子因素的重要性。合理的大催化剂和亚胺取代基导致高水平的对映选择性; 如果这两个组分匹配,任何亲核试剂应该是相容的。

c. 回归Z-亚胺模型包含来自八个文献资料的数据挖掘的147个条目。'NBOH'和'NBOPG'是亚胺天然键轨道参数; Ls是最小亚胺取代基的立体描述符; 'B5Nu'是亲核体空间描述符,'B1cat'是Sterimol B1术语。 该线是拟合的,y = 0.83x - 0.24。LOO交叉验证得分为80; 平均k倍(此处为4倍)交叉验证得分为0.79; R2是0.83; 预测的R2为0.80。

d. 解释Z-亚胺模型术语。描述催化剂和亚胺的重叠空间术语强化了两种几何亚胺立体异构体内保持类似相互作用的观点。然而,该模型强调了主要来自亲核试剂的空间贡献对于高对映选择性的重要性。

评估预测能力

作为工作流程的最后一步,我们评估了将统计模型捕获的对映选择性催化的机理转移到训练数据集中未包含的真正不同的结构基序的能力。

图 4. 使用双层预测工作流程进行样本外预测。

综合模型首先确定E或Z过渡状态,然后使用配置特定模型来细化预测。如果反应通过E或Z过渡态进行并且由(R)-CPA催化,则通用胺产物表示预测的立体化学结果。如果使用(S)-CPA,则产物立体化学反转。

a. 样本外预测。在烯酰基亚胺中加入氨基甲酸酯和转移炔基酮亚胺的加氢反应的应用。 DCM,二氯甲烷;,室温(25°C)。

b. 样本外预测和外推。在芳环的2,4,6位具有环己基的TCYP的预测是用于将硫醇加成到苯甲酰亚胺的高选择性催化剂。

总的来说,通过结果从样本外预测平台生成的结果,我们可以得出结论,E和Z聚焦的相关性产生更准确的预测,但综合模型是有价值的,因为它确定应该使用哪个方程。

结论:

该作者介绍了一种工作流程,用于模拟各种催化体系中的对映选择性。该方法的价值在于可以考虑复杂的反应条件并成功评估多种不同的反应。使用涵盖许多反应的单一模型来关联和预测对映选择性的能力表明,一般过渡态特征在整个反应范围内基本相似,允许将观察到的反应条件从一个反应转移到另一个反应。该发现表明在不对称催化中可能的一般现象,由此可以发现当暴露于类似的反应条件时,各种转化以相同的方式进行。通过机制特定相关性的发展,可以揭示这种反应相似性和反应特定机制原理。

推荐理由:

预测反应选择性的计算模型通常仅对特定反应类型和较窄范围的反应组分是准确的。选择性是化学合成的关键。如果合成反应不是选择性的,它不能提供所需产物的良好产率,并且需要繁琐的纯化过程。 因此,化学家们一直在寻找预测化学反应选择性的方法。构建计算模型是可行的,但是它们的开发是费力的,并且它们通常仅限定于特定的反应类型。而Matthew S. Sigman教授课题组报道了一种更加通用的计算模型,这对未来合成反应选择性的预测做出了非常重要的贡献。

参考文献:

1. DeLuca, R. J.; Stokes, B. J.; Sigman, M. S. Pure Appl. Chem. 2014, 86, 395.

2. Sigman, M. S.; Harper, K. C.; Bess, E. N.; Milo, Chem. Res.2016, 49, 1292.

3. Hickey, D. P.; Minteer, S. D.; Sigman, M. S. Am. Chem. Soc. 2015, 137, 16179.

文献链接:https://www.nature.com/articles/s41586-019-1384-z

本文由Lion供稿。

欢迎大家到材料人宣传滚球体育 成果并对文献进行深入解读,投稿邮箱: tougao@cailiaoren.com.

投稿以及内容合作可加编辑微信:cailiaorenVIP.

分享到