宁德生活圈

网站首页 科技 > 正文

符号系统使科学家更容易传达聚合物

2021-10-12 06:33:26 科技 来源:
导读 紧凑但强大的基于结构的分子结构标识符或表示系统是在研究社区中有效共享和传播结果的关键因素。这些系统也为机器学习和其他数据驱动的研究

紧凑但强大的基于结构的分子结构标识符或表示系统是在研究社区中有效共享和传播结果的关键因素。这些系统也为机器学习和其他数据驱动的研究奠定了重要基础。尽管小分子已经取得了实质性的进展,但聚合物界一直试图提出一种有效的代表体系。

对于小分子来说,基本前提是每个不同的化学物种对应一个定义明确的化学结构。这不适用于聚合物。聚合物本质上是随机分子,通常具有化学结构分布的集合体。这一困难限制了为小分子开发的所有确定性表示的适用性。在麻省理工学院、杜克大学和西北大学的研究人员9月12日发表的一篇论文中,麻省理工学院、杜克大学和西北大学的研究人员报告了一种新的表示系统,该系统可以处理聚合物的随机特性,称为BigSMILES。

“BigSMILES解决了聚合物数字表示的主要挑战,”Connor Coley博士解释道。19、本文合著者。“聚合物几乎总是随机过程产生的各种化学结构的集合体,所以我们不能像小分子一样,用同样的策略来记录它们的结构。”

合著者是科里;麻省理工学院化学工程副教授布拉德利奥尔森;华伦刘易斯,华盛顿大学凯伦斯詹森化学工程教授;西北大学化学助理教授朱莉娅卡洛;麻省理工学院化学副教授杰里迈亚约翰逊;杜克大学化学教授威廉米勒;艾略特伍兹,西北大学研究生;杜克大学研究生王梓;王,麻省理工学院的研究生;海莉k比奇,麻省理工学院研究生;麻省理工学院访问研究员Hidenobu Mochigase林志祥,麻省理工学院的研究生。

可以传达分子结构的线符号有好几种,其中最流行的是简化的分子输入线输入系统(SMILES)。SMILES通常被认为是人类最可读的变体,也是迄今为止支持最广泛的软件。在实践中,SMILES提供了一组简单的表示,可以作为化学数据的标签,也可以作为研究人员之间数据交换的内存压缩标识符。作为一个基于文本的系统,SMILES也适用于许多基于文本的机器学习算法。这些特性使SMILES成为将化学知识转化为机器友好形式的完美工具,并已成功应用于小分子特征预测和计算机辅助综合规划。

然而,聚合物抵制这种和其他结构语言的描述。这是因为大多数结构语言(如SMILES)都是为了描述定义明确的原子图的分子或化学片段而设计的。因为聚合物是随机分子,所以它们没有唯一的SMILES表示。聚合物材料缺乏统一的命名或标识符惯例是减缓聚合物信息学发展的主要障碍之一。尽管聚合物信息学的开创性工作,例如聚合物基因组计划,已经证明了SMILES扩展在聚合物信息学中的有用性,但是新化学的快速发展以及材料信息学和数据驱动研究的快速发展使得普遍应用聚合物的命名惯例变得非常重要。

美国国家科学基金会(NSF)化学系代理副主任何林说:“机器学习为加速化学的发展和发现提供了绝佳的机会。“这种用于标记结构的扩展工具专门用于解决聚合物固有的独特挑战,这大大提高了化学结构数据的可搜索性,使我们更接近数据革命。”

研究人员创造了一种新的基于结构的结构,它可以处理聚合物材料的随机特性,作为对非常成功的SMILES表示的补充。由于这种聚合物是一种高摩尔质量的分子,这种结构被命名为BigSMILES。在BigSMILES中,聚合物片段由括号中的重复单元列表表示。重复单元的化学结构是使用传统的SMILES语法编码的,但是带有附加的键合描述符,该描述符指定不同的重复单元如何连接形成聚合物。这种简单的语法设计可以在大量不同的化学物质上编码大分子,包括均聚物、无规共聚物和嵌段共聚物,以及各种分子连接,从线性聚合物到环状聚合物甚至支链聚合物。像SMILES一样,BigSMILES代表一个紧凑的独立文本字符串。

“使用BigSMILES来标准化聚合物结构的数字表示将鼓励聚合物数据的共享和聚合,提高模型的质量,并随着时间的推移增强其使用的好处,”可再生化学品和材料开放创新材料总监杰森克拉克说。Braskem,与研究无关。“BigSMILES是这一领域的重要贡献,因为它满足了柔性系统以数字形式表示复杂聚合物结构的需求。”

克拉克补充道:“塑料行业在循环经济背景下面临的挑战从原材料来源开始,贯穿于废料管理。为了应对这些挑战,有必要对聚合物基材料进行创新设计。传统上,聚合物基材料经历了漫长的开发周期。人工智能和机器学习的进步有望加速使用金属合金和有机小分子的应用程序的开发周期,并促使塑料行业寻求并行方法。BigSMILES数字表示通过应用数据科学方法促进了结构-性能关系的评估。

估,他说,

“通过三个新的基本操作符和原始SMILES符号的组合,可以构建多种复杂的聚合物结构,”Olsen说,“化学,材料科学和工程的整个领域,包括聚合物科学,生物材料,材料化学等等。生物化学是基于具有随机结构的大分子,这基本上可以被认为是如何写出大分子结构的新语言。“

“我很兴奋的事情之一是数据输入最终可能与用于制造特定聚合物的合成方法直接相关,”Craig说,“因此,有机会实际捕获和处理更多有关分子的信息比通常从标准特征中获得的信息。如果可以做到这一点,它将实现各种发现。“


免责声明: 本文由用户上传,如有侵权请联系删除!


标签: