长期以来科学家和工程师们一直对合成肽很感兴趣。肽是一种氨基酸链,负责在细胞内执行许多功能,它既能模拟自然,又能进行新的活动。例如,设计的肽可以是一种功能药物,作用于人体的某些区域而不会降解,这对许多肽来说是一项艰巨的任务。但是发现和合成多肽的方法既昂贵又费时,常常需要数月或数年的猜测和失败。美国西北大学(Northwestern University)的研究人员与康奈尔大学(Cornell University)和加州大学圣地亚哥分校(University of California, San Diego)的合作者合作,开发出一种寻找最优肽序列的新方法:使用机器学习算法作为合作者。
博科园-科学科普:该算法分析实验数据,并对下一个最佳序列提出建议,创建一个来回选择过程,大大减少了寻找最佳肽段所需的时间。该研究结果于12月7日发表在《自然通讯》(Nature Communications)上,有望为材料科学和化学领域的实验提供一个新的框架。西北大学教授内森·吉安内斯基(Nathan Gianneschi)是这篇论文的通讯作者表示:我们认为这是我们如何设计分子和材料的下一波潮流,可以结合直觉和算法的力量,用更少的实验找到解决方案。Gianneschi是西北大学温伯格艺术与科学学院化学系的Jacob和Rosaline Cohn教授,也是西北工程学院材料科学与工程系和生物医学工程系的教授。
基于最优学习(POOL)方法的肽迭代优化研究综述。图片:Nature Communications
为了创造这种方法,同时也是西北大学国际纳米技术研究所副所长的Gianneschi与康奈尔大学从事操作研究和机器学习的副教授Peter Frazier以及加州大学圣地亚哥分校的化学生物学家和酶学专家Michael Burkart合作,找到了一种更好的方法来制造能够产生生物材料的肽——特别是能够以某种方式修饰蛋白质的纳米结构和微观结构。第一步是找到合适的多肽作为这些结构的酶底物。肽是由氨基酸链构成的,最长可达20个氨基酸,每种氨基酸有20种不同的可能。由于肽的序列决定了肽的功能,要想找到最优的序列,往往需要进行昂贵的实验,而这些实验往往是靠猜测来完成。
实验人员吉安内斯基(Gianneschi)和伯克特(Burkart)与弗雷泽合作了几年,开发了一个将实验数据与机器学习算法结合起来的系统,以找到创造新材料的最佳策略。Frazier设计了这个算法,然后两人一起训练它,实验人员开发了一个包含100个多肽的数组,进行实验来找出哪些多肽能够正常工作,然后将这些信息输入到算法中。然后该算法推荐了下一轮肽开发需要修改的内容,还推荐了它认为可能失败的策略。吉安内斯基说:现在我们开始有选择性了,通过多次完成这一过程,他们能够找到最优的肽。没有去猜测和观察数以百万计的肽,而是观察了数以百计的肽,然后非常迅速地汇聚到以全新方式表现的序列上。与随机突变或猜测相比,该算法在统计上要成功得多。
虽然这项工作集中在底物上,但是这个过程可以被用于发现任何目的的多肽,比如药物传递,甚至可能被用于发现DNA序列。因为任何一种最优序列都可以被发现,研究人员也不局限于在遗传密码中发现的氨基酸序列。下一步将使整个过程自动化,Gianneschi还对使用这种方法寻找聚合物的最佳表面感兴趣,特别是用于医用植入物的聚合物。找到合适的表面与组织或肌肉结合可以帮助防止疤痕组织或植入排斥。可以从本质上发现具有特定功能的序列,这正是肽和核酸在自然界中所起作用的核心,这将彻底改变我们制造肽的方式。
博科园-科学科普|研究/来自:西北大学
参考期刊文献:《Nature Communications》
DOI: 10.1038/s41467-018-07717-6
博科园-传递宇宙科学之美
领取专属 10元无门槛券
私享最新 技术干货