生命也是一段文字,有其语法与语义。读懂它们的大模型已经出现。美国初创公司Profluent,使用基于Transformer的神经网络架构来构建ProGen模型,首次实现了AI预测蛋白质的合成。而目前风靡的ChatGPT,也是基于Transformer开发出来的。介绍Progen的论文已于2023年1月底发表在Nature子刊。
研究人员投喂了2.8亿种不同的蛋白质氨基酸序列,它们描述了蛋白特征的信息。ProGen花了数周时间,去学习它们之间如何组合,如何相互作用。很快,ProGen学会了自己造句,生成了一百万个序列。研究人员选择其中100个来测试,发现新生成的蛋白质,与已知的不同,但同样有效。
合成生物是一门读取、书写、修改生命文本的新兴技术。近年来,基因测序、合成与编辑技术的成熟,让合成生物逐步走向商业化,生物工厂替代了传统工厂。不断迭代的人工智能大模型,让人工设计酶与细胞等生物元件成为现实,这将加速标准化、流程化、规模化制造生命的时代的到来。
人工智能大模型,不仅能预测蛋白质,而且正在合成蛋白质,成为生物工厂(Biofoundry)的底层技术。一经验证,就可以复制到更多领域。合成生物的平台型公司所服务的客户,可以横跨农业、能源、化工与制药;下游的产品型公司,正在研发固碳农作物、替代蛋白食物、可持续能源与可循环材料。
数字技术与生物技术正在加快结合。
风险投资押注最多的合成生物初创企业,可以归入生物健康领域。其中,很大一部分流向平台公司,还有部分则是下游应用的生物制药。投向其他下游产品的相对较少,早先是能源,诞生过一批生物燃料公司,现在是化工与材料。近年来,为合成生物提供生产力软件、数据安全、合规追溯的云服务,也成为了新的增长点。
合成生物已经进入大众的视野。2021年,中国科学家首次实现二氧化碳合成淀粉,从头计算和设计了一条自然界中不存在的路径,前前后后用了62个生物酶催化剂。理论上1立方米大小的生物反应器,年产淀粉量相当于5亩玉米。2022年,首例向人体成功移植的猪心脏,经过10处基因编辑。只不过它们离商业化尚有距离。
细胞的化工厂已经开业了。从2005年到2025年,细胞工厂生产的化学品将从2%提升至22%。未来,70%的化工品都可以这么生产出来。那些结构复杂、单价较高的精细化工产品,将大幅受益。应用于食品、制药和化妆品行业的天然产物,将告别漫长的自然采集,进入工业化规模化生产。疫情期间,抗癌药物长春碱短缺,这种天然产物主要来自长春花,每500公斤以上的干叶子才能提取一克有效成分,科学家用重新编程后的酵母细胞合成了它。研究团队筹办了公司,要在酵母细胞工厂中合成出长春碱大家族中其他3000种天然成员。
技术迎来了突破点,人们越来越熟练地读、写、改各种各样的生物基因。低成本的测序带来了越来越丰富的生物数据,成为合成生物学的重要起点;基因编辑工具越来越多,可以更精准快速地编辑底盘细胞;DNA合成能力越来越强,从微生物规模趋近于人源细胞规模。人工智能预测与筛选,缩小了昂贵的试错的范围。
从1980年到现在,人类设计合成DNA序列的能力,每3年翻一番。到2050年,千兆碱基规模的基因组工程变得可行。越接近人源细胞,越依赖大片段DNA的合成组装与高效交付。只有可持续的降价,才能让如今动辄数百万美元的基因疗法或细胞疗法,惠及更多患者。
基因编辑也在不断更新换代。从早期的ZFN酶、TALEN酶,到2020年Crispr基因编辑获得诺贝尔医学奖,当人们还在为Crispr创新贡献巨大的华裔科学家张锋打抱不平时,他与刘如谦联合创立的Beam就上市了,IPO市值超8亿美元,高于他上一家上市公司Editas的6亿多美元。2022年,刘如谦的Prime公司上市,市值16亿美元,迅速打破了这个记录。
基因测序积累了大量元件数据,基因合成与编辑又沉淀了大量过程数据。人工智能可以加速在庞大的数据中发现规律。产品型公司可能受益。人工智能在药物发现中的渗透率越来越高,从五六年前的2%,上升到如今的7%。人工智能已经可以预测出超过2亿个蛋白质结构,几乎覆盖地球上所有已知的蛋白。
酶与细胞是平台公司的核心竞争力,也是卡住下游应用自主可控的关键环节。
酶能够加速生物反应,随着越来越多拥有特定催化功能的天然酶被发现,它们成为了合成生物技术的关键元件。不同的酶相互合作,可以完成不同的工作。还有很多设想中的功能,没有已知的天然酶能够实现。人们投入了大量的精力,去筛选、改造、验证不同的酶的组合。最理想的情况,就是自下而上地由人工智能设计特定功能的酶。
细胞是制造产品的车间。不同的细胞,对应不同的工业应用场景。设计细胞的反应通路与筛选培养基,就是设计车间的生产线与选择原材料。车间之间也要衔接妥当。最理想的制造车间,安全高效,用最便宜的原料,在最普通的配置下,制造出良品率最高,产量最大的产品。底盘细胞就是可以搭载各自功能模块的车间,目前往往来自酵母或大肠杆菌这样的菌株。人工智能可以直接设计最简底盘细胞,也可以从天然细胞中优化赘余功能。
未来还会有什么?比如癌症登月计划?无数家庭在亲人最后的时光里,花了大把的积蓄寻找希望。他们需要生物医药创新,也需要有效、方便和便宜的早期筛查。Glympse Bio与Earli等初创公司,不再试图寻找人体内自然存在的生物标志物,而是重新发明足够特殊的合成生物标志物。它们有些像传感器,可以放大疾病信号;有些则是益生菌,受控定植在胃肠道提示风险;有些会将信号释放到空气里,呼吸就可以检测。
对癌症疫苗的兴趣,在mRNA新冠疫苗问世后爆发,每年学术论文数量远超疫情前。新增的论文主要活跃在新抗原技术平台(Neoantigens Platform),它包含mRNA疫苗,也包含DNA疫苗。量产mRNA新冠疫苗,已经用到了VCE酶。它是细胞工厂的产物,相比传统方式提升了10倍产量。新抗原也可以来自合成生物。BioNTech和Moderna新冠疫苗大获成功,手握重金,是行业的领导者。mRNA癌症疫苗可能在2030年前问世。
全球生物铸造联盟(GBA)思考的更远,希望生产方式创新能重构生产关系。它的成员来自全球顶尖院校,看到新冠疫苗全球供需失衡,认为合成生物技术让疫苗能够分布式制造:通过设计编码节省成本,在靠近护理点的高度自动化的生物工厂中制造;而不是通过集中制造来节省成本,再依赖苛刻的冷链来运输到世界各地。
也许走出疫情之后,整个世界会更深入地思考,未来的生物工厂能为全球创新、经济繁荣与社会福祉带来什么。
领取专属 10元无门槛券
私享最新 技术干货