前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >徐峻|人工智能与药物设计学:新范式探索 (6)

徐峻|人工智能与药物设计学:新范式探索 (6)

作者头像
智药邦
发布2022-04-13 18:48:27
3450
发布2022-04-13 18:48:27
举报
文章被收录于专栏:智药邦智药邦

随着信息技术的不断发展,药物设计方法学的新概念、新方法和新思路持续更新,药物发现范式也与时俱进。人工智能作为新工具,已应用于药物发现过程的多个方面,引起了制药行业的高度关注,也带来了对药物发现科学理论和方法学的新思考和新探索。

中山大学药物分子设计研究中心徐峻教授是人工智能与药物设计领域的知名学者。自上世纪 80 年代末,就长期在科研第一线从事分子信息学算法研究和药物发现实验研究,研究领域横跨化学、药学和信息科学。在本文中,徐峻教授对人工智能与药物设计学的发展进行了系统的回顾、梳理和展望,对药物发现新范式进行了深入的分析、解读和探讨。

本期连载总结了现代药物创新涉及的大数据来源、生物医药大数据处理的特殊性,以及将药物创新研究中的大数据与高性能计算结合带来的机遇,同时也分析了当前需要解决的一些问题、终究要面对的问题(生命科学的终极问题)与药物创新的新思维。最后总结了人工智能和药物设计方法学结合可能带来的多方面的突破。

全文概要、目录及前文见

徐峻|人工智能与药物设计学:新范式探索 (1)

徐峻|人工智能与药物设计学:新范式探索 (2)

徐峻|人工智能与药物设计学:新范式探索 (3)

徐峻|人工智能与药物设计学:新范式探索 (4)

徐峻|人工智能与药物设计学:新范式探索 (5)

本篇是第五节的内容。

第五节 本章小结

5.1 大数据时代的生物医药创新

上世纪下半叶,生命科学出现了三大里程碑式的发明,即DNA的体外扩增技术(PCR, 聚合酶链反应)[159,160]、高通量分子制造技术(combinatorial chemistry, CC,组合化学)[161]、和高通量筛选技术(high throughput screening, HTS)[162],对药物创新产生了巨大影响。PCR技术使人类基因组计划提前完成,诞生了许多组学研究,生命科学、医学、化学、材料科学的大数据时代到来了。

在药学领域的大数据有如下三个主要来源:

(1) 高通量科学实验。例如,DNA 测序技术产生的基因组(genome)数据、微芯(microarray)技术产生的转录组(transcriptome)数据、高分辨率质谱技术产生的蛋白组(proteome)和代谢组 (metabolome)数据、细胞生物学技术产生的表型组 (phenome)数据。

高通量筛选技术使人类可以在短期内测试百万种分子的各种性质。获得 2014 年诺贝尔化学奖的超高分辨率显微镜技术[163]使人类超越了光学显微的成像极限,在 0.2 微米以下的尺度追踪单个分子在生物系统中的行为。高内涵筛选技术(high content screening, HCS)[164]使人类能同时观察到细胞在外界分子作用下的各种变化。产生了巨量的基于芯片的测试数据和图像数据。

高通量化学合成技术使新物质制造能力空前提高。“点击化学” (click chemistry) 为代表的合成技术使人类组装小分子的能力极大地提高[165],产生大量的小分子结构和性质的理论和实验数据。关于物质结构的实验数据分辨率越来越高、占有的存储空间越来越大,分析方法越来越复杂,涉及的数据格式越来越多。在制造新物质的过程中,需要大量的、品种繁多的生物和化学试剂。

(2) 高性能计算支持的模拟科学实验。我国在 2011 年(天河 1 号)和 2013 年(天河 2 号)分别分别成为世界最快的计算机[166]。2013 年的诺贝尔化学奖授予三名计算化学家(Martin Karplus, Michael Levitt和Arieh Warshel),表彰他们在发展复杂化学系统的多尺度模型方面的杰出贡献。2013 年 10 月,Science 杂志的封面文章报道 Atul Butte 用计算方法发现了抗代谢疾病、和抗肺癌新药[167]。通过理论计算,可能探索更大的化学多样性空间。2012 年,瑞士的 Reymond 研究团队枚举出含有 1,660 亿个有机小分子的化合物库 GDB-17[168]。这些数据极大地拓宽了药物筛选的化学空间,为发现新的药物化学骨架提供新的机会。

计算机辅助药物设计 (computed-aided drug discovery, CADD) 包括分子动力学 (molecular dynamics, MD) 模拟已经成为当代药物创新的主要工具之一[169]。CADD 与 HPC 的结合使高通量、高命中率的虚拟筛选 (victual screening,VS) 成为可能。MD 模拟实验过程中,平均每纳秒约产生 2GB 以上的数据,如果要模拟微秒时间范围的生物大分子与小分子相互作用的动力学行为,将产生约 2 亿兆字节 (2TB = 2 x 103 GB) 数据,约 1 百万帧生物大分子构象。如果用基于 MD 模拟的药物虚拟筛选[170],数据量更大。

(3) 科技出版物、专利文献和医药卫生服务信息化。截止 2022 年 4 月 3 日,PubMed 收录的与生物医药有关的科技文章超过 3,300 万篇;美国化学文摘社收录 9,000 多万条小分子化合物数据(包括化学结构、预测的或者测定的性质及其谱图数据)、7,510 万化学反应和合成制备方法、超过 6,578 万个生物大分子序列、来自 880 多家制造商的 6,700 多万个化合物产品、来自全球专利文献的 105 万多个 Markush 通式结构。世界知识产权组织(WIPO)的数据库 PatetScope 收录 1,400 多万专利文献和 21 多万公开的 PCT 申请,但是其中的化学结构均不能检索。德温特世界专利索引(Derwent World Patents Index, DWPI)收录 4,250 万专利文献涵盖 47 个专利授权机构,每两周更新一次,1992 年以来授权的化学专利涉及的化学结构式都可以检索[171] 。PubMed 数据库收集超过 1970 年以来的医学专利文献,涵盖 100 多个国家,涉及 13,700 多个专家[172]。医药卫生服务信息化方面: 全球医药卫生服务的持续信息化将产生史无前例的大数据。我国有 13.3 亿(2010 年第六次人口普查数据)人口,随着中国采用与国际标准兼容的医药卫生服务代码体系 (International Statistical Classification of Diseases and Related Health Problems, ICD-9) [173],居民接受医药卫生服务的数据(病历数据)将会成为世界上最大的生物大数据来源。除了涉及个人隐私的数据之外,文字性数据(含有病史、治疗史、家族史、卫生习惯、疗效、不良反应等的数据)和诊断性数据(含有关于器官或体液的测定及影像、基因测序等[174]数据)对药物创新研究极为重要。

5.2 生物医药大数据处理的特殊性

除了具有一般意义上的大数据所涵盖的特征(即量大、类型多、噪声高、增长速度快和处理等待时间短等)[175]以外,用于药物分子设计的大数据因为与生物大分子及小分子结构、性质及其相互作用密切相关,它具有不同于其它领域大数据所具备的特点。

本质上,生物医药大数据涵盖生物大分子和小分子的信息。分子是有结构的,分子结构的数学描述是拓扑图(topological graph)[176],图的节点是原子,边是化学键;原子和化学键有不同的类型,因此分子的数学定义是有颜色的图,简称色图(colored graph)。生物大分子是具有重复单元的分子结构图 (重复单元称为子结构或子图,有时候称为残基),为了便于存储和运算,生物大分子被简化表达成用子图串联而成的序列(sequences),最常见的如蛋白质序列(又称一级结构或一级序列,primary sequences)。含有 n 个原子的分子图可以用 n × n 阶矩阵表示,因为该矩阵中很多单元的值为 0,而且有一半的数据重复,是稀疏矩阵。为了提高存储和运算效率,一般用连接表(connection table, CT)表示[176]。一个分子会因为有不对称中心和不可旋转的化学键而有不同的构型,同一个构型的分子还会因为可旋转的化学键而具有柔性,在三维空间可以采取很多不同的形状,称为构象 (conformations)。药物分子设计的关键点之一就是要确定配体/药物 (ligand/drug) 与靶标 (target) 互相作用时所采取的构象(称为活性构象)。而配体与靶标复合物可能形成成千上万种构象,而活性构象可能是众多构象中的“少数”。一般认为,小分子与大分子结合是所采取的活性构象应该与它在同样温度时所采取的最低能量构象接近。药物分子设计的主要任务之一是要找到这种构象。

在药物分子设计研究中,用化学信息学处理小分子数据 (如,研究结构与活性的关系),用生物信息学处理生物大分子数据 (如,生物大分子的序列比对),用结构生物学和计算化学研究小分子-大分子之间的结合或者相互作用 [177]。生命体系中的大分子与小分子结合形成复合物,它们被水分子或脂肪分子所包围,水溶液中还有其它大分子和离子,因此,体系大而复杂。我们一般用摩尔浓度来表示药物在体液中的含量,浓度为 1 摩尔的药物的意思是在 1 毫升体液中有6.02×1020个药物分子。一般认为 1 纳摩尔浓度是极稀的,它在 1 毫升体液中也有6.02×1011个药物分子(约 600 多亿个分子,而 2022 年地球上的人口才 79.5亿多)。这就是药物设计要面临的大数据问题,这些问题也给高性能计算和人工智能技术带来机遇[178]:

高通量实体实验产生的大数据使我们有可能在系统层面上看到药物分子与许多靶标相互作用的新现象、新规律;超算能力使并行地针对多靶标进行千万级数量小分子的虚拟筛选成为可能[179];

超算能力还使在更长的时间尺度 (0.01~10 微秒) 上模拟药物分子与靶标结合的动力学行为成为可能[180];

通过对上述虚拟和实体实验产生的大数据进行挖掘,将提高对化合物和靶标活性构象预测的准确性、开发针对特定人群的特异性药物。

但是,我们也要解决好如下问题:

数据存储与分享问题 (storage and sharing)。因为数据量大(以 TB 甚至 PB 计),在本地服务器上存储和分享就不现实了,一般用“云服务”来解决这个问题,不过,药物分子的知识产权保护问题是首先需要解决的;

数据获取与标注(capture and curation)问题[181]。传统的生物医药数据获取和标注需要人工操作。面对大数据,人工操作几乎不可能。而自动化的获取与标注技术精准度差,质量控制成为大问题。解决这个问题的第一步就是要建立合理的质量控制标准,令人欣慰的是一些研究组正在努力建立这些标准[182]。对应基因标注、专利标引、活性位点预测、受体-配体结合模式等生物大数据标注问题需要建立标准的流程,许多相关的算法还有待于开发;

数据检索(search)问题。与分子有关的大数据检索引擎分为拓扑检索[183,184] (topological search)、相似度检索[185](similarity search)和语义检索[186](semantic search)三类。对大分子序列的检索需要运用序列比对算法(sequence alignment algorithms)[187]技术。

小分子的拓扑结构检索又分为结构检索、子结构检索和超结构检索 (Markush 结构检索)[188]。结构和子结构检索问题虽然仍然属于 NP-完全性问题[189],但是有许多方法可以降低其计算复杂度。大部分有机分子的节点度数小于 5,加上可以用各种筛法尽可能地减少“原子对原子”(atom-by-atom)的匹配调用,在实际应用中,算法的效率还是很高的。Markush 结构检索问题因为其通式表达的不确定性和递归性,在大数据时代,它的问题可能变得更加难解。结构的相似度检索问题因为要给每一对分子算出相似度值,不能采用筛法加速。这个问题可以通过并行化算法来解决。语义检索主要用于科技文献的全文检索,在药物分子设计领域用来自动化地标引靶标、配体的生物学功能。面向大数据的语义检索算法因为涉及大量统计学计算,必须获得高效能计算的支持。

数据格式异质化(heterogeneous data)问题。大数据带来的分子数据格式异质化问题主要表现在分子的结构图以许多不同格式存在,例如,一个分子可以有许多不同类型的连接表存储在格式文件中[190] (如:SDF,MOE,MOL2,PDB 等)、或嵌入在其它图像文件里(如:JPG,PDF,DOCX,PPTX 等)、或以线性编码[191](如:SMILES[192], InChI Keys[193],CAS 登记号,IUPAC 系统命名法、商品名、俗名等)的形式嵌入在一段文章里。这要求分子结构检索引擎能够自动识别分子结构数据的存在状态,并能够正确地译成分子结构连接表以完成检索任务。

可视化与数据挖掘 (visualization and data mining)问题。很多数据挖掘问题归结为分类(classifications)。药物分子设计方法学的任务是找到一种模式将分子多样性空间划分成有活性的和无活性的两大类,从而降低制造和测试分子实体的成本,提高药物创新的效率。数据的分类往往从数据的可视化开始。大规模的化合物库 (compound library) 数据以连接表或线性编码的形式存储,只有通过数学变换才能够被可视化。一般过程是:将库中的每个分子连接表变换为一组结构描述符(理想的结构描述符组,其成员之间彼此不相关,而每个成员都与要考虑的分子性质高度相关)。如果用 n 个描述符表示一个分子,则库中的每一个化合物被表示成 n-维广义空间中的一个点。采用广义空间降维技术[194],如主成分分析[195] (principal component analysis, PCA),多维标度变换[196] (multidimensional scaling, MDS),或自组织图[197] (self-organization map, SOM)。药物设计领域常采用的高维数据分类方法主要有簇分析[198] (clustering)、机器学习[199]、决策树(decision tree) [200],贝叶斯方法 (Bayesian learning)及它们的组合[201]等。分类的数学本质是将含有 m 个成员的集合分解成n (n < m)个子集合的问题,如果 n 已知,则为有监督的学习,否则为无监督的学习。数据量很大时,组合爆炸问题就会很严重。在分类算法中,还涉及计算两个分子图的相似度[202]或广义距离问题,这更增加了分类问题的计算难度。

生物医药领域数据的上述特点,要求发展跨库的大数据搜索引擎,和能够处理各种异质性数据的算法 (图 5-2-1),最后综合各种数据处理的结果,为解决医疗问题提供决策。掌握了数据资源及其大数据挖掘技术才能引领创新。

图 5-2-1. 生物医药大数据的特殊性。

主要从自然语言处理和图像处理发展起来的当代人工智能 (主要是基于 ANN 原理的深度学习技术) 成为生物医药创新领域必须拿起来的新工具,然而,生物医药创新更需要新的理念和新的范式。

5.3 生命科学的终极问题与药物创新的新思维

药物发现的历史是研究范式随着技术进步不断演进的历史。早期,因为人们对生命科学知之甚少,技术手段贫乏,采用基于表型的研发范式。随着生命科学知识的积累,技术手段的革新,人们能给宏观的表型变化以微观机制的解释,产生了基于靶标的药物发现。这种从宏观到微观的还原论 (reductionism) 方法学引领学术界一百多年,取得了卓越的成就。

随着药物科学和技术的继续发展,我们终究要面对生命科学的终极问题——生命系统的详细运行机制 (图 5-3-1)。

图 5-3-1. 生命科学的还原论机制:宏观走向微观的路径。

卵子是人的最大的细胞,直径才 130 微米(1 微米=0.001米),细胞核只有 10 微米左右,而细胞核内的染色体更小 (~1.4 微米),此后就进入 DNA 的纳米微观世界。人的每一条染色体就是长度约 1.8 米长的 DNA 分子,它们被塞进直径只有约 10 微米的细胞核内,其空间压缩比约为万分之一,细胞是怎么做到的?当细胞分化时,需要随时地读取 DNA 的信息,并且根据这些信息组装细胞内各种大小分子的生产线,刚刚被生产出来的蛋白质和 DNA 又要被及时而正确地折叠好,最后自组装成崭新的细胞,这又是如何做到的?

因为我们对微观世界的探查能力是有限的,虽然冷冻电镜能把分子的热运动降到最低(接近绝对 0 度),使我们逐渐看到蛋白质的三维形状,然而,这已经极大地远离了维持生命的正常条件。希望我们越来越强大的计算能力,能够通过大规模长时程的分子动力学模拟,最终生解析命系统的详细运行机制。

另一方面,我们研究量子世界的时空 (飞秒-纳米尺寸) 发生的事件,最终还是要解决宏观时空 (小时-米尺寸) 中运行着的生命系统出现的问题。这种从微观回到宏观的研究思路就是归纳法 (induction)。以深度学习为标志的人工智能方法为归纳法提供了强大的工具。当我们从微观到宏观的各个层次获得了巨量的数据 (大数据) 之后,依赖于传统的研究方法或数据处理方法已经没有办法解读这些大数据了。因此,此次人工智能技术必然带来生命科学的研究范式的变革。

就药物设计方法学而言,我们预计在下述六个方面会有所突破:

药物设计方法学预计在六个方面会有所突破

(1) 新技术:AI 辅助的药物发现渗透到各个研发阶段、大规模长时程精确的分子模拟和自由能计算;

(2) 新靶标理念:广义的药物靶标不仅指的是传统的蛋白质分子结构,还可以是分子间相互作用、内源小分子、生理生化条件、酶催化的化学反应、细胞或者其它分子机器的运行机制;

(3) 新范式:新一代的、结合 PDD 和 TDD 两者优点的新的药物发现范式即将形成,它融合 AI 方法、涵盖分子片段发现、优化分子组装、分子性质预测;用 AI 方法对大规模表型分析的数据的解读,可以将药物、靶向机制、临床结果和不良反应之间的信息联系起来,实现药物研发范式的转换[203]。

(4) 新平台:化学生物学向药物发现提供崭新的化学诱导细胞重编程平台,可能产生颠覆性的新技术、新理论和新的治疗手段;

(5) 新算法:多格式数据搜索、句法模式识别、文本挖掘、新的人工神经元系统架构;

(6) 新方法:深入理解生命系统的机制,贯通还原论与归纳法。

参考文献

159. Bartlett, J.S. and D. Stirling, A Short History of the Polymerase Chain Reaction, in PCR Protocols, J.S. Bartlett and D. Stirling, Editors. 2003, Humana Press. p. 3-6.

160. Mullis, K.B., F. Ferré, and R.A. Gibbs, The polymerase chain reaction. 1994: Birkhauser Boston Inc.

161. Merrifield, R.B., Solid Phase Peptide Synthesis. I. The Synthesis of a Tetrapeptide. Journal of the American Chemical Society, 1963. 85(14): p. 2149-2154.

162. Pereira, D.A. and J.A. Williams, Origin and evolution of high throughput screening. Br J Pharmacol, 2007. 152(1): p. 53-61.

163. Clery, D., Nobel Prizes. Light loophole wins laurels. Science, 2014. 346(6207): p. 290-1.

164. Giuliano, K.A., J.R. Haskins, and D.L. Taylor, Advances in high content screening for drug discovery. Assay Drug Dev Technol, 2003. 1(4): p. 565-77.

165. Massarotti, A., et al., ZINClick: A Database of 16 Million Novel, Patentable, and Readily Synthesizable 1,4-Disubstituted Triazoles. Journal of Chemical Information and Modeling, 2014. 54(2): p. 396-406.

166. Zhang, X., et al., Optimizing and Scaling HPCG on Tianhe-2: Early Experience, in Algorithms and Architectures for Parallel Processing, X.-h. Sun, et al., Editors. 2014, Springer International Publishing. p. 28-41.

167. Service, R.F., Biology's dry future. Science, 2013. 342(6155): p. 186-9.

168. Ruddigkeit, L., et al., Enumeration of 166 Billion Organic Small Molecules in the Chemical Universe Database GDB-17. Journal of Chemical Information and Modeling, 2012. 52(11): p. 2864-2875.

169. Ieong, P.U., et al., Progress towards Automated Kepler Scientific Workflows for Computer-aided Drug Discovery and Molecular Simulations. Procedia Computer Science, 2014. 29(0): p. 17451755.

170. Ge, H., et al., Molecular dynamics-based virtual screening: accelerating the drug discovery process by high-performance computing. J Chem Inf Model, 2013. 53(10): p. 2757-64.

171. WHITE, M.J., Chemical Patents. Chemical Information for Chemists: A Primer, 2013: p. 53.

172. Magalhães, J., et al., Intellectual Properties Rights: Open Access. 2013.

173. Organization, W.H., International statistical classification of diseases and related health problems tenth revision (ICD-10). 2007. World Health Organization: Geneva, 2014.

174. Genovese, G., et al., Using population admixture to help complete maps of the human genome. Nature genetics, 2013. 45(4): p. 406-414.

175. Feinleib, D., The Big Data Landscape, in Big Data Bootcamp. 2014, Apress. p. 15-34.

176. Xu, J., GMA:  A Generic Match Algorithm for Structural Homomorphism, Isomorphism, and Maximal Common Substructure Match and Its Applications. Journal of Chemical Information and Computer Sciences, 1996. 36(1): p. 25-34.

177. Degtyarenko, K., et al., ChEBI: an open bioinformatics and cheminformatics resource. Current Protocols in Bioinformatics, 2009: p. 14.9. 1-14.9. 20.

178. Marx, V., Biology: The big challenges of big data. Nature, 2013. 498(7453): p. 255-260.

179. Collignon, B., et al., Task‐parallel message passing interface implementation of Autodock4 for docking of very large databases of compounds using high‐performance super‐computers. Journal of computational chemistry, 2011. 32(6): p. 1202-1209.

180. Shaw, D.E., et al., Atomic-Level Characterization of the Structural Dynamics of Proteins. Science, 2010. 330(6002): p. 341-346.

181. Rutherford, K.M., et al., Canto: an online tool for community literature curation. Bioinformatics, 2014. 30(12): p. 1791-2.

182. The MicroArray Quality Control (MAQC)-II study of common practices for the development and validation of microarray-based predictive models. Nat Biotech, 2010. 28(8): p. 827-838.

183. Xu, J., Two-Dimensional Structure and Substructure Searching, in Handbook of Chemoinformatics. 2008, Wiley-VCH Verlag GmbH. p. 868-884.

184. Barnard, J.M., Substructure searching methods: Old and new. Journal of Chemical Information and Computer Sciences, 1993. 33(4): p. 532-538.

185. Zhang, L., et al., Scalable similarity search with topology preserving hashing. IEEE Trans Image Process, 2014. 23(7): p. 3025-39.

186. Bontcheva, K., V. Tablan, and H. Cunningham, Semantic Search over Documents and Ontologies, in Bridging Between Information Retrieval and Databases, N. Ferro, Editor. 2014, Springer Berlin Heidelberg. p. 31-53.

187. Pearson, W., BLAST and FASTA Similarity Searching for Multiple Sequence Alignment, in Multiple Sequence Alignment Methods, D.J. Russell, Editor. 2014, Humana Press. p. 75-101.

188. Markush structure searching by information professionals in the chemical industry - Our views and expectations. World Patent Information, 2013. 35(3): p. 178-182.

189. P, NP, and NP-completeness: the basics of computational complexity. Choice: Current Reviews for Academic Libraries, 2011. 48(6): p. 1123-1123.

190. Smalter Hall, A., et al., An Overview of Computational Life Science Databases & Exchange Formats of Relevance to Chemical Biology Research. Combinatorial chemistry & high throughput screening, 2013. 16(3): p. 189-198.

191. Herndon, W.C. and S.H. Bertz, Linear notations and molecular graph similarity. Journal of Computational Chemistry, 1987. 8(4): p. 367-374.

192. Warr, W.A., Representation of chemical structures. Wiley Interdisciplinary Reviews:

Computational Molecular Science, 2011. 1(4): p. 557-579.

193. Southan, C., InChI in the wild: an assessment of InChIKey searching in Google. J Cheminform, 2013. 5(1): p. 10.

194. Tenenbaum, J.B., V.d. Silva, and J.C. Langford, A Global Geometric Framework for Nonlinear Dimensionality Reduction. Science, 2000. 290(5500): p. 2319-2323.

195. Abdi, H. and L.J. Williams, Principal component analysis. Wiley Interdisciplinary Reviews: Computational Statistics, 2010. 2(4): p. 433-459.

196. Kruskal, J.B., Nonmetric multidimensional scaling: a numerical method. Psychometrika, 1964. 29(2): p. 115-129.

197. Kohonen, T., Self-organization and associative memory: 3rd edition. 1989: Springer-Verlag New York, Inc. 312.

198. Jain, A.K., M.N. Murty, and P.J. Flynn, Data clustering: a review. ACM computing surveys (CSUR), 1999. 31(3): p. 264-323.

199. Warmuth, M.K., et al., Active learning with support vector machines in the drug discovery process. Journal of Chemical Information and Computer Sciences, 2003. 43(2): p. 667-673.

200. Cramer, G., R. Ford, and R. Hall, Estimation of toxic hazard—a decision tree approach. Food and cosmetics toxicology, 1976. 16(3): p. 255-276.

201. Kohavi, R. Scaling Up the Accuracy of Naive-Bayes Classifiers: A Decision-Tree Hybrid. in KDD. 1996.

202. Eckert, H. and J. Bajorath, Molecular similarity analysis in virtual screening: foundations, limitations and novel approaches. Drug discovery today, 2007. 12(5): p. 225-233.

203. Berg, E.L., The future of phenotypic drug discovery. Cell Chemical Biology, 2021. 28(3): p. 424430.

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档