DRUGONE
人工智能模型正借助语言模型和分子扰动策略,尝试解决RNA药物研发领域长期存在的数据稀缺难题。

长期以来,绝大多数上市药物都以蛋白质为靶点。这一局面部分源于早期对蛋白质关键作用的发现。然而,近几十年的研究揭示了RNA转录本在体内具有意想不到的多样性和重要功能。据估算,人类基因组中高达85%的区域编码RNA,而蛋白质仅占极小部分。由此可见,RNA构成了一个巨大的、尚未充分开发的药物靶点宝库,也为开发全新类别的药物提供了独特机会(见图1)。

然而,机遇背后也伴随着挑战。虽然潜在靶点几乎无限,但可靠的结构数据却极度匮乏。这是一个严重的瓶颈,因为小分子与RNA的结合具有高度特异性,依赖于结合位点的几何和化学特征。在大多数RNA靶点上,经典基于对接的虚拟筛选方法作用有限。另一种依赖已知配体化学相似性的配体基础虚拟筛选方法,也受到RNA结构多样性的限制,许多构象甚至从未被观察过。
RNAsmol 的提出
研究人员开发了 RNAsmol,尝试通过结合多种方法推动RNA靶向小分子发现,突破数据稀缺的困境。
RNA独特的折叠特性催生了新一代基于结构的虚拟筛选方法。RNA二级结构往往高度保守,并在许多功能性RNA中发挥关键作用。这类信息比三维结构更容易通过实验或计算预测获得。过去已有一些方法尝试利用二级结构信息,但获取稳定的低分辨率结构数据依然困难,甚至对大多数转录本几乎不可能实现。
RNAsmol的核心思路是先利用丰富的RNA序列数据训练语言模型,从而获取类似于蛋白质语言模型中的“结构信号”。这样,模型能够建立坚实的RNA靶点表示。除了结构稀缺,RNA与小分子的相互作用信息也非常有限。已有数据库中只有极少量RNA-小分子结合结构。一个高效的模型不仅需要正例数据(已知相互作用),也需要负例数据(确认不结合的情况)。为此,RNAsmol采用了一种新颖策略:通过对RNA序列和化学相关的小分子进行扰动与打乱,生成更具挑战性的“伪造数据”,以帮助模型学习更稳健的判别能力。
性能与突破
RNAsmol在性能上取得了显著进展。在交叉验证、未见数据评估以及对照诱饵测试中,模型的准确率均显著优于现有方法。通过有效表征RNA序列并捕捉其与小分子的交互模式,RNAsmol无需依赖稀缺的三维结构数据,即能提供可解释的结合特征。这一成果使RNAsmol成为加速RNA成药研究的有力工具。
挑战与未来方向
尽管RNAsmol展示了前景,但RNA药物研发的道路仍然漫长。研究人员发现,基于不同来源数据训练的模型难以实现跨平台泛化。例如,基于结构数据库训练的模型无法直接应用于体外实验筛选数据,这意味着需要针对不同数据集单独训练模型。另一方面,如何让模型在预测中真正关注特定靶点,而不是仅凭借化学空间的普适性特征取得“好成绩”,也是亟待解决的问题。RNAsmol通过引入分子扰动与负例训练,在一定程度上改善了这一问题。
此外,RNA结合位点在三维空间中的复杂性,仍是序列驱动方法面临的重要瓶颈。未来,更多的数据增强和自监督学习技术,例如几何自监督、基于扩散的结构预测等,有望在这一领域发挥作用。同时,建立更严格和标准化的模型评估体系也至关重要,尤其是针对靶点特异性的预测测试。
值得庆幸的是,随着新的实验数据平台不断涌现,RNA药物研发将迎来更广阔的发展空间。研究人员展望,在人工智能方法与实验数据的共同推动下,RNA有望成为药物发现领域的重要突破口,开启一批全新疗法的大门。
整理 | DrugOne团队
参考资料
Oliver, C., Waldispühl, J. What’s so hard about RNA-targeting drug discovery?. Nat Comput Sci 5, 606–607 (2025).
https://doi.org/10.1038/s43588-025-00853-2
内容为【DrugOne】公众号原创|转载请注明来源