作者 | 王汝恒 编辑 | 李仲深
今天给大家介绍南开大学杨建益教授等人在Bioinformatics上发表的文章“Recognition of smallmolecule–RNA binding sites using RNA sequence and structure”。
作者提出了一种可以通过序列与结构信息预测小分子与RNA结合位点的计算方法-RNAsite。并通过独立测试集上的实验证明,无论采用实验法所获得的真实结构信息还是采用程序预测的结构模型信息,RNAsite所取得的实验效果都好于目前最先进的方法。作者还就实验中各个特征的预测效果、两个独立测试集效果的差异与金属离子小分子的结合表现进行了核苷酸分子级别的猜想与说明。文中还讨论了RNA结构的灵活性与配体结合到RNA上引起的构象变化对模型的影响。
一、研究背景
前人为了研究小分子与RNA之间的相互作用做出了大量的工作,例如小分子设计和小分子-RNA结合基序的检测。而这些研究是以了解小分子与RNA结合位点信息为先决条件的,因此获取小分子与RNA结合位点至关重要。由于实验法研究的高昂成本和大多数靶标的小分子与RNA相互作用的结构细节尚不明确等原因,使得通过计算的方法预测小分子与RNA结合位点已成为趋势所向。现有的预测方法可以分为基于结构的预测方法和基于序列的预测方法两类,现有的基于结构的预测方法中会存在只能预测特定种类的小分子与RNA的结合位点的情况或者只有某些指标较好的问题,而基于序列的预测方法较少,且预测效果不好。作者首先提出了一种使用多种较为新颖的结构特征的基于结构信息的预测方法(RNAsit_str),然后为了解决无结构数据的问题,作者又提出了一种基于序列信息的预测方法(RNAsite_seq)。最后作者将上述两种方法结合,形成了一种基于序列和结构信息的预测方法(RNAsite),并取得了较为理想的效果。
二、特征选取
2.1 序列特征的获取
首先通过BLASTN工具在NCBI的非冗余核苷酸序列数据库中进行多序列比对,然后按照与Henikoff–Henikoff scheme中相同的方法给每个序列分配权重。第i条序列的第j个位置的权重计算如下:
fj表示在第j个位置上出现的核苷酸种类数,Nij表示在第i条序列第j个位置上的核苷酸种类,f(Nij)表示核苷酸Nij在多序列比对中第j个位置上出现的总数。
于是,在多序列比对中每条序列的权重wi计算如下:
对于RNA序列中的每个位置,每个核苷酸的加权计数用作进化保守评分。因为RNA中的每个核苷酸都与周围邻居相互联系,因此序列特征的选取采用滑动窗口法来考虑其周围邻居信息。
2.2.1 结构化特征-Laplacian norm
每个核苷酸的拉普拉斯范数被定义为其与邻域内加权中心之间的距离。计算LN分为两步,首先需要计算高斯核函数,计算过程如下:
其中,pi、pj分别表示第i与j个核苷酸的坐标向量,σ表示比例因子,计算LN时σ越大表示越多的核苷酸被考虑进来。给定一个σ,按如下公式计算LN:
LN的数值反映了表面凹凸性这一几何特征。
2.2.2 结构化特征-Topological features
首先将每一个RNA结构都转化为核苷酸互作用网络,对于每一个核苷酸,都存在网络中的两个特征与之对应:closeness(CL)和degree(DG)。CL:该核苷酸与其他核苷酸最近距离均值的倒数。DG:与该核苷酸相连的核苷酸数目。
2.2.3 结构化特征-Solvent accessibility
运用POPS软件包,以计算每个链结构所有核苷酸特异性可及表面(ASAs)。
三、模型与方法
作者提出的RNAsite方法包括两个独立的部分:基于序列的模型RNAsite_seq和基于结构的模型RNAsite_str。当没有结构数据时,只使用RNAsite_seq来预测结合核苷酸;当存在结构数据时,除了使用RNAsite_seq来提供序列信息外,还要使用RNAsite_str方法来提供额外的结构信息以用于预测。
图1. RNAsite模型结构
四、实验部分
1. 采用实验所得结构数据作为输入在两个独立测试集上进行实验,结果如图2所示。从实验结果可以看出基于结构的预测方法RNAsite_str相比于基于序列的预测方法RNAsite_seq在两个数据集上都具有较高的MCC与AUC数值,说明方法中所选取的结构特征具有较好的识别性。其次,结合序列与结构信息的预测方法RNAsite在两个独立测试集上都具有最好的表现。
图2. 以实验所得结构为输入所有方法的MCC与AUC情况
2. 采用程序预测所得结构为输入在两个测试集上进行实验,所得结果如表1所示。可以看出作者提出的三种方法在两个独立测试集上都取得了前三名的表现,其中综合序列与结构信息的预测方法RNAsite预测效果最好。相比于采用实验所得的真实结构,采用程序预测所得的结构信息作为输入会使得所有方法的预测性能都有所下降。
表1. 以程序预测所得结构为输入各种方法在两个独立测试集上的表现
3. 从上述实验中我们还可以看出,相比于测试集TE18,所有方法在测试集RB19上都具有更好的预测性能。为了解释这一问题,作者可视化地检查并对比了两个数据集上的小分子-RNA复合物,发现小分子与核苷酸的结合方式会严重影响结合位点的预测准确率,例如:如果小分子嵌入RNA结构中,此时结合位置的核苷酸就更容易被识别;而当小分子在RNA结构表面与之结合时,结合位置的核苷酸就难以识别出来。数据集TE18中小分子多在表面与RNA结构进行结合,因此较难识别结合位点;而数据集RB19中小分子多嵌入到RNA结构中,因此结合位点较容易识别,此时各方法也具有较好的预测表现。
五、结论
在本文中作者提出了一种用于预测小分子与RNA结合位点的机器学习模型RNAsite,相比于现存方法该模型创新性地结合了序列与结构特征信息,并取得了较大的提升效果。通过对比实验,作者进一步证明了序列特征与结构特征相结合对于位点预测的重要作用。在文中作者也提到了该模型的缺点:不能预测在RNA结构表面的结合位点,不能很好的预测金属离子小分子与RNA结构的结合位点,没有充分运用RNA结构的动态特性等,这对以后的改进与优化提供了方向。
参考文献
https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btaa1092/6069564