作者 | 尹成林 编辑 | 龙文韬
论文题目:
Direct identification of A-to-I editing sites with nanopore native RNA sequencing
今天给大家带来一篇新加坡南洋理工大学有关RNA修饰使用纳米孔测序进行检测的文章。作者使用了牛津纳米孔直接对RNA测序,用于鉴定天然转录组中含肌苷的位点,提出了Dinopore (Detection of inosine with nanopore sequencing)。作者训练了卷积神经网络模型估计每个编辑站点的修改率来区分是否存在RNA编辑位点。作者证明了它们在人类、小鼠和非洲爪蟾的转录组上的良好性能。作者的方法可进一步扩展到研究其他RNA修饰。
一、研究背景
1. 肌苷位点在人类基因组中存在量非常大,且具有重要的生物学意义
2. 在测序reads中,肌苷被鸟苷取代,从RNA-seq数据中获得的变异调用可以归因于RNA编辑位点、单核苷酸多态性(SNPs)或DNA突变。高覆盖率下进行测序代价昂贵,而且可能无法获得足够的reads 作为假定的编辑位点,以排除变异的可能。
3. Illumina测序reads较短,可能导致错误定位,特别是在短外显子或重复区域,并产生错误位点。这种方法是间接的,因为RNA必须转化为DNA,才能在Illumina平台上进行测序。
4. 三代测序长度长且包含有位点信息,可以作为检测的输入。
二、模型与方法
2.1 肌苷的特征提取研究
如图1所示,作者设计了包含肌苷(I)的多种序列,进行体外合成后作为仪器测序的来源进行测序,对比得到肌苷参与时电信号的变化形况得到了以下结论:1.每个event中5-mer的第二个位置对离子电流差异的贡献最大;2.肌苷的信号水平特征表现最多 与A和G不同。具体而言,虽然肌苷的事件均值和标准差介于A和G之间,但其事件长度小于两个c 典型的核苷酸;3.在肌苷出现的时候会有更高的概率出现basecalling的error。
图1 信号级别上对位点信号分布进行分析
2.2 特征选择
作者根据上面对于特征的分析,在最终选择了43种特征,论文中提到:5mer的每个碱基的平均值,标准差,方差,guppy分数,香农熵值等等,最终生成一个5*43的矩阵。如图2,最终版本当中作者使用CNN模型进行三分类,CNN具体构成如图3所示。
图2 模型图
图3 模型的具体构成
2.3 作者具体实验
如图4所示,5mer的准确率稳定在80%左右调整kmer大小,发现9mer和11mer可以涨8个点左右,最终选择9mer速度更快。
图4 有关kmer选择对结果的影响图
如图5所示,作者将加入残差的CNN模型和其他模型进行了比较,其他模型的如果需要一维数据输入则由5mer顺序拼接而成,最终CNN效果更好。
图5 不同模型之间的比较
如图6,对于未知上下文加入训练的数据集上进行训练,发现与测序深度成正相关,最好可以达到0.79到0.82。
图6 测序深度对结果比较图
如图7、8 所示作者将自己的模型和EpiNano进行了比较,当在相同数据集下进行训练时,作者的模型超过了EpiNano。在与训练集不同的数据集上做验证证明了该模型具有可迁移性。
图7 在相同数据集下,比较模型和其他工具的性能
图8 在不同数据集来训练和验证
作者怀疑错误率高可能是因为生物体中存在的A2G的突变也会被误判为腺苷为肌苷,最终发现确实存在这样的问题,因此作者对最终分类增加了一个变异的分类,进行三分类,有效的提升了准确率。
关于RNA编辑率和上下文的对模型性能的影响:作者根据位点率高低对模型训练的性能进行了分析,之前的训练都是10%以上,但是很多都是低的。超过一半的编辑率低于5%的位点被Dinopore遗漏,而超过三分之一的编辑水平在5%到10%之间的位点被遗漏。这可能是由于来自未经编辑的读取的信号压倒了来自任何含肌苷的读取的信号。这体现出集成方法在检测低编辑位点时的可靠性较差。作者对和肌苷相邻的不同碱基是否会对结果产生影响,也得到了一些有趣的结论,具体结果如图9所示,作者认为这也可以解释为什么在UAU序列上出现更多的假阴性等等实验中出现的现象。
图9 上下文对位点检测精度的影响
作者对重复和非重复区域的准确率进行了分析,实验为它们分别是(i)100%重复,(ii)100%非重复或(iii)50%重复和50%非重复。如图10所示,只在重复上训练的模型在重复上表现更好,而只在非重复上训练的模型在非重复上表现更好。这表明,模型已经学习到重复的或非重复的特征,但无论训练数据如何,HCT116中的重复比非重复的结果更差。作者推测,从重复区域转录的RNA可能被更高度的修饰,并包含复杂的化学标记组合,这是每个生物环境所特有的。
图10 重复区域和非重复区域对结果的影响
如图11、12所示,进一步提高进行位点概率预测措施,作者将最后的softmax修改为了线性层,输出位点的概率,并进行位点数量的量化分析,发现可以通过增加特征数量,使用反正弦变换拓展分布,最小覆盖滤波器的影响,三种策略都可以提高模型的精度。
图11 过滤器对最终结果的影响
图12 其他措施对结果的影响
三、总结
Dinopore是一个基于位点的肌苷位点检测工具,作者选择了CNN网络用来处理和分类信号读取,使用纳米孔测序技术从真实的转录组中生成电信号,以检测肌苷和估计编辑水平。总之,Dinopore扩展了RNA编辑微店可用的策略。更重要的是,肌苷只是转录组中已知的150多个已知化学修饰之一,Dinopore还可扩展到其他RNA修饰。
参考文献
https://doi.org/10.1038/s41592-022-01513-3