一
论文题目:
Subgenomic RNA identification in SARS-CoV-2 genomic sequencing data 论文摘要:
本文开发了periscope,一种用于检测和定量SARS-CoV-2基因组序列数据中的亚基因组RNA(sgRNA)的工具。SARS-CoV-2RNA基因组通过被称为“亚基因组RNA”的RNA中间体来发生对大多数开放阅读框(ORFs)的翻译。sgRNAs是通过不连续转录产生的,这依赖于ORF起始密码子上游的转录调控序列(TRS-B)与定位于5‘UTR中TRS-L之间的同源性。TRS-L的前面有一个先导序列,该先导序列存在于所有sgRNA的5‘端。本文将periscope应用于来自英国谢菲尔德的1155个SARS-CoV-2基因组,并使用正交数据集和体外细胞系统验证了本文的发现。通过使用一个简单的局部对齐检测到包含先导序列的reads,从而能够识别和量化来自典型和非典型sgRNA的reads。除ORF10外,本文能够检测到预期丰度下的所有典型sgrna。检测到许多复发的非典型sgrna。本文表明,使用技术重复的结果是可重复的,并确定了sgRNA分析的最佳reads数。在VeroE6 ACE2+/−细胞系中,periscope在正交测序数据集中检测sgRNA动力学的变化。最后,在基因组RNA中发现的变异在大多数情况下以高保真度传递给sgRNA。该工具可应用于全球所有已测序的covid-19样本,以提供SARS-CoV-2sgRNA的综合分析。
论文链接:
https://genome.cshlp.org/content/early/2021/03/15/gr.268110.120.abstract
代码链接:
https://github.com/sheffieldbioinformatics-core/periscope
二
论文题目:
Accurate and efficient detection of gene fusions from RNA sequencing data
论文摘要:
从RNA测序数据中识别基因融合是癌症研究和精准肿瘤学中的一项常规任务。然而,尽管有许多计算工具,融合检测仍然具有挑战性。现有方法预测精度差,计算量大。我们开发了一种灵敏度高、运行时间短的融合检测算法Arriba。当应用于大量已发表的胰腺癌样本(n = 803)时,Arriba发现了多种驱动融合,其中许多影响可药物蛋白,包括ALK、BRAF、FGFR2、NRG1、NTRK1、NTRK3、RET和ROS1。融合与KRAS野生型肿瘤和涉及刺激MAPK信号通路的蛋白显著相关,表明它们替代了激活KRAS突变。此外,我们在细胞实验中证实了两种新的融合,RRBP1-RAF1和RASGRP1-ATP1A1的转化潜能。这些结果显示了Arriba在基础癌症研究和临床转化中的实用性。
论文链接:
https://genome.cshlp.org/content/31/3/448.abstract
Github链接:
https://github.com/suhrig/arriba
三
论文题目:
Effects of transcriptional noise on estimates of gene and transcript expression in RNA sequencing experiments
论文内容:
RNA测序被广泛用于测量动植物组织和条件中的基因表达。大多数基因表达分析计算方法的研究使用模拟数据来评估这些方法的准确性。这些模拟通常包括从不同表达水平的已知基因中生成的读取。直到现在,模拟还不包括从嘈杂的转录本中读取的信息,这可能包括错误的转录、错误的剪接、 和其他影响活细胞转录的过程。基于此,本文在 RNA测序实验中研究了真实数量的 噪声对领先计算方法组装和量化基因和转录本能力的影响。本文发现噪音的加入导致了这些程序测量表达能力的系统性错误,包括对转录本丰度水平的系统性低估,以及假阳性基因和转录本数量的大幅增加 。本文的结果还表明,alignment-free计算方法有时不能检测相对低水平表达的转录本。
论文地址:
https://genome.cshlp.org/content/31/2/301
四
论文题目:
Predictive modeling of single-cell DNA methylome data enhances integration with transcriptome data
论文内容:
细胞DNA甲基化数据越来越丰富,发现了许多基因表达与启动子甲基化之间存在正相关 ,这挑战了基于大量数据的共同教条。然而,用于分析单细胞甲基组数据的计算工具却远远落后。许多任务,包括细胞类型调用和与转录组数据的整合,都需要以构建一个健壮的基因活性矩阵为先决条件,但这是具有挑战性的任务。多组学数据的出现使得对同一单个细胞的DNA甲基化和基因表达的测量成为可能。尽管这样的数据相当稀少,但它们足以训练监控模型,捕捉 DNA甲基化和基因表达之间的复杂关系,并在单细胞水平上预测基因活动。在这里,本文提出了通过预测表达连锁(MAPLE)来实现甲基组关联,这是一个计算框架,利用基因和细胞依赖的统计特征来学习DNA甲基化和表达之间的关联。MAPLE的应用揭示了几个有趣的生物学观点,揭示了甲基化和基因表达之间的关系,包括甲基化信号在转录起始点周围的非对称重要性,预测基因表达以及在CpG岛和海岸之外的启动子中甲基化信号的预测能力增强。随着单细胞表观基因组数据的快速积累,MAPLE为此类数据与转录组数据的整合提供了一个总体框架。
论文链接:
https://genome.cshlp.org/content/31/1/101
Github链接:
https://github.com/tanlabcode/MAPLE.1.0