首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

PNAS:机器学习揭示人类基因组中新型内源性病毒

近期PNAS报道了京都大学前沿生命与医学研究所-RNA病毒实验的科学家一篇对人类基因组插入片段的研究,他们利用机器学习已知插入片段特征、建立筛选分类器,寻找广泛分布于人类基因组中的“古老病毒基因”。

基因组内源性病毒被认为是引起感染并依附于宿主基因组的古代病毒的残余,保留了古病毒的遗传特征。通过了解古老病毒的遗传学及分类学不仅是认识病毒的起源和进化,还可以获得关于病毒如何感染生物体以及在生物体(包括人类)进化中发挥的作用更深入的探索和理解。

建立机器学习机制并梳理遗留的基因通常依赖于在宿主基因组已知的类似病毒的序列,但京都大学的研究人员使用的分类器能够检测已知的和新的内源性病毒,包括那些与已知病毒没有相似之处的病毒,即那些可能尚未被识别或已经灭绝的病毒,以及传统的同源分析无法检测到的病毒序列,以此阐明病毒的多样性。

机器学习与基因组筛选

研究人员用已知的非逆转录病毒内源性RNA病毒元件(特别是博尔纳病毒和丝状病毒)来训练支持载体机,以区分这些序列模式和人类基因组的序列模式。他们指出,三种或更长的k-mers序列足以区分病毒和人类序列。

研究人员在通过这种分类器在人类参考基因组中检测非逆转录病毒内源性RNA病毒元素的过程中,开展了一些减少假阳性的步骤——例如寻找poly-A域和靶位点复制,或者去除细胞假基因——他们锁定了人类参考基因组中大约100个非逆转录病毒内源性RNA病毒元件样序列。

这组序列中包含了八个已知的博尔纳非逆转录病毒内源性RNA病毒元素中的五个,这表明研究人员的方法可以识别大多数已知的内源性病毒序列;但他们怀疑分类器并没有没有检测到所有的博尔纳病毒,因为它被设计用来捕获典型的非逆转录病毒内源性RNA病毒元件序列,而有三个序列偏离了那些标准。

此外,分类器检测到的两个序列低于典型Blast搜索的检测阈值,这表明研究人员可能没有注意到这些序列。这两个序列被命名为hsEBLN-8和hsEBLN-9,与古博尔纳病毒和最近发现的属于碳病毒属的博尔纳病毒仅有微弱的相似性。

与此同时,研究人员发现了一个可能属于未知病毒的预测病毒插入。这个序列大约有600个核苷酸长,由poly-A尾巴和目标位点重复标记。

值得注意的是,黑猩猩和狨猴也有类似的插入位点,但眼镜猴没有,这表明插入至少发生在4300万年前。

研究人员表示可能还没有发现在人类基因组中其他不遵循这些特定模式(已知的非逆转录病毒内源性RNA病毒元件)的内源性病毒。而通过在其他动物物种的基因组中搜索未知的病毒样序列——例如蝙蝠物种,它被认为是许多致病病毒的载体——不仅会增加我们对过去和现在病毒圈多样性的了解,而且也会为我们未来的大流行做好准备。

文献阅读:Virus-like insertions with sequence signatures similar to those of endogenous nonretroviral RNA viruses in the human genome

~学习不放假~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210129A0C42S00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券