这里记录每周值得分享的生信相关内容,周日发布。
1、Briefings in Bioinformatics | 高歌课题组建立人类RNA转录本编码能力定量
高歌课题组收集了发表于公共数据库22个不同细胞类型的人类Ribo-seq/RNA-seq配对数据,并进行系统挖掘分析,对数据中101,170条转录本的翻译状态进行了严格判定。其中,46%的转录本为编码,43%为非编码。值得注意的是,研究团队发现11%的转录本,在不同细胞中呈现不同的翻译状态,即在部分细胞中编码,而在另一部分细胞中非编码。研究团队将其命名为“环境依赖编码转录本”(context-dependent coding transcripts, CDCTs)。
在此基础上,高歌课题组应用数据驱动的特征选择算法,综合运用序列内生和细胞环境特征,建立了人类RNA转录本编码能力跨细胞定量模型RiboCalc,实现了对人类转录本在多种细胞环境下的编码能力的高精度预测(r = 0.81)。模型分析显示,转录本的序列和所在细胞环境都对编码能力的决定起到了重要作用,提示转录本的编码能力不应被简化为单纯的编码/非编码二分分类,而是一个依赖于环境的连续定量指标。值得注意的是,自14年以来即有若干工作报导一些非编码RNA可以在特定条件下结合核糖体甚至产生肽段(如[1]),RiboCalc分析显示这些RNA转录本与不结合核糖体的RNA相比编码能力分数显著高,为理解相关现象提供了新的线索。
2、Bioinformatics | HPODNets: 预测人类蛋白质-表型关联的深度图卷积网络
破解人类基因/蛋白质与异常表型之间的关系,对疾病的预防、诊断和治疗具有重要意义。人类表型本体 (HPO)是描述人类疾病中遇到的表型异常的标准化词汇表。但是目前的HPO注释是不完整的。因此有必要预测人类蛋白质-表型关联。就目前的蛋白质标注计算方法而言 (如功能注释),有三个重要特征:1)多重网络输入,2)半监督学习,3)深度图卷积网络 (GCN),而目前还没有包含所有这些特征的方法来预测人类蛋白质的HPO注释。
作者开发了具有上述三个特征的预测模型:HPODNets,用于预测人类蛋白质-表型关联。HPODNets采用8层GCN从多个蛋白质相互作用网络中获取高阶拓扑信息。实验结果表明HPODNets的有效性,在蛋白质功能预测方面优于7种最先进的方法。
3、Nature Machine Intelligence | 在实验中恢复转录组范围内RNA结构谱丢失信号的方法
基于测序的 RNA 结构探测可以生成 RNA 二级结构的全转录组谱。需要足够的结构覆盖才能获得关于 RNA 结构和功能的客观见解,但探测方法通常会产生不均匀的覆盖,在许多转录本中缺少结构分数。
为了克服这一障碍,清华大学的研究人员开发了 StructureImpute,这是一种受计算机视觉深度补全启发的深度学习框架,它将 RNA 序列与相邻核苷酸的可用 RNA 结构信息相结合,以推断缺失的结构分数。
2、肿瘤中的突变表位
3、谁是Python/R中最强Dashboard APP开发工具?[5]
1、R包sessioninfo - 更好地打印你的会话信息[6]
2、wifi-password - Get the password of the wifi you're on (bash)[7]
3、croc - Easily and securely send things from one computer to another[8]
命令行安装:
curl https://getcroc.schollz.com | bash
1、UCR基因组研究所手册[9]
2、图书 - Modern Statistics with R:From wrangling and exploring data to inference and predictive modelling[10]