一
论文题目:
DeepDISOBind: accurate prediction of RNA-, DNA- and protein-binding intrinsically disordered residues with deep multi-task learning 论文摘要:
具有内在无序区(IDRs)的蛋白质在真核生物中很常见。许多IDR与核酸和蛋白质相互作用。这些相互作用的注释是由计算预测支持的,但到目前为止,只有一个工具预测与核酸的相互作用被发布,最近的评估表明,目前的方法只能达到中等水平的准确性。因此文章开发了DeepDISOBind,这是一种创新的深度多任务架构,可以从蛋白质序列准确预测脱氧核糖核酸(DNA)-、核糖核酸(RNA)-和蛋白质结合IDR。DeepDISOBind依赖于由创新的多任务深度神经网络处理的信息丰富的序列剖面,后续层逐渐专业化,以预测与特定组合类型的交互。公共输入层连接到区分蛋白质和核酸结合的层,后者进一步连接到区分DNA和RNA相互作用的层。经验测试表明,与单任务设计和现有方法的代表性选择相比,这种多任务设计在三种组合类型的预测质量上提供了统计上显著的收益,这些方法涵盖了无序和结构训练工具。对人类蛋白质组学预测的分析表明,DeepDISOBind预测可以被编码到蛋白质水平的倾向中,从而准确预测DNA和RNA结合蛋白和蛋白质中心。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab521/6461158
二
论文题目:
Distant metastasis identification based on optimized graph representation of gene interaction patterns 论文摘要:
转移是癌症发病和死亡的主要原因,大多数癌症死亡是由于癌症转移而不是原发肿瘤引起的。在以往的研究中,基于计算方法的转移预测研究较少。文章提出了一个嵌入图形学习(GL)模块的图卷积网络,名为glmGCN,用于预测癌症的远处转移。使用mRNA和lncRNA的表达来提供比单独使用mRNA更多的遗传信息,并使用它们构建基因相互作用图表示来考虑遗传相互作用的影响。然后在GCN框架下对肿瘤转移进行预测,从构建的不规则图结构中提取信息丰富的高级特征。特别是,GL模块被嵌入到建议的glmGCN中,以学习基因相互作用的最佳图表示。首先构建蛋白质相互作用网络来表示初始基因(节点)关系图。然后,通过GL模块构建了一个新的图形表示,该图形表示最优地学习了基因相互作用强度。最后,采用GCN鉴别远处转移病例。值得一提的是,该方法比以往基于gcn的方法更注重基因-基因关系,因此可以获得更准确的预测性能。glmGCN基于两种类型的癌症进行训练,并使用另外两种癌症类型进一步验证。一系列实验表明了该方法的有效性。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab468/6457167 Github链接:
https://github.com/RanSuLab/Metastasis-glmGCN
三
论文题目:
CSM-carbohydrate: protein-carbohydrate binding affinity prediction and docking scoring function 论文摘要:
蛋白质-碳水化合物的相互作用对许多细胞过程至关重要,但在生物学上具有挑战性。为了提高我们对这些分子相互作用的理解和建模能力,文章使用了一组精心设计的370个蛋白质-碳水化合物复合物与实验结构和生物物理数据,以便训练和验证一个新的工具,即截断扫描矩阵(CSM)-碳水化合物,使用机器学习算法准确预测其绑定亲和力和排名对接姿态作为评分函数。蛋白质和碳水化合物的互补,在形状和化学方面的信息,是利用图形为基础的结构签名。在训练集和独立测试集上,文章方法在交叉验证下获得了可比的皮尔逊相关系数0.72,在独立测试下获得了可比的皮尔逊相关系数0.67,为最终模型的可泛化性和鲁棒性提供了信心。在单糖、二糖和低聚糖中获得了类似的性能,进一步强调了这种方法在研究更大的复合物方面的适用性。文章发现CSM-碳水化合物显著优于以前的方法。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab512/6457169
四
论文题目:
A novel fast multiple nucleotide sequence alignment method based on FM-index 论文摘要:
多序列比对(MSA)是许多生物学应用的基础。但大多数经典的MSA算法难以处理大规模的多序列,特别是长序列。因此,最近的一些调整器采用了一种有效的分治策略,将长序列分解为几个短子序列。选择公共片段(即锚点)进行序列分割是非常关键的,因为它直接影响精度和时间成本。因此文章提出了一种新的算法FMAlign,以提高多核苷酸序列比对的性能。首先使用FM-index以较低的成本提取较长的公共段,而不是使用占用空间的哈希表。在找到较长的最优公共段后,再将序列除以较长的公共段。FMAlign已经在病毒和细菌基因组以及人类线粒体基因组数据集上进行了测试,并与MAFFT、HAlign和FAME等现有MSA方法进行了比较。实验表明,该方法在运行时间上优于现有方法,对长序列集具有较高的准确率。结果表明,该方法在序列长度和序列数方面均适用于大规模的核苷酸序列。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab519/6458932 Github链接:
https://github.com/iliuh/FMAlign