一
论文题目:
A novel antibacterial peptide recognition algorithm based on BERT
论文摘要:
抗菌肽作为抗生素的最佳替代品,具有重要的研究意义。由于实验方法识别AMPs的高成本和困难,越来越多的研究集中在使用计算方法来解决这个问题。现有的计算方法大多可以通过序列本身识别AMPs,但识别精度仍有提高空间,并且存在构建的模型不能在每个数据集中通用的问题。预训练策略已经应用于自然语言处理的许多任务中,并取得了可喜的成果。在AMP识别和预测领域也有很大的应用前景。文章将预训练策略应用于AMP分类器的模型训练,提出了一种新的识别算法。文章的模型是基于BERT模型构建的,使用UniProt的蛋白质数据进行预训练,然后在六个差异较大的AMP数据集上进行微调和评估。该模型优于现有方法,实现了小样本数据集的准确识别。文章尝试了不同的肽链分词方法,证明了预训练步骤和平衡数据集对识别效果的影响。文章发现,对大量不同的AMP数据进行预训练,然后对新数据进行微调,有利于捕捉新数据的具体特征和AMP序列之间的共同特征。最后,文章构建了一个新的AMP数据集,并在此基础上训练了一个通用的AMP识别模型。
论文链接:
https://academic.oup.com/bib/article/22/6/bbab200/6284370?searchresult=1
二
论文题目:
scGMAI: a Gaussian mixture model for clustering single-cell RNA-Seq data based on deep autoencoder 论文摘要:
单细胞RNA测序(scRNA-Seq)技术的快速发展,为准确、高效地分析单细胞基因表达数据提供了强有力的技术支持。然而,对scRNA-Seq的分析伴随着许多障碍。本文提出了一种基于自编码器网络和快速独立分量分析(FastICA)的单细胞高斯混合聚类方法scGMAI方法。具体来说,scGMAI利用自动编码器网络从scRNA-Seq数据中重构基因表达值,并利用FastICA来降低重构数据的维数。这些计算技术在scGMAI中集成的结果,与包括Seurat在内的现有工具相比,从17个公共scRNA-Seq数据集的聚类细胞中表现更好。综上所述,scGMAI是从scRNA-Seq数据中准确聚类和识别细胞类型的有效工具,显示了其在scRNA-Seq数据分析中的巨大应用潜力。
论文链接:
https://academic.oup.com/bib/article-abstract/22/4/bbaa316/6029147?redirectedFrom=fulltext&login=false
三
论文题目:
FitDock: protein–ligand docking by template fitting 论文摘要:
蛋白质-配体对接是计算机辅助药物设计和结构生物信息学的基本方法。它可以用来识别活性化合物,揭示生物过程的分子机制。成功对接通常需要彻底的构象采样和评分,这在计算上既昂贵又困难。最近的研究表明,利用现有的类似共晶结构进行对接是有益的。在这项工作中,文章开发了一种名为FitDock的蛋白质-配体对接方法,该方法使用分层多特征对齐方法将初始构象与给定模板匹配,随后探索可能的构象,并最终输出精确的对接模式。在文章的综合基准测试中,FitDock显示,如果存在模板结构(>0.5配体相似性),对接成功率提高了40%-60%,比常用的对接方法快了一个数量级。FitDock已经在一个用户友好的程序中实现,可以作为药物设计和分子机制探索的方便工具。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbac087/6548375
四
论文题目:
Reducing healthcare disparities using multiple multiethnic data distributions with fine-tuning of transfer learning 论文摘要:
多种族医疗数据中的医疗保健差异是一个主要挑战;主要原因在于各族群在数据队列中的数据分布不平等。从不同的癌症基因组研究项目中收集的生物医学数据可能主要由一个种族群体组成,例如具有欧洲血统的人。相比之下,其他种族如非洲人、亚洲人、西班牙人和美洲原住民的数据分布可能不如对应的人明显。生物医学领域的数据不平等是一个重要的研究问题,导致了机器学习模型的不同性能,同时造成了医疗保健的差异。先前的研究仅使用有限的数据分布减少了医疗保健的差异。文章利用不同的多种族数据分布对33种癌症类型的预后进行了深度学习和转移学习模型的微调。在以前的研究中,为了减少医疗保健差异,只有一个单一的种族队列被用作一个主要来源领域的目标领域。相比之下,文章使用TCGA和MMRF的CoMMpass研究数据集,将多种族群体作为迁移学习的目标领域。在对新数据分布的实验进行性能比较后,文章提出的模型显示了与新旧数据分布实验的基线方法相比,迁移学习方案的有希望的性能。
论文链接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbac078/6551112 Github链接:
https://github.com/mtoseef99/multiple-multiethnic-disparities-reduction