前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【Bioinformatics】四篇好文简读-专题8

【Bioinformatics】四篇好文简读-专题8

作者头像
智能生信
发布2022-01-05 15:59:53
4660
发布2022-01-05 15:59:53
举报
文章被收录于专栏:智能生信智能生信

一论文题目:

Removal of batch effects using distribution-matching residual networks 论文摘要:

实验得出的数据误差来源包括测量和一些物理现象。这个测量误差是由测量仪器和随机测量误差产生的系统组件的组合。一些新的生物技术,如流式细胞术和单细胞RNA-seq(scRNAseq)都被系统错误所困扰,如果数据没有得到适当的校准,可能会严重影响统计分析。我们提出了一种新的深度学习方法来消除批次效应。我们的方法是基于一个残差神经网络,训练以最小化两个重复的多元分布之间的最大平均差异。我们将我们的方法应用于大规模单细胞scRNA-seq数据集,并证明它有效地减弱了批次效应。

论文链接:

https://pubmed.ncbi.nlm.nih.gov/28419223/

二论文题目:

Generation of ENSEMBL-based proteogenomics databases boosts the identification of non-canonical peptides 论文摘要:

pypgatk 包和 pgdb 工作流程是基于 ENSEMBL 资源创建的蛋白质基因组学数据库。这些工具允许通过对假基因、lncRNA 和其他非规范转录物进行three-frame翻译,从新的蛋白质编码转录物生成蛋白质序列。它还包括来自其他经典蛋白质编码 mRNA 的外显子框架外翻译。此外,该工具能够从多个基因组变异来源生成变异蛋白质序列,包括 COSMIC、cBioportal、gnomAD 和从患者样本测序中检测到的突变。pypgatk 和 pgdb 为数据库处理提供了多种功能,包括通过 DecoyPyrat 算法优化目标/诱饵生成。最后,作者通过使用 pypgatk 和 pgdb 工作流程为 65 个细胞系生成细胞类型特定数据库,重新分析了 PRIDE 中的六个公共数据集,揭示了大量非规范或隐秘的肽,占已鉴定肽总数的 5% 以上。

论文链接:

https://doi.org/10.1093/bioinformatics/btab838 Github链接:

https://github.com/bigbio/py-pgatk/

三论文题目:

Hypergraph-based logistic matrix factorization for metabolite–disease interaction prediction 论文摘要:

功能相关代谢物是细胞调节的终末产物,与复杂疾病密切相关。疾病相关代谢物的鉴定对于疾病的诊断、预防和治疗至关重要。然而,大多数现有的计算方法通过计算成对关系来构建网络,这不适合挖掘高阶关系。在这项研究中,作者提出了一种基于超图的逻辑矩阵分解的方法-HGLMF以预测代谢物与疾病之间的潜在相互作用。首先,提取代谢物的分子结构和基因关联以及疾病的层次结构和GO功能注释,以构建代谢物和疾病的各种相似性度量。接下来,根据完成的交互网络计算代谢物(或疾病)的邻域相似度。其次,分别融合多个代谢物和疾病的网络,构建代谢物和疾病的超图结构。最后,提出了基于超图的逻辑矩阵分解来预测潜在的代谢物 - 疾病相互作用。在计算实验中,HGLMF 准确预测了代谢物-疾病相互作用,并且比其他最先进的方法表现更好。

论文链接:

https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btab652/6367768 代码链接:

https://github.com/Mayingjun20179/HGLMF

四论文题目:

BERT-Kcr: Prediction of lysine crotonylation sites by a transfer learning method with pre-trained BERT models 论文摘要:

蛋白质赖氨酸巴豆酰化(Kcr)作为一种重要的翻译后修饰(PTMs)已引起广泛关注,它涉及细胞分化和代谢等重要生理活动。然而,用于Kcr识别的实验方法既昂贵又耗时。而计算方法可以以高效率和低成本预测Kcr位点。在这项研究中,作者提出了一种新的预测因子,用于蛋白质Kcr位点的预测,该预测因子是使用迁移学习方法开发的,具有来自transformers(BERT)模型的预训练双向编码器表示。这些模型最初用于自然语言处理(NLP)任务,如句子分类。在这里,作者将每个氨基酸转换成一个单词,作为预训练的BERT模型的输入信息。提取由BERT编码的特征,然后将其馈送到BiLSTM网络以构建最终模型。与其他机器学习和深度学习分类器构建的模型相比,对于10折交叉验证,BERT-Kcr在AUROC为0.983时取得了最佳性能。对独立测试集的进一步评估表明,BERT-Kcr优于最先进的Deep-Kcr模型,AUROC的改善率约为5%。实验结果表明,直接使用序列信息和先进的预训练自然语言处理模型是识别蛋白质翻译后修饰位点的有效方法。

论文链接:

https://doi.org/10.1093/bioinformatics/btab712

Github链接:

http://zhulab.org.cn/BERT-Kcr_models/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档