发现和注释细胞中的功能性蛋白的相互作用关系,对系统地学习和理解细胞的功能起着重要的作用。近年来,通过实验证实和计算机技术预测都产生了大量的蛋白质互作信息。
研究蛋白之间的相互作用网络,有助于挖掘核心的调控基因,目前已经有很多的蛋白质相互作用的数据库,而string绝对是其中覆盖的物种最多,相互作用信息做大的一个,网址如下
今天给大家介绍来自中科院的胡伦和IBM的胡鹏伟等人在Briefings in Bioinformatics上发表的文章“A survey on computational models for predicting protein-protein interactions”。预测蛋白质之间的相互作用(PPI)对研究生物体内的各种细胞学机制至关重要,计算学方法能够有效改善传统生物学方法预测PPI时耗时耗力,且预测结果不可靠的问题。在本文中,我们描述了PPI预测所需的各种蛋白质相关数据库,介绍了现有的各种计算学模型的优缺点,然后描述了常用的实验方案和模型性能评价指标,并介绍了几种在线预测工具,最后阐明了预测PPI的未来发展方向。
2007.12:Improved human disease candidate gene prioritization using mouse phenotype 2008.2:Disease candidate gene identification and prioritization using protein interaction networks 2009.9:ToppGene Suite for gene list enrichment analysis and candidate gene prioritization 2010.2:ToppCluster: a multiple gene list feature analyzer for comparative enrichment clustering and network-based dissection of biological systems
今天给大家介绍斯坦福大学Jure Leskovec教授团队在Nature Communications上发表的一篇文章“Identification of disease treatment mechanisms through the multiscale interactome”。在这项工作中,作者构建了一个多尺度相互作用网络,该网络整合了疾病扰动蛋白、药物靶标和生物功能。基于该网络,作者开发了一种随机游走方法,捕获药物作用如何在蛋白质相互作用和生物功能的层次结构中传播。实验结果表明,多尺度相互作用网络可以预测药物疾病的治疗,鉴定与治疗有关的蛋白质和生物学功能,并预测可改变治疗功效和不良反应的基因。另外,仅通过蛋白质之间的相互作用不能对治疗机制进行解释,因为许多药物通过影响被疾病破坏的生物功能来治疗疾病,而不是直接作用于疾病蛋白。
2022年5月10日,四川大学计算机学院的章乐等人在Signal Transduction and Targeted Therapy杂志发表文章,整理和分析了人工智能在癌症靶点识别和药物发现中的应用进展。本文重点介绍其中靶点识别相关的内容。
今天给大家介绍华中科技大学人工智能与自动化学院Xueming Liu课题组、哈佛医学院Joseph Loscalzo团队和伦斯勒理工学院Jianxi Gao课题组合作发表在 Nature Communication上的一篇文章“Robustness and lethality in multilayer biological molecular networks”。作者构建了人体多层生物分子网络模型并提出了一个框架来理解基因、蛋白质和代谢物之间的相互作用如何决定一个异质生物网络的鲁棒性。
原因:随着技术平台的不断发展,许多已发布的实验数据集可以被不同统计方法整合,使得可以同时使用各种方法来解决同一研究问题。但是为了从所有这些选择中获得最大的收益,我们需要以公正的方式整合它们的结果,例如不同实验的差异分析结果。优先排序的基因列表是基因组数据分析应用程序中常见的结果表示方法。因此,秩聚合方法可以成为这一类问题的有用且通用的解决方案。
五一劳动节,连续五天,在钉钉群直播互动授课带领大家系统性掌握cytoscape软件的使用方法和技巧,课程已经结束啦。文末有录播回放学习方式,以及配套授课资料!
本文介绍由不列颠哥伦比亚大学的Yongjin P. Park通讯预印在bioRxiv的研究成果:在多细胞生物中,细胞特性和功能是通过与周围其他细胞的相互作用来启动和完善的。在此,作者提出了一种名为SPURCE的可扩展机器学习方法,旨在系统地确定嵌入单细胞RNA序列数据中常见细胞间的通信模式。作者将该方法应用于研究肿瘤微环境,并整合了多个乳腺癌数据集,发现了七个经常观察到的相互作用特征和潜在的基因-基因相互作用网络。实验结果表明,通过不同的相互作用模式而不是已知标记基因的静态表达,可以更好地理解肿瘤异质性的一部分,尤其是同一亚型内的肿瘤异质性。
OmicVerse是用Python进行多组学(包括Bulk和单细胞分析)的基础框架。前面我们在<生信技能树>公众号宣传过一波; Python的转录组学分析框架与生态,因为是需要去github点star后发邮件才能进群交流,所以操作门槛有点高, 所以本次文末开放拉群小助手给大家帮忙入群跟作者团队面对面沟通哈。
今天给大家介绍由美国克利夫兰医学中心的研究人员发表在Nature Genetics上的一篇文章。基因组学和相互作用组学的进展,使人们能够确定疾病突变如何扰乱人类细胞内的蛋白质-蛋白质相互作用(PPI)网络。研究指出,在编码PPI接口的序列中,与疾病相关的种系突变和体细胞错义突变较为丰富。同时在泛癌分析中,oncoPPI与患者生存率和耐药性/敏感性高度相关。这种人类相互作用组网络框架为区分具有PPI干扰突变的等位基因提供了一个有力的工具,可以用于相关的治疗发现。
导语:蛋白质在进化过程中,会发生氨基酸突变,破坏了残基之间的相互作用而导致蛋白质结构不稳定,若此时与突变残基具有相互作用的残基也随之发生突变,且构成新的相互作用,使蛋白质结构保持稳定,称这种变化为蛋白质共进化。本次介绍一篇由美国华盛顿大学霍华德休斯医学院研究团队于2014年5月发表在eLife上的一篇文章,该文章利用共进化信息实现了对蛋白质间残基-残基相互作用的鲁棒且准确的预测。
生物信息学研究中,获取基因列表的GO和KEGG富集分析的需求非常常见。目前有许多生物信息学手段或者数据库可以实现基因富集分析,例如DAVID,但它们有些是收费的,有些不易于使用且很少维护。例如DAVID曾经有六年的时间(2010-2016)没有维护数据库,最近的更新也已经两年半了。而Metascape每月更新其相关的40多个数据库,以确保提供最准确的结果。因此Metascape数据库可以作为富集分析的比较好的手段。
大家好,今天和大家分享的是一月份发表在International Journal of Biological Sciences (IF:4.858)杂志上的一篇文章,“Comprehensive understanding of B7 family in gastric cancer- expression profile, association with clinicopathological parameters and downstream targets”,作者在文章中根据TCGA数据库中的胃癌样本联合GTEx数据库对B7这一共刺激分子家族进行了分析,并辅以免疫组化验证,探索了胃癌中B7家族成员表达水平之间的关系,并显示了B7家族成员的突变和生存分析,以及B7家族与胃癌临床病理参数的关联。
2022年4月20日,印度CSIR国家化学实验室的RAM RUP SARKAR研究团队在Journal of biosciences上发表论文Emerging landscape of molecular interaction networks: Opportunities, challenges and prospects。
前面一期 从网络图探寻基因互作的蛛丝马迹(1) (此链接可入)中我们给大家讲解了网络图的构造,以及在文章当中构建网络图需要用到的两个资源:STRING数据库和Cytoscape软件。
今天我们介绍2022年在圣母大学组织的一个网络生物学未来方向研讨会,本文由研讨会参与者合著,总结了研讨会的讨论,预计其将帮助塑造网络生物学未来计算和算法研究的短期和长期愿景。网络生物学是一个跨学科领域,集计算科学和生物科学于一体,对于深入理解细胞功能和疾病至关重要。该领域存在约20年,仍处于初级发展阶段。由于多种因素导致该领域发生了快速变化和出现了新的计算挑战,包括数据复杂性的增加和不同组织水平上多种数据类型的出现以及数据量的增长。这意味着该领域的研究方向也需要发展。因此,汇聚了网络生物学各个计算和算法方面的活跃研究者,以确定这个领域的紧迫挑战。讨论的主题包括:生物网络的推断和比较、多模态数据整合和异构网络、高阶网络分析、网络上的机器学习以及基于网络的个体化医学。
近日来自Genome Biology的一项研究中提出了一个综合数据库:My Personal Mutanome (MPM),用于加速精准癌症医学方案的开发。MPM提供了基于网络的诊断和药物基因组学方法,用来了解临床环境中复杂的基因型-表型关系和治疗反应,有望促进肿瘤发生的可操作突变的鉴定和人类相互作用组水平的个体化治疗。
2019年12月,洛桑联邦理工学院和瑞士生物信息研究所的研究者在nature methods上提出使用分子表面的化学和几何指纹,来预测蛋白质和其他分子间的相互作用。
DeepDISOBind: accurate prediction of RNA-, DNA- and protein-binding intrinsically disordered residues with deep multi-task learning 论文摘要:
今天给大家介绍北京大学朱怀球教授在Bioinformatics上发表的文章“LncADeep: an ab initio lncRNA identification and functional annotation tool based on deep learning”。识别lncRNAs,推断lncRNAs的功能,以及对IncRNA注释进行全面的构建是十分必要的。本文提出LncADeep是第一个不仅可以识别lncRNAs并且推断lncRNAs功能的工具,在识别lncRNA上,LncADeep集成了序列固有和同源性特征,放入深度置信网络(DBN)对全长和部分的转录本进行判别。结果表明,lncADeep的性能优于最先进的工具,并且可以跨物种IncRNA鉴定。对于功能注释,本文首先利用序列和结构信息,基于深度神经网络(DNNs)的深度学习算法预测了lncRNA的相互作用蛋白质,随后融合了KEGG和Reactome等人路径富集分析并且利用预测的相互作用蛋白进行功能模块检测,从而提供了丰富的途径和功能模块作为功能注释。
机器之心专栏 作者:ByteDance Research团队 分子表示学习在 AI 辅助药物发现研究中起着至关重要的作用。在传统药物研发中,常用的分子对接模型需要进行大量的构型采样与优化,并筛选出较为稳定的结构。这类策略效率较低,难以应用于高通量的蛋白质对接任务。本文介绍的基于分子表面黎曼流形的深度学习表示方法 (Harmonic Molecular Representation, HMR) 实现了更准确、高效的蛋白质对接模型开发。HMR 用二维黎曼流形建模分子表面,结合调合分析技术与神经网络实现流形上几何
本文是AlphaFold的开发者、DeepMind的创始人兼首席执行官Demis Hassabis发表在Nat Methods特刊《2021年度方法:蛋白质结构预测》上的文章。
几种常见的精神病和神经退行性疾病具有共同的流行病学风险; 然而,它们是否具有共同的病理生理学尚不清楚,是科研工作者的研究重点。作者使用25个全基因组关联研究 (GWAS)结果和LD得分回归,发现精神疾病和神经退行性疾病之间存在八种显著的遗传相关性。作者将GWAS结果与人脑转录组 (n = 888) 和蛋白质组 (n = 722) 进行整合,以鉴定顺式和跨蛋白以及与每种疾病中的多效性或因果(致病)作用一致的蛋白质,为简洁起见称为因果蛋白(致病蛋白),并在每个疾病组中都发现了许多独特且共享的因果蛋白。值得注意的是,神经退行性疾病病因蛋白的30% (42个中的13个) 与精神疾病共享。此外,作者发现精神和神经退行性因果蛋白之间的蛋白质-蛋白质相互作用比偶然预期的多2.6倍。发现的结果共同表明,这些精神和神经退行性疾病具有共同的遗传和分子病理生理学,这对早期治疗和治疗发展具有重要影响。
基于多组学联合的研究已经成为诸多CNS及子刊等高分文章的设计思路,“蛋白+代谢”联合作为“打通机制与表型的研究”,能够系统描绘蛋白至代谢的调控过程,挖掘关键蛋白与代谢物上下游调控通路,已应用于疾病机制、标志物发现、药物研发、植物生理等诸多领域。
人体内的蛋白存在都存在相互作用关系的。通过预测蛋白之间的相互作用关系,可以了解一个蛋白的具体功能机制。之前介绍过 [[STRING-蛋白相互作用数据库使用]] 就是一个。同时也介绍过 [[BioGRID-单个蛋白质相互作用的数据库]] 这个基于单基因蛋白相互作用数据库。在我们介绍 BioGRID 的时候,那个是 3.0 的版本。最近 BioGRID | Database of Protein, Chemical, and Genetic Interactions: https://thebiogrid.org/ 。数据库更新到了 4.4 版本。其中一些界面也发生了变化。所以这里就重新介绍一下。
FusionDTA: attention-based feature polymerizer and knowledge distillation for drug-target binding affinity prediction 论文摘要:
德国科学家Roman Schulte-Sasse等人借助一款深度学习软件,对数万个医疗数据集展开分析后,鉴别出了165个可能导致癌症的新基因。这项发表在Nature Machine Intelligence上的最新研究为个性化药物靶向治疗以及生物标志物开发开辟了新前景。
近日,湖南大学DrugAI实验室在Cell子刊《Cell Reports Methods》上发表名为”Graph Embedding and Gaussian Mixture Variational Autoencoder Network for End-to-End Analysis of Single-Cell RNA-Sequencing Data”的研究论文,提出了一种用于scRNA-seq的“dropout”插补和特征提取的深度学习框架autoCell。autoCel是一种变分自动编码网络,它结合了图嵌入和概率深度高斯混合模型来推断高维稀疏scRNA-seq数据的分布。autoCell提供了一个深度学习工具箱,用于对大规模sc/snRNA-seq数据进行端到端分析,包括可视化、聚类、插补和疾病特异性基因网络识别。
摘要 系统生物学的一个关键挑战是阐明决定细胞表型的基本原理或基本定律。了解如何在癌症等疾病中改变这些基本原则对于将基础科学知识转化为临床进展非常重要。虽然正在取得重大进展,但通过系统生物学方法确定了新的药物靶点和治疗方法,我们仍然缺乏基本系统对某些治疗成功和其他治疗失败的理解。我们在此提倡一种新的方法框架,用于系统分析和解释分子基因数据,这是基于统计力学原理。具体而言,我们提出了细胞信号熵(或不确定性)的概念,作为一种新的手段 分析和解释基因数据,更重要的是,作为阐明基础生物学和疾病基础的系统级原则的一种手
今天为大家介绍的是来自Peng Yin研究团队的一篇关于蛋白质表征的论文。蛋白质是生命的基本构建单元,在生物学中扮演着重要的功能角色。作者提出了一个多模态深度学习框架,用于融合约1百万个蛋白质序列、结构和功能注释(MASSA)。通过多任务学习过程和五个特定的预训练目标,提取了细粒度的蛋白质域特征。通过预训练,多模态蛋白质表示在特定的下游任务中取得了最先进的性能,如蛋白质性质(稳定性和荧光性),蛋白质-蛋白质相互作用,以及蛋白质-配体相互作用,同时在二级结构和远源同源性任务中取得了竞争性结果。
多发性硬化症(MS)是是一种中枢神经系统的自身免疫性慢性炎症性脱髓鞘疾病,是成人神经功能障碍的主要原因,复发缓解型多发性硬化症(RRMS)多发生于 MS 患者的早期发病,约占所有 MS 类型的 85%。RRMS 的发病机制仍不完全清楚,但和基因和环境都有关系。
空间转录组学和蛋白质组学提供了互补信息,改变了我们对复杂生物过程的理解。然而,这些模式的实验整合是有限的。为了克服这个问题,近日《Nature Biotechnology 》发表了一种允许在完整组织中大规模同时测量蛋白质标记物和全转录组的新方法:SPOTS,用于高通量同步空间转录组和蛋白质分析。
今天给大家介绍由巴黎文理研究大学计算生物研究中心的Veronique Stoven教授课题组发表在J Cheminform上的一篇文章。作者提出一种具有深度学习功能的化学基因组神经网络(CN),以分子图和蛋白质序列编码器学习的分子和蛋白质表示形式的组合作为输入。实验结果显示,在大型数据集上深度学习CN模型优于最先进的浅层方法,与基于专家的描述符的深层方法相当;而在小型数据集上浅层方法比深层学习方法具有更好的预测性能。作者还使用了数据增强技术,即多视图和迁移学习,以提高化学基因组神经网络的预测性能。
这次给大家介绍中国科学院上海药物所郑明月研究员的论文“TransformerCPI: improving compound–protein interaction prediction by sequence-based deep learning with self-attention mechanism and label reversal experiments”。化合物-蛋白质相互作用(Compound-Protein Interactions ,CPIs)的识别是药物发现和化学基因组学研究中的关键任务,而没有三维结构的蛋白质在潜在的生物学靶标中占很大一部分,这就要求开发仅使用蛋白质序列信息来预测CPI的方法。为了解决这些问题,作者提出了一个名为TransformerCPI的新型变换神经网络,并引入了更为严格的标签反转实验来测试模型是否学习了真实的交互功能。实验表明TransformerCPI性能优异,可以反卷积以突出蛋白质序列和化合物原子的重要相互作用区域,这可能有助于优化配体结构的化学生物学研究。
面向单细胞的技术革命,让我们得以进入新的研究层面,但也对传统的分析方法提出了一系列的挑战。单细胞技术正在弥补分子生物学和组织生物学之间的鸿沟,进入高通量时代以来,这项技术所揭示的不是单一元素的信息,而是在单细胞层面揭示某种系统关系:DNA,RNA,ATAC等。我们知道,在系统中,关键要素除了来自元素本身(基因,转录本等生物小分子)之外,还来自元素之间的关系。虽然作为领域起源的社会网络分析可以追溯到20世纪30年代,图论可以上溯几个世纪,但网络科学的迅速崛起与普及只是近几十年的事情。目前,基因调控网络,生物代谢与信号转导网络,蛋白质互作网络作为基本的生物分子网络(Biological molecular network )已经在生物信息分析中得到广泛的应用。
今天分享的是来自Bo wang、Gary D. Bader和Charles Boone实验室联合发表在《Nature Methods》上的论文《BIONIC:使用卷积的生物网络集成》。虽然很多数据构建的生物网络可用来映射细胞功能,但每种数据类型都有局限性。通过结合和自动加权输入信息来获得更准确和全面的基础生物特征,网络集合有望解决这些限制。作者提出了一种基于深度学习的网络集成算法,其中包含了一个图卷积网络框架。与现有的方法相比,此方法,即BIONIC,学习的特征包含更多的功能信息。BIONIC有无监督和半监督的学习模式,利用了可用的基因功能注释。BIONIC在输入网络的规模和数量上都是可扩展的,可以集成人类基因组多种规模的网络。为了证明BIONIC在识别新生物方面的有效性,作者从酵母的非必需基因谱中预测并通过实验验证了基础基因化学-遗传相互作用。
2022年3月24日,华盛顿大学蛋白设计研究所的David Baker、曹龙兴(同时在西湖大学)和Brian Coventry等人在Nature发表文章,介绍了一种仅根据靶点蛋白的结构信息就可以进行蛋白质从头设计的方法,该方法可以对治疗和诊断中各种蛋白质上的位点进行针对性的设计,具有广泛的用途。
今天给大家介绍的是2020年1月在Chemical Science上发表的论文“Target identification among known drugs by deep learning from heterogeneous networks”。在不了解完整的药物靶标信息的情况下,开发有效的药物是一个巨大的挑战。本研究为药物靶标识别提供了一个功能强大的基于网络的深度学习方法:deepDTnet,以加速药物的重新利用,减少药物开发中的翻译鸿沟。
例如,分子和化合物可以自然地表示为以原子为节点、以键为边的图。蛋白质相互作用(Protein-ProteinInteractions,PPI)记录了两个或多个蛋白质之间的物理联系, 这种联系可以很自然地用图的形式表示。
本文介绍由美国马萨诸塞州波士顿哈佛医学院系统生物学系系统药理学实验室的Mohammed AlQuraishi等人发表于Nature Methods 的研究成果:研究人员报道了可微程序与分子和细胞生物学结合产生的新兴门类:“可微生物学”。本文作者介绍了可微生物学的一些概念并作了两个案例说明,展示了如何将可微生物学应用于整合跨生物实验中产生的多模态数据,解决这一存在已久的问题将促进生物物理和功能基因组学等领域的发展。作者讨论了结合生物和化学知识的ML模型如何克服稀疏的、不完整的、有噪声的实验数据造成的限制。最后,作者总结了它面临的挑战以及它可能扩展的新领域,可微编程仍有很多可发挥的空间,它将继续影响科技的发展。
生物数据规模的扩大和固有的复杂性促使机器学习在生物学中的应用越来越多。所有的机器学习技术都能将模型与数据相匹配;然而,对于生物学研究人员来说如何正确理解和使用机器学习技术,仍然存在很多困惑。去年9月《Nature reviews molecular cell biology》发表了一篇题为“A guide to machine learning for biologists”的综述文章,不仅概述了关键的机器学习技术,还描述了不同技术如何适用于特定类型的生物数据,同时讨论了一些最佳实践和在开始进行涉及机器学习的实验时需要考虑的要点。
编辑 | 萝卜皮 预测药物-靶标相互作用是药物发现的关键。近期,虽然基于深度学习的方法显示出强有力的性能,但是仍然存在两个挑战:如何明确地建模和学习药物和目标之间的局部相互作用以更好地预测和解释,以及如何优化新药物-目标对预测的泛化性能。 英国谢菲尔德大学(The University of Sheffield)和阿斯利康的研究人员合作开发了 DrugBAN,这是一个深度双线性注意网络(BAN)框架,具有域适应性,可以显式学习药物和目标之间的成对局部相互作用,并适应分布外的数据。 DrugBAN 对药物分
今天为大家介绍的是来自Petra Schwille团队的一篇论文。最近,机器学习(ML)的应用为计算蛋白质设计领域带来了惊人的进步,使得针对工业和生物医药应用的蛋白质定向工程设计成为可能。然而,为细胞核心相关的新兴功能设计蛋白质,比如能够在时空上自组织并因此构建细胞空间的能力,仍然极具挑战。虽然在生成方面,条件生成模型和多状态设计正在兴起,但对于新兴功能而言,无论是计算上还是实验上,都缺乏专门为蛋白质设计项目所需的筛选方法。在这里作者展示了如何为机器学习生成的蛋白质变体实现这种筛选,这些蛋白质变体能在细胞内形成时空模式。对于计算筛选,作者采用了一种基于结构的分而治之方法来找到最有希望的候选者,而对于随后的体外筛选,作者使用了由自下而上的合成生物学建立的合成细胞模拟体。
近日,《Nature Reviews Cancer》发表了一篇综述文章,全面回顾了利用大数据推进癌症研究和治疗的技术现状和未来挑战,其中包含超实用的癌症研究数据库、分析平台、研究策略等信息。
在特定条件下,蛋白质和核酸可能普遍具有经历LLPS的能力,其中许多可能永远不会在细胞中遇到。这种方式下的LLPS类似于淀粉样物质的形成,这是蛋白质的一种通用状态。重要的是,只有一小部分蛋白质能够在生理条件下形成淀粉样物质,这些特定的形成淀粉样物质的蛋白质在生理以及病理环境中都非常重要。同样,许多蛋白质在生理条件下可能无法接触到LLPS,只有特定的蛋白质序列似乎有能力在生活细胞中存在的条件下进行相分离。目前,我们识别真正和生物学相关的LLPS的能力仍然有限,这应该使我们在解释在体外进行的相分离研究的结果时要小心。
Pathway and Network Analysis of More Than 2500 Whole Cancer Genomes
领取专属 10元无门槛券
手把手带您无忧上云