首页
学习
活动
专区
圈层
工具
发布

一文极速读懂UniProt数据库

Uniprot (Universal Protein )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics Institute),...目前,UniProt由主要由以下子库构成: 数据库名 全名 用途 UniProtKB/Swiss-Prot Protein knowledgebas (review) 高质量的、手工注释的、非冗余的数据库...,也就是上面说的验证后的蛋白数据库 Q01860:UniProt ID号 PO5F1_HUMAN:是UniProt 的登录名 POU domain, class 5, transcription...之前提到的PIR组织制作了蛋白质序列数据库(PIR-PSD)。 UniParc UniProt Archive(UniParc)包含来自主要公共可用蛋白质序列数据库的所有蛋白质序列的非冗余数据集。...UniRef UniProt Reference Clusters(UniRef):聚类序列可显著减小数据库大小,从而加快序列搜索的速度。

3.4K32

一文读懂 UniProt 数据库(2023 最新版)

一、UniProt 数据库介绍 Uniprot (Universal Protein )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics...二、UniProt 数据库构成 目前,UniProt由主要由以下子库构成: 数据库名 全名 用途 Swiss-Prot Protein knowledgebas (review) 高质量的、手工注释的...这里包含了很多第三方算法和软件 3.1、查询蛋白质基础操作 1、进入官网:https://www.uniprot.org/ 1、切换数据库,也就是上面介绍的 2、输入基因名,uniprot id,物种名等都可以...,也就是上面说的验证后的蛋白数据库 Q01860:UniProt ID号 PO5F1_HUMAN:是UniProt 的登录名 POU domain, class 5, transcription...五、UniParc 介绍 UniProt Archive(UniParc)包含来自主要公共可用蛋白质序列数据库的所有蛋白质序列的非冗余数据集。

6.4K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    AlphaSync: 同步 UniProt 的下一代AlphaFold结构数据库

    然而,随着蛋白质序列数据库规模迅速扩张并频繁更新,保持 AlphaFold 结构模型与最新序列一致仍是一个重大挑战。...为解决这一问题,研究人员开发了 AlphaSync(alphasync.stjude.org),一个与 UniProt 完全同步的结构数据库,提供 260 万个蛋白质的结构模型,并覆盖 925 个物种。...数据库还提供残基层级注释(如溶剂可及性、二面角、结构无序等),并记录超过 47 亿个原子级非共价接触。...AlphaSync 数据库的构建与特点 AlphaSync 的核心思想是:让每个 UniProt 序列都拥有一个最新、最佳匹配、可信的结构模型。...完全同步、全面、可扩展、注释丰富 的蛋白质结构数据库,旨在弥补 AFDB 的更新滞后问题。

    16610

    . | AlphaFold 数据库正在“变老”: 为什么 2 亿结构模型也会过时?

    DRUGONE 自 2022 年 AlphaFold 数据库(AlphaFoldDB)公开以来,它已为超过 2 亿条 UniProt 蛋白序列提供了预测的三维结构。...但 UniProt 会持续升级数据库,包括: 纠正注释错误 合并冗余序列 更新基因信息、物种注释 根据新实验数据调整序列 两者更新频率不一致,使得 AlphaFoldDB 不可避免地出现“时效性问题”。...数据库“老化”是普遍现象,而非 AlphaFold 独有 斑马鱼的极端案例更突显该问题的普遍性: 由于 UniProt 近年大规模清理,斑马鱼的审核蛋白从原先的数千条减少到 3,355 条。...这意味着:结构数据库不仅序列会老化,注释也会老化。AlphaFoldDB 更新不够频繁,而基于其构建的各种工具、子数据库同样存在这一问题。 如何避免使用“过时结构”?...注意其他静态数据库也会老化 包括 missense 预测数据库(如 AlphaMissense),这些同样需要与最新序列比对。

    14320

    Python每日一谈|No.26.实例.7-Bioinfor.1-Blast-Python调用

    Database(简称UniProt)是信息最丰富、资源最广的蛋白质序列数据库,整合Swiss-Prot、TrEMBL和PIR三大数据库的数据而成。...它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列; (2)UniProt Non-redundant Reference(UniRef)将密切相关的蛋白质序列组合到一条记录中...目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50; (3)UniProt Archive(UniParc)是一个综合性的非冗余数据库,包含了所有主要的、公开的数据库的蛋白质序列...--- 来源于 中国药科大学图书馆 官网地址:http://www.uniprot.org/ 数据库下载地址:https://www.uniprot.org/downloads#uniprotkblink...uniprot_sprot.phr uniprot_sprot.psq uniprot_sprot.fasta uniprot_sprot.pin 3.进行比对 使用blastall blastall

    2K40

    J. Chem. Inf. Model. | 用于查找和注释蛋白质结构以进行计算分析

    在这一背景下,蛋白质结构数据库,如PDB,对结构生物学家和生物信息学家来说至关重要。尽管传统上依赖于实验解决的结构,但蛋白质结构的解析既耗时又昂贵。...AlphaFold蛋白质结构数据库的发布降低了入门门槛,让许多非计算科学家也能利用这些预测结构。...数据集特点 图 1 PDBminer的主要作用是自动化并简化搜索可用的结构数据库的任务。它接受UniProt访问号作为输入,并生成一个输出文件,列出了该蛋白质的所有可用结构及其相应的详细信息。...对于配置文件或命令行中的每个UniProt访问号,PDBminer使用3D-Beacons数据库或PDBe来识别与特定蛋白质相关的所有PDB结构,并访问其元数据。...如果3D-Beacons数据库中没有该蛋白质的可用条目,PDBminer将查询UniProt知识库和PDBe以获取可用结构列表和元数据。

    47310

    数据挖掘—多种方式获取全面的单体靶点

    (MOL001924)共检索到7个相关靶点1.2.2 Hit2数据库Hit2数据库同TCMSP一样,数据库的信息全部来自文献,并经过人工核对共检索到20个相关靶点1.2.3 Herb数据库Herb是同样使用较为广泛的数据库...)共检索到16个相关靶点1.2.4 CTD数据库CTD 是一个整合化学品-基因/蛋白、疾病及其相互作用的大型数据库,数据来源包括实验数据和文献挖掘。...本研究中设置筛选标准为 Norm Fit > 0.8,去除无 UniProt ID 的条目,并将 UniProt ID 转换为基因符号进行后续分析。...id转化为genesymbolSuperPred_filtered_df$Entry UniProt ID`UniProt UniProt$Uniplot UniProt$`Entry Name`colnames(Pharm_df)colnames(UniProt)Pharm_filtered_df <- merge

    71700

    分子对接教程 | (2) 选择合适的蛋白受体

    这里我们借助uniprot这个数据库来选择是比较方便的。这里简单介绍一下这个数据库,可能有的同学是第一次知道。翻了多年前的笔记,粘贴在下面。 UniProt 数据库有三个层次。...第一层叫 UniParc,收录了所有 UniProt 数据库子库中的蛋白质序列,量大,粗糙。 第二层是 UniRef,他归纳了 UniProt 几个主要数据库并且是将重复序列去除后的数据库。...关系稍有点复杂,但实际上我们最常用的就是 UniProtKB下的 Swiss-Prot 数据库。 从 UniProt 数据库查看一条蛋白质序列(http://www.uniprot.org/)。...在UniProt数据库的首页上有一个关于 UniProtKB 数据库的统计表。可以看到,TrEMBL 数据库里存储的序列数量远远大于 Swiss-Prot 中的。...UniProt 数据库的首页上也有一个搜索条,选择UniprotKB 数据库,然后输入“human dutpase”,第一条就是我们要的。

    6.8K64

    SMART:蛋白质结构域数据库

    SMART是蛋白结构域的数据库,该数据库最新版本为v8,收录了1300多个蛋白结构域信息,覆盖了来自uniprot, ensembl等多个数据库的蛋白。...官网如下 http://smart.embl-heidelberg.de/ 该数据库有以下两种模式 normal genomic normal模式下包含了所有uniprot, ensembl的蛋白质信息...输入uniprot或者ensembl 数据库中的蛋白ID进行检索,示例如下,根据uniprot数据库中的蛋白IDC1S_HUMAN进行检索 http://smart.embl-heidelberg.de...蛋白质相互作用 提供了来自STRING数据库的蛋白相互作用信息,示意如下 ? 3....4. orthology group 注释 提供了来自eggNOG数据库的注释信息,示意如下 ? 5. 转录后修饰 提供了来自PTM数据库的转录后修饰信息,示意如下 ?

    4.5K20

    详解如何获取物种所有基因对应的GO注释

    Gene Ontology是研究基因功能的重要数据库之一,在进行GO的富集分析时,需要提供所有基因对应的GO注释信息,本文介绍几种获取该信息的方式。 1....该文件中提供的是uniprot数据库中的蛋白对应的GO信息,会给出蛋白对应的uniprot数据库编号,蛋白对应的基因symbol, 以及GO注释,示例如下 UniProtKB A0A024R161 DNAJC25...-GNG10 GO:0003924 原始文件列数很多,我只选了前4列,第一列表示数据库的名字,第二列为数据库中的编号,第三列为gene symbol, 第四列为对应的GO注释。...从GOA项目进行下载 EBI对uniprot数据库中的蛋白进行了GO注释分析,这个项目名为gene ontology annotation, 简称GOA, 在FTP也提供了物种对应的注释信息,示意图如下...从NCBI Gene 数据库进行下载 在NCBI检索基因时,在结果页面会看到该基因对应的很多注释信息,其中就包括了GO注释,这些信息在FTP上都提供了源文件,以供下载,链接如下 ftp://ftp.ncbi.nih.gov

    11.2K20

    麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

    先找到网页下方的KEGG GENES子数据库。 在弹出的页面中,三个检索栏都可以用,不过推荐用第三个,比较准确简洁。...不同数据库对基因的识别码不一样,而KEGG只支持三个数据库的识别码,即KEGG、NCBI、Uniprot,所以要进行转换。现在有26个基因,那么批量转换比较便捷的方法是用Uniprot的在线工具。...在http://www.uniprot.org/ 点Retrieve/ID mapping进入如下页面,贴上自己的基因名,下方选择输入和需要输出的识别码类型,填好物种信息,就可点“Go”转换。...Entry即Uniprot编码。 下载好后,将Entry贴到我们原来的表格中。...此处注意输入的THOA基因没有检索到Uniprot ID,舍去;另又有两个FAS,得到了不一样的Entry,那是因为输入的是基因缩写,可能检索到同缩写的多个基因。

    8.3K93

    关于基因ID的二三事

    对于很多对基因进行记录的数据库而言,为了他们自己数据库记录的方便,对于每个基因都会进行自己数据库的唯一编号,这样就导致了一个基因形成了很多不同的编号(ID)。...Ensembl是另外一个记录基因信息的数据库。就笔者而言查询基因信息更多使用的gene数据库(其实更多的还是genecards),这个数据库使用的较少。...是数据库对于不同蛋白的ID号。这个类似于上面gene数据库的NP编号开头的ID。...综上,Ensembl数据库的ID号可以用以下这个图来代表。 ? Uniprot ID ? 如果我们查找的是一个基因的蛋白的话,那么就有可能涉及到Uniprot这种专门注释蛋白的数据库。...对于Uniprot的ID号的话,主要是采用字母+数字混合的这种形式(具体的含义,没有详细的查找)。例如:Q86T96就代表RNF180这个基因的蛋白。

    1.7K40

    麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

    先找到网页下方的KEGG GENES子数据库。 在弹出的页面中,三个检索栏都可以用,不过推荐用第三个,比较准确简洁。...不同数据库对基因的识别码不一样,而KEGG只支持三个数据库的识别码,即KEGG、NCBI、Uniprot,所以要进行转换。现在有26个基因,那么批量转换比较便捷的方法是用Uniprot的在线工具。...在http://www.uniprot.org/ 点Retrieve/ID mapping进入如下页面,贴上自己的基因名,下方选择输入和需要输出的识别码类型,填好物种信息,就可点“Go”转换。...Entry即Uniprot编码。 下载好后,将Entry贴到我们原来的表格中。...此处注意输入的THOA基因没有检索到Uniprot ID,舍去;另又有两个FAS,得到了不一样的Entry,那是因为输入的是基因缩写,可能检索到同缩写的多个基因。

    3.2K32
    领券