首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一文极速读懂UniProt数据库

Uniprot (Universal Protein )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics Institute),...目前,UniProt由主要由以下子库构成: 数据库名 全名 用途 UniProtKB/Swiss-Prot Protein knowledgebas (review) 高质量的、手工注释的、非冗余的数据库...,也就是上面说的验证后的蛋白数据库 Q01860:UniProt ID号 PO5F1_HUMAN:是UniProt 的登录名 POU domain, class 5, transcription...之前提到的PIR组织制作了蛋白质序列数据库(PIR-PSD)。 UniParc UniProt Archive(UniParc)包含来自主要公共可用蛋白质序列数据库的所有蛋白质序列的非冗余数据集。...UniRef UniProt Reference Clusters(UniRef):聚类序列可显著减小数据库大小,从而加快序列搜索的速度。

2.4K31

一文读懂 UniProt 数据库(2023 最新版)

一、UniProt 数据库介绍 Uniprot (Universal Protein )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics...二、UniProt 数据库构成 目前,UniProt由主要由以下子库构成: 数据库名 全名 用途 Swiss-Prot Protein knowledgebas (review) 高质量的、手工注释的...这里包含了很多第三方算法和软件 3.1、查询蛋白质基础操作 1、进入官网:https://www.uniprot.org/ 1、切换数据库,也就是上面介绍的 2、输入基因名,uniprot id,物种名等都可以...,也就是上面说的验证后的蛋白数据库 Q01860:UniProt ID号 PO5F1_HUMAN:是UniProt 的登录名 POU domain, class 5, transcription...五、UniParc 介绍 UniProt Archive(UniParc)包含来自主要公共可用蛋白质序列数据库的所有蛋白质序列的非冗余数据集。

2.6K20
您找到你想要的搜索结果了吗?
是的
没有找到

Python每日一谈|No.26.实例.7-Bioinfor.1-Blast-Python调用

Database(简称UniProt)是信息最丰富、资源最广的蛋白质序列数据库,整合Swiss-Prot、TrEMBL和PIR三大数据库的数据而成。...它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列; (2)UniProt Non-redundant Reference(UniRef)将密切相关的蛋白质序列组合到一条记录中...目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50; (3)UniProt Archive(UniParc)是一个综合性的非冗余数据库,包含了所有主要的、公开的数据库的蛋白质序列...--- 来源于 中国药科大学图书馆 官网地址:http://www.uniprot.org/ 数据库下载地址:https://www.uniprot.org/downloads#uniprotkblink...uniprot_sprot.phr uniprot_sprot.psq uniprot_sprot.fasta uniprot_sprot.pin 3.进行比对 使用blastall blastall

1.5K40

J. Chem. Inf. Model. | 用于查找和注释蛋白质结构以进行计算分析

在这一背景下,蛋白质结构数据库,如PDB,对结构生物学家和生物信息学家来说至关重要。尽管传统上依赖于实验解决的结构,但蛋白质结构的解析既耗时又昂贵。...AlphaFold蛋白质结构数据库的发布降低了入门门槛,让许多非计算科学家也能利用这些预测结构。...数据集特点 图 1 PDBminer的主要作用是自动化并简化搜索可用的结构数据库的任务。它接受UniProt访问号作为输入,并生成一个输出文件,列出了该蛋白质的所有可用结构及其相应的详细信息。...对于配置文件或命令行中的每个UniProt访问号,PDBminer使用3D-Beacons数据库或PDBe来识别与特定蛋白质相关的所有PDB结构,并访问其元数据。...如果3D-Beacons数据库中没有该蛋白质的可用条目,PDBminer将查询UniProt知识库和PDBe以获取可用结构列表和元数据。

13610

SMART:蛋白质结构域数据库

SMART是蛋白结构域的数据库,该数据库最新版本为v8,收录了1300多个蛋白结构域信息,覆盖了来自uniprot, ensembl等多个数据库的蛋白。...官网如下 http://smart.embl-heidelberg.de/ 该数据库有以下两种模式 normal genomic normal模式下包含了所有uniprot, ensembl的蛋白质信息...输入uniprot或者ensembl 数据库中的蛋白ID进行检索,示例如下,根据uniprot数据库中的蛋白IDC1S_HUMAN进行检索 http://smart.embl-heidelberg.de...蛋白质相互作用 提供了来自STRING数据库的蛋白相互作用信息,示意如下 ? 3....4. orthology group 注释 提供了来自eggNOG数据库的注释信息,示意如下 ? 5. 转录后修饰 提供了来自PTM数据库的转录后修饰信息,示意如下 ?

3K20

分子对接教程 | (2) 选择合适的蛋白受体

这里我们借助uniprot这个数据库来选择是比较方便的。这里简单介绍一下这个数据库,可能有的同学是第一次知道。翻了多年前的笔记,粘贴在下面。 UniProt 数据库有三个层次。...第一层叫 UniParc,收录了所有 UniProt 数据库子库中的蛋白质序列,量大,粗糙。 第二层是 UniRef,他归纳了 UniProt 几个主要数据库并且是将重复序列去除后的数据库。...关系稍有点复杂,但实际上我们最常用的就是 UniProtKB下的 Swiss-Prot 数据库。 从 UniProt 数据库查看一条蛋白质序列(http://www.uniprot.org/)。...在UniProt数据库的首页上有一个关于 UniProtKB 数据库的统计表。可以看到,TrEMBL 数据库里存储的序列数量远远大于 Swiss-Prot 中的。...UniProt 数据库的首页上也有一个搜索条,选择UniprotKB 数据库,然后输入“human dutpase”,第一条就是我们要的。

3.9K42

详解如何获取物种所有基因对应的GO注释

Gene Ontology是研究基因功能的重要数据库之一,在进行GO的富集分析时,需要提供所有基因对应的GO注释信息,本文介绍几种获取该信息的方式。 1....该文件中提供的是uniprot数据库中的蛋白对应的GO信息,会给出蛋白对应的uniprot数据库编号,蛋白对应的基因symbol, 以及GO注释,示例如下 UniProtKB A0A024R161 DNAJC25...-GNG10 GO:0003924 原始文件列数很多,我只选了前4列,第一列表示数据库的名字,第二列为数据库中的编号,第三列为gene symbol, 第四列为对应的GO注释。...从GOA项目进行下载 EBI对uniprot数据库中的蛋白进行了GO注释分析,这个项目名为gene ontology annotation, 简称GOA, 在FTP也提供了物种对应的注释信息,示意图如下...从NCBI Gene 数据库进行下载 在NCBI检索基因时,在结果页面会看到该基因对应的很多注释信息,其中就包括了GO注释,这些信息在FTP上都提供了源文件,以供下载,链接如下 ftp://ftp.ncbi.nih.gov

8.3K20

麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

先找到网页下方的KEGG GENES子数据库。 在弹出的页面中,三个检索栏都可以用,不过推荐用第三个,比较准确简洁。...不同数据库对基因的识别码不一样,而KEGG只支持三个数据库的识别码,即KEGG、NCBI、Uniprot,所以要进行转换。现在有26个基因,那么批量转换比较便捷的方法是用Uniprot的在线工具。...在http://www.uniprot.org/ 点Retrieve/ID mapping进入如下页面,贴上自己的基因名,下方选择输入和需要输出的识别码类型,填好物种信息,就可点“Go”转换。...Entry即Uniprot编码。 下载好后,将Entry贴到我们原来的表格中。...此处注意输入的THOA基因没有检索到Uniprot ID,舍去;另又有两个FAS,得到了不一样的Entry,那是因为输入的是基因缩写,可能检索到同缩写的多个基因。

5.1K93

关于基因ID的二三事

对于很多对基因进行记录的数据库而言,为了他们自己数据库记录的方便,对于每个基因都会进行自己数据库的唯一编号,这样就导致了一个基因形成了很多不同的编号(ID)。...Ensembl是另外一个记录基因信息的数据库。就笔者而言查询基因信息更多使用的gene数据库(其实更多的还是genecards),这个数据库使用的较少。...是数据库对于不同蛋白的ID号。这个类似于上面gene数据库的NP编号开头的ID。...综上,Ensembl数据库的ID号可以用以下这个图来代表。 ? Uniprot ID ? 如果我们查找的是一个基因的蛋白的话,那么就有可能涉及到Uniprot这种专门注释蛋白的数据库。...对于Uniprot的ID号的话,主要是采用字母+数字混合的这种形式(具体的含义,没有详细的查找)。例如:Q86T96就代表RNF180这个基因的蛋白。

1.2K40

麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

先找到网页下方的KEGG GENES子数据库。 在弹出的页面中,三个检索栏都可以用,不过推荐用第三个,比较准确简洁。...不同数据库对基因的识别码不一样,而KEGG只支持三个数据库的识别码,即KEGG、NCBI、Uniprot,所以要进行转换。现在有26个基因,那么批量转换比较便捷的方法是用Uniprot的在线工具。...在http://www.uniprot.org/ 点Retrieve/ID mapping进入如下页面,贴上自己的基因名,下方选择输入和需要输出的识别码类型,填好物种信息,就可点“Go”转换。...Entry即Uniprot编码。 下载好后,将Entry贴到我们原来的表格中。...此处注意输入的THOA基因没有检索到Uniprot ID,舍去;另又有两个FAS,得到了不一样的Entry,那是因为输入的是基因缩写,可能检索到同缩写的多个基因。

2.1K32

Nucleic Acids Res. | AlphaFold DB:大规模扩展蛋白质序列空间的结构覆盖范围

作者在文章中介绍了一种名为AlphaFold DB的蛋白质数据库(https://alphafold.ebi.ac.uk),它是一个可公开访问的高精度蛋白质结构预测数据库。...该数据库提供了可编程访问及交互式可视化功能,包括预测的原子坐标、每个残基和成对模型置信度的估计,以及预测的对齐误差。...然而,虽然通用的蛋白质资源 (UniProt) 存储了近 2.2亿个独特的蛋白质序列,但蛋白质结构数据库 (PDB) 仅包含超过55000种不同蛋白质的180000多个3D结构,因此严重限制了序列空间的覆盖范围以支持全球生物分子研究...在接下来的几个月中,我们计划扩大数据库以涵盖所有条目下的大部分蛋白质(来自UniRef90的超过1.3亿个集群代表)。 表1....我们通过公共API端点提供对所有条目的访问,以UniProt登录为密钥。

95620

三大基础公共数据库介绍

目前生物信息学研究者已经开发了2000多个分子生物学数据库,几乎覆盖了生命科学的各个领域,大致可分为五类:基因组数据库、核酸序列数据库、蛋白质序列数据库、生物大分子(主要是蛋白质)三维结构数据库以及根据生命科学不同研究领域的实际需要...EBI维护着世界上最广泛的生物分子数据资源,包括EMBL-Bank(DNA和RNA序列)、Ensembl(基因组)、ArrayExpress(微阵列基因表达)、UniProt(蛋白质序列和注释)、interPro...⑶UniProt UniProt(Universal Protein,http://www.uniprot.org/)是信息最丰富、资源最广的蛋白质数据库,它由整合Swiss-Prot、TrEMBL和PIR-PSD...Swiss-prot数据库UniProt Knowledgebase(UniprotKB)中的手工注释和审查验证的部分数据库,是一个精选的高质量的、带手工注释和非冗余的蛋白质序列数据库,主要来自文献中的研究成果和...UniParc(UniProt Archive),是一个综合性的非冗余数据库,包含了所有主要的、公开的数据库的蛋白质序列。

5.6K20
领券