首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >FASTA序列格式介绍

FASTA序列格式介绍

作者头像
医学数据库百科
发布2022-01-05 11:23:11
发布2022-01-05 11:23:11
3.6K0
举报

之前介绍很多基于序列分析的数据库的时候,都会提到FASTA序列。之后也会遇到很多基于序列分析的数据库。所以今天就把基因序列的格式单独拎出来说一下。

基因序列基本内容

基因序列由 DNA/RNA 序列或者蛋白序列组成。其中 DNA/RNA 序列由 AT (U) CG 这四类组成。而蛋白序列则是有 20 种氨基酸的不同字母排列组成。例如,TP53这个基因的序列就是下面这样的。

基因序列的字母除了一对一的关系之外,在核苷酸序列当中也还会需要一些简并序列的情况。==简并序列==是通过一个字母来代表多个核苷酸的情况。目前有的简并序列有:

代码语言:javascript
复制
    A --> adenosine           M --> A C (amino)
    C --> cytidine            S --> G C (strong)
    G --> guanine             W --> A T (weak)
    T --> thymidine           B --> G T C
    U --> uridine             D --> G A T
    R --> G A (purine)        H --> A C T
    Y --> T C (pyrimidine)    V --> G C A
    K --> G T (keto)          N --> A G C T (any)

简并序列的用途是方便来记录不同核苷酸序列但行使相似功能的组合。比如某一个氨基酸的密码子。一般来说前两位是不变的。但是第三位就会发生变化。例如: 丙氨酸的密码子就是GCN 其中,N就代表是A,T,C,G都可以。

fasta 序列

在上面介绍基因序列的基本内容的的时候提到了基因的序列的核苷酸/氨基酸形式就是一堆字母的排列。例如 TP53 的一段 DNA 序列。

GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTC TAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTG

只是看 👆这个序列的话根本不知道这个序列是什么意思。所以为了更好的对基因序列进行注释。也就有了fasta序列格式。

在 fasta 文件当中,每一个序列由两部分组成。

  1. 序列的特征性 ID,例如:基因名,[[Gene Id二三事]] 等等。
  2. 具体的基因序列。

为了更好的区分哪一部分是 ID,哪一部分是具体序列。在 ID 那一行的开头加入">" 来表示是 ID 列。例如,TP53 DNA 的 fasta 序列。

>NG_017013.2:5001-24149 Homo sapiens tumor protein p53 (TP53), RefSeqGene (LRG_321) on chromosome 17 GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTC TAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTG CTTTCCACGACGGTGACACGCTTCCCTGGATTGGGTAAGCTCCTGACTGAACTTGATGAGTCCTCTCTGA GTCACGGGCTCTCGGCTCCGTGTATTTTCAGCTCGGGAAAATCGCTGGGGCTGGGGGTGGGGCAGTGGGG ACTTAGCGAGTTTGGGGGTGAGTGGGATGGAAGCTTGGCTAGAGGGATCATCATAGGAGTTGCATTGTTG GGAGACCTGGGTGTAGATGATGGGGATGTTAGGACCATCCGAACTCAAAGTTGAACGCCTAGGCAGAGGA GTGGAGCTTTGGGGAACCTTGAGCCGGCCTAAAGCGTACTTCTTTGCACATCCACCCGGTGCTGGGCGTA

fa 文件查看和制作

在很多序列下载网站上,例如: [[如何快速的下载基因序列 | gene数据库序列下载]] 。下载到的序列文件基本上都是以"fa", "faa"等格式结尾的。这样的格式的文件,如果想要查看的话,只需要利用文本文档打开即可。例如,下面就是 TP53 蛋白序列的 fa 文件。在里面可以看到序列和序列之间都有不同的 ID 号。

TP53蛋白序列fa文件

了解了 fa 的具体格式。也就可以自己制作自己想要的 fa 序列。例如在 [[UFold-RNA二级结构预测工具]] 的工具当中,就需要输入自己想要预测的核苷酸序列的 fa 文件。这个时候如果只知道基本的序列。那就可以在这个序列前面加一个"> 自己命名的 ID" 即可。至于说 ID 是什么。自己认识即可。并不一定要是官方 ID。

基因序列能干啥

一个基因的基因序列,不是单纯的只是有序列顺序信息,里面也会包括了这个基因的各种功能以及表达调控的信息等等。例如:

  • 比较多个基因之间的关系 (多物种相同基因/同一物种多个基因),来了解基因之间的区别。最后可以通过 [[进化树的构建基本过程]], [[一站式进化分析]] 来展示出这些基因关系
  • 之前介绍 [[DNA转录过程介绍|转录调控过程]] 的时候提到了转录因子是基于 [[转录因子调控 | motif]] 进行调控的。通过基因的启动子序列就可以分析基因收到那些转录因子调控。
  • 基于蛋白序列内的结构域信息来分析这个蛋白的功能 [[NetGo-蛋白功能预测]]
  • 基于自身 RNA 的互补情况,来分析 RNA 二级结构的形状: [[UFold-RNA二级结构预测工具]]
  • 另外,一些表观遗传的情况也是和基因序列有关,例如 [[基于基因序列分析m6A数据库汇总]]

参考资料:

[1]: FASTA format: https://zhanggroup.org/FASTA/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据库百科 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基因序列基本内容
  • fasta 序列
  • fa 文件查看和制作
  • 基因序列能干啥
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档