前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Linux_生物信息学常见文件格式

Linux_生物信息学常见文件格式

原创
作者头像
大胖橘
发布2023-03-30 16:10:07
1.2K0
发布2023-03-30 16:10:07
举报
文章被收录于专栏:R语言 / LinuxR语言 / Linux

Linux_生物信息学常见文件格式

• fasta

fasta:一种基于文本用于表示核酸序列或多肽序列的格式。缩写为 fa

特征: 两部分, id行和序列行.

  • id行:以“>”开头, 有时候会包含注释信息,如 chr1、chr2 …
  • 序列行:一个字母表示一个碱基/氨基酸,ATCGN 或 20种氨基酸
• fastq

fastq:一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。FASTQ文件中,一个序列通常由四行组成: • 第一行:以 @ 开头,之后为序列的标识符以及描述信息 • 第二行:为序列信息,如 ATCG • 第三行:以 + 开头,之后可以再次加上序列的标识及描述信息(保留行) • 第四行:为碱基质量值,与第二行的序列相对应,长度必须与第二行相同

• gff/gtf

gff:基因组注释文件 ,总共有 9 列。

列 名称 含义 1 seqname 序列的名字。通常格式染色体ID或是contig ID 2 source 注释的来源。通常是预测软件名或是公共数据库 3 feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR… 4 start 起始位置,从1开始计数。 5 end 终止位置。 6 score 这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。 7 strand 链的正向与负向,分别用加号+和减号-表示。 8 frame 密码子偏移,可以是0、1或2。 9 attributes 属性,一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔。

gtf:基因注释文件 ,总共有 9 列。

列 名称 含义 1 seqname 序列的名字。通常格式染色体ID或是contig ID 2 source 注释的来源。通常是预测软件名或是公共数据库 3 feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR… 4 start 起始位置,从1开始计数。 5 end 终止位置。 6 score 这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用点“.”代替。 7 strand 链的正向与负向,分别用加号+和减号-表示。“.”表示不需要指定正负链,“?” 表示未知. 8 frame 密码子偏移,可以是0、1或2。仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。 9 attributes 属性,必须要有以下两个值: gene_id value: 表示坐标在基因组上的基因座的唯一的ID。gene_id 与 value 值用空格分开,如果值为空,则表示没有对应的基因。transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Linux_生物信息学常见文件格式
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档