前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Linux进阶 02 生物信息学常见文件格式

Linux进阶 02 生物信息学常见文件格式

原创
作者头像
可乐同学与生信死磕到底
发布2024-04-17 16:35:41
890
发布2024-04-17 16:35:41
举报

练习题讲解:之前一个比较难的练习题!

md5文件:

确保下载的文件和公司的文件是否相同 md5验证

解题思路:第一列代码和第二列文件分开处理

代码语言:sh
复制
less -NS Data/md5.txt |cut -f 1
less -NS Data/md5.txt |cut -f 1 |tr ';' '\n' # 把;分隔符替换为回车
less -NS Data/md5.txt |cut -f 1 |tr ';' '\n' >tmp1 #暂时存为tmp1文件
less -NS Data/md5.txt |cut -f 2 |tr ';' '\n' >tmp2 #同理生成tmp2文件
paste tmp1 tmp2 >tmp3
cat tmp3

1 fasta格式

fasta:一种基于文本用于表示核酸序列或多肽序列的格式。缩写为fa

特征:两部分,id行和序列行

id行:以>开头,有时候会包含注释信息,如chr1、chr2…

序列行:一个字母表示一个碱基/氨基酸 ,ATCGN或20种氨基酸

2 fastq格式

fastq:一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式

fastq文件中,一个序列通常由四行组成:

  • 第一行:以@开头,之后为序列的标识符以及描述信息
  • 第二行:为序列信息,如ATCG
  • 第三行:以+开头,之后可以再次加上序列的标识及描述信息(保留行)
  • 第四行:为碱基质量值,与第二行的序列相对应,长度必须与第二行相同
四行为一个整体
四行为一个整体

3 gff格式

基因组注释文件,总共有9列

第一列 seqname 序列的名字,通常格式染色体ID或contig ID

第二列 source 注释的来源,通常是预测软件名或是公共数据库

第三列 feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR...

第四列 start 起始位置,从1开始计数

第五列 end 终止位置

第六列 score 这一列的值表示对该类型存在性和其坐标的可信度,不是必须的,可以用"."代替

第七列 strand 链的正向与负向,分别用+和-表示

第八列 frame 密码子偏移,可以是0、1或2

第九列 attributes 属性,一个包含众多属性的列表,格式为“标签=值(tag=value)”,不同属性之间以分号相隔

三级结构:

第一级gene

第二级transcript

4 gtf格式

基因注释文件。总共有9列,分别为:

seqname 序列的名字

source 注释的来源

feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR...

start 起始位置

end 终止位置

score .

strand 链的正向与负向

frame

attributes:属性,必须要有以下两个值:

  • gene_id value:表示坐标在基因组上的基因座的唯一的ID。gene_id与value值用空格分开,如果值为空,表示没有对应的基因
  • transcript_id value:预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。

一定要有gene_id

transcript_id

实际上为二级结构

只关注基因水平和转录本水平

补充命令:让列对齐 column -t

代码语言:sh
复制
less -NS Data/example.gtf |column -t |less -S

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 fasta格式
  • 2 fastq格式
  • 3 gff格式
  • 4 gtf格式
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档