前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Linux day3:认识生物信息学数据的常见格式

Linux day3:认识生物信息学数据的常见格式

原创
作者头像
不会写代码的医学生
修改2024-03-21 21:40:15
1020
修改2024-03-21 21:40:15
举报

以上是计算第6个空格的所有数字相加为多少

  • 大多数操作不会修改原文件,但以下操作会 1.cat > file 2.vim 3.把输入文件当作输出文件(会直接清空) 4.sed -i 也会修改原文件

例如:

生物信息学常见文件格式

fasta, fa, fna, faa, fas

fasta:一种基于文本用于表示核酸序列多肽序列的格式。

缩写为 fa 特征: 两部分, id行和序列行.

  • id行:以“>”开头, 有时候会包含注释信息,如 chr1、chr2 ...
  • 序列行:一个字母表示一个碱基/氨基酸,ATCGN 或 20种氨基酸

fastq:一种保存生物序列(通常为核酸序列)及其测序质量得分信息的 文本格式。FASTQ文件中,一个序列通常由四行组成:

• 第一行:以 @ 开头,之后为序列的标识符以及描述信息

• 第二行:为序列信息,如 ATCG

• 第三行:以 + 开头,之后可以再次加上序列的标识及描述信息(保留行) • 第四行:为碱基质量值,与第二行的序列相对应,长度必须与第二行相同

gff:基因组注释文件 ,总共有 9 列。分别为

gtf:基因注释文件 ,总共有 9 列。分别为

代码语言:sh
复制
column -t #让列对齐

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 生物信息学常见文件格式
    • fasta:一种基于文本用于表示核酸序列或多肽序列的格式。
      • fastq:一种保存生物序列(通常为核酸序列)及其测序质量得分信息的 文本格式。FASTQ文件中,一个序列通常由四行组成:
      • gff:基因组注释文件 ,总共有 9 列。分别为
      • gtf:基因注释文件 ,总共有 9 列。分别为
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档