前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >fasta格式文件介绍与处理

fasta格式文件介绍与处理

作者头像
生信喵实验柴
发布2022-05-23 11:32:20
3.6K0
发布2022-05-23 11:32:20
举报
文章被收录于专栏:生信喵实验柴

背景

拼接完基因组之后最重要的事就是对拼接结果进行统计,一般很难一次就得到满意的结果。而是需要进行多次拼接,尝试不同的软件,不同的选项参数,得到多个拼接结果。然后从中选择一个合适的结果。这就需要对每个结果进行统计。包括拼接出基因组的大小,条数,最长长度,最短长度等。

今天的部分是fasta格式文件介绍与处理。

一、fasta 文件格式

FASTA 文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名 fa,fasta,fna 等。

1.1 fasta 文件格式介绍

fasta 文件中,第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列 ID 部分可以包含注释信息。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。序列部分可以在一行,也可以分成多行。

代码语言:javascript
复制
>NP_214518.1 hypothetical protein
ATGACGGGTTCTGTTGACCGGCCCGACCAGAATCGCGGTGAGCGATCAATGAAGTCACCAGGGTTGGATTTGGTCAGG
CGCACCCTGGACGAAGCTCGTGCTGCTGCCCGCGCGCGCGGACAAGACGCCGGTCGAGGGCGGGTCGCTTCCGTTGCG
TCGGGTCGGGTGGCCGGACGGCGACGAAGCTGGTCGGGTCCGGGGCCCGACATTCGTGATCCACAACCGCTGGGTAAG
GCCGCTCGTGAGCTGGCAAAGAAACGCGGCTGGTCGGTGCGGGTCGCCGAGGGTATGGTGCTCGGCCAGTGGTCTGCG
GTGGTCGGCCACCAGATCGCCGAACATGCACGCCCGACTGCGCTAAACGACGGGGTGTTGAGCGTGATTGCGGAGTCG
ACGGCGTGGGCGACGCAGTTGAGGATCATGCAGGCCCAGCTTCTGGCCAAGATCGCCGCAGCGGTTGGCAACGATGTG
GTGCGATCGCTAAAGATCACCGGGCCGGCGGCACCATCGTGGCGCAAGGGGCCTCGCCATATTGCCGGTAGGGGTCCG
CGCGACACCTACGG
ATAA

1.2 fasta 文件格式处理案例

代码语言:javascript
复制
# fasta 文件格式处理案例
#案例一:统计
seqkit stats kmer45.scafSeq
#分别统计每一条序列长度
seqkit fx2tab kmer45.scafSeq |awk '{print $1"\t"length($2)}'
#案例二:格式化
seqtk seq -l 0 kmer45.scafSeq
#每行显示 50 个碱基
seqtk seq -l 50 kmer45.scafSeq
#案例三:逐条统计
seqtk seq -l 0 kmer45.scafSeq | grep -v ">" | awk '{print length($0)}' | head
#统计长度并按照长度计算频数
seqtk seq -l 0 kmer45.scafSeq |grep -v ">" | awk '{print length($0)}' | sort |
uniq -c
#案例四:成分分析
seqtk comp kmer45.scafSeq | head
#案例五:提取序列
seqkit grep -r -p "C2877" kmer45.scafSeq
#案例六:截取序列
seqkit subseq -r 1000:3000 kmer45.scafSeq
seqkit subseq -r 1000:3000 kmer45.scafSeq --chr C2689
#案例七:排序
seqkit sort -l -r kmer45.scafSeq | less -S
#案例八:按照长度过滤
seqkit seq -m 1000 kmer45.scafSeq
#过滤长度大于 1000bp 序列
seqkit seq -M 1000 kmer45.scafSeq
# 案例九:反向互补
#seqkit 取反向序列
seqkit seq -r test.fasta
#seqkit seq 加-r -p 同时取反向互补序列
seqkit seq -r -p test.fasta
#案例十:转换大小写
seqkit seq -l kmer45.scafSeq| head
seqkit seq -u kmer45.scafSeq| head

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript
复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档