这是fasta格式的标题
>KRH76248 pep chromosome:Glycine_max_v2.1:1:47401227:47414434:-1 gene:GLYMA_01G141900 transcript:KRH76248 gene_biotype:protein_coding transcript_biotype:protein_coding description:hypothetical protein
MQKGREVRDNNIFEPRRFEDFGDFGFHRSRMPSLFGGRDPFDDPFFTDPFDSLFGPSSAS
RAMQKTNREKGIVIEEIDSDDEGADNGPETGEKDFDKKKSKSTMEPSIEYPDDDVNERKN
SDVTYKNDHCMAEPKARKFSFQTSRVTYGGIDGAYYTSTRIRRMGANGEVMEENKEADTT
TGQASHRRITRGIHDKGHSVLRKLDSDGKVDTTQTLHNLNEDELAGFEEAWKGNNMAQLP
GFDVHRKEGTMLT
其中,我只想保留>GLYMA_01G141900,后面跟着序列,其余的部分需要删除。
预期结果
>GLYMA_01G141900
MQKGREVRDNNIFEPRRFEDFGDFGFHRSRMPSLFGGRDPFDDPFFTDPFDSLFGPSSAS
RAMQKTNREKGIVIEEIDSDDEGADNGPETGEKDFDKKKSKSTMEPSIEYPDDDVNERKN
SDVTYKNDHCMAEPKARKFSFQTSRVTYGGIDGAYYTSTRIRRMGANGEVMEENKEADTT
TGQASHRRITRGIHDKGHSVLRKLDSDGKVDTTQTLHNLNEDELAGFEEAWKGNNMAQLP
GFDVHRKEGTMLT
我有85000个不同的序列,有一个不同的标题,那么如何在命令行中继续。提前谢谢你
为了寻求帮助,我找到了一个命令
sed -r '/>/S/.\gene:(.) transcript:.*/>\1/'test.fa
发布于 2020-04-30 15:37:11
也许你想
sed -E '/^>/s/.* gene:(\S+).*/>\1/' file
-E
和-r
是等价的,但我更喜欢-E
,因为它对应于相同的grep选项。
\S+
是GNU中的“一个或多个非空白字符”。
https://askubuntu.com/questions/1233503
复制相似问题