文章/答案/技术大牛

发布

社区首页 >问答首页 >编辑文本文件头(Fasta格式)

问编辑文本文件头(Fasta格式)
EN

Ask Ubuntu用户

提问于 2020-04-30 15:04:40

回答 1查看 651关注 0票数 2

这是fasta格式的标题

>KRH76248 pep chromosome:Glycine_max_v2.1:1:47401227:47414434:-1 gene:GLYMA_01G141900 transcript:KRH76248 gene_biotype:protein_coding transcript_biotype:protein_coding description:hypothetical protein
MQKGREVRDNNIFEPRRFEDFGDFGFHRSRMPSLFGGRDPFDDPFFTDPFDSLFGPSSAS
RAMQKTNREKGIVIEEIDSDDEGADNGPETGEKDFDKKKSKSTMEPSIEYPDDDVNERKN
SDVTYKNDHCMAEPKARKFSFQTSRVTYGGIDGAYYTSTRIRRMGANGEVMEENKEADTT
TGQASHRRITRGIHDKGHSVLRKLDSDGKVDTTQTLHNLNEDELAGFEEAWKGNNMAQLP
GFDVHRKEGTMLT

其中，我只想保留>GLYMA_01G141900，后面跟着序列，其余的部分需要删除。

预期结果

>GLYMA_01G141900
MQKGREVRDNNIFEPRRFEDFGDFGFHRSRMPSLFGGRDPFDDPFFTDPFDSLFGPSSAS
RAMQKTNREKGIVIEEIDSDDEGADNGPETGEKDFDKKKSKSTMEPSIEYPDDDVNERKN
SDVTYKNDHCMAEPKARKFSFQTSRVTYGGIDGAYYTSTRIRRMGANGEVMEENKEADTT
TGQASHRRITRGIHDKGHSVLRKLDSDGKVDTTQTLHNLNEDELAGFEEAWKGNNMAQLP
GFDVHRKEGTMLT

我有85000个不同的序列，有一个不同的标题，那么如何在命令行中继续。提前谢谢你

为了寻求帮助，我找到了一个命令

sed -r '/>/S/.\gene:(.) transcript:.*/>\1/'test.fa

command-line

text-editor

回答 1

Ask Ubuntu用户

发布于 2020-04-30 15:37:11

也许你想

sed -E '/^>/s/.* gene:(\S+).*/>\1/' file

-E和-r是等价的，但我更喜欢-E，因为它对应于相同的grep选项。

\S+是GNU中的“一个或多个非空白字符”。

票数 2

页面原文内容由Ask Ubuntu提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://askubuntu.com/questions/1233503

复制

相似问题

问编辑文本文件头(Fasta格式)
EN

回答 1

Ask Ubuntu用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问编辑文本文件头(Fasta格式)EN

回答 1

Ask Ubuntu用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问编辑文本文件头(Fasta格式)
EN