首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >编辑文本文件头(Fasta格式)

编辑文本文件头(Fasta格式)
EN

Ask Ubuntu用户
提问于 2020-04-30 15:04:40
回答 1查看 651关注 0票数 2

这是fasta格式的标题

代码语言:javascript
运行
复制
>KRH76248 pep chromosome:Glycine_max_v2.1:1:47401227:47414434:-1 gene:GLYMA_01G141900 transcript:KRH76248 gene_biotype:protein_coding transcript_biotype:protein_coding description:hypothetical protein
MQKGREVRDNNIFEPRRFEDFGDFGFHRSRMPSLFGGRDPFDDPFFTDPFDSLFGPSSAS
RAMQKTNREKGIVIEEIDSDDEGADNGPETGEKDFDKKKSKSTMEPSIEYPDDDVNERKN
SDVTYKNDHCMAEPKARKFSFQTSRVTYGGIDGAYYTSTRIRRMGANGEVMEENKEADTT
TGQASHRRITRGIHDKGHSVLRKLDSDGKVDTTQTLHNLNEDELAGFEEAWKGNNMAQLP
GFDVHRKEGTMLT

其中,我只想保留>GLYMA_01G141900,后面跟着序列,其余的部分需要删除。

预期结果

代码语言:javascript
运行
复制
>GLYMA_01G141900
MQKGREVRDNNIFEPRRFEDFGDFGFHRSRMPSLFGGRDPFDDPFFTDPFDSLFGPSSAS
RAMQKTNREKGIVIEEIDSDDEGADNGPETGEKDFDKKKSKSTMEPSIEYPDDDVNERKN
SDVTYKNDHCMAEPKARKFSFQTSRVTYGGIDGAYYTSTRIRRMGANGEVMEENKEADTT
TGQASHRRITRGIHDKGHSVLRKLDSDGKVDTTQTLHNLNEDELAGFEEAWKGNNMAQLP
GFDVHRKEGTMLT

我有85000个不同的序列,有一个不同的标题,那么如何在命令行中继续。提前谢谢你

为了寻求帮助,我找到了一个命令

代码语言:javascript
运行
复制
sed -r '/>/S/.\gene:(.) transcript:.*/>\1/'test.fa
EN

回答 1

Ask Ubuntu用户

发布于 2020-04-30 15:37:11

也许你想

代码语言:javascript
运行
复制
sed -E '/^>/s/.* gene:(\S+).*/>\1/' file

-E-r是等价的,但我更喜欢-E,因为它对应于相同的grep选项。

\S+是GNU中的“一个或多个非空白字符”。

票数 2
EN
页面原文内容由Ask Ubuntu提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://askubuntu.com/questions/1233503

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档