首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >脚本分享—gbk文件中提取核苷酸序列以及注释信息

脚本分享—gbk文件中提取核苷酸序列以及注释信息

作者头像
用户1075469
发布2025-05-10 10:38:21
发布2025-05-10 10:38:21
18900
代码可运行
举报
文章被收录于专栏:科技记者科技记者
运行总次数:0
代码可运行

脚本简介

  • 提取特定类型的基因功能元件序列 脚本可从 GBK 格式的注释文件中提取三类常见的功能元件序列:
    • CDS(编码序列)
    • rRNA(核糖体RNA)
    • tRNA(转运RNA)
  • 自动读取并解析 GenBank 格式文件 使用 Biopython 库的 SeqIO 模块读取 GBK 文件,自动解析注释信息和序列内容,确保提取位置准确。
  • 构建带注释信息的 FASTA 格式输出 提取的每条序列会以 FASTA 格式输出,标题中包含 feature 的 locus_tagproduct 注释,便于后续分析和追踪来源。
  • 可灵活用于多种基因组注释处理场景 脚本适用于细菌、病毒、原核和部分真核生物的注释信息提取,广泛用于功能基因挖掘、rRNA/tRNA 分析、下游功能注释等生物信息学流程中。

安装biopython模块:

代码语言:javascript
代码运行次数:0
运行
复制
# 使用pip安装
pip install biopython
# 使用conda安装
conda install -c bioconda biopython

查看脚本帮助文档:

代码语言:javascript
代码运行次数:0
运行
复制
python Gbk_extea_nucleotide.py -h

脚本使用方法:

1)脚本准备文件如下图所示

图片
图片

2)注意事项

  • 若 GBK 文件中不包含完整的基因组序列(如部分注释文件),可通过参数 -f 提供一个对应的基因组 FASTA 文件,脚本会从中提取 feature 对应的核酸序列;
  • 程序依赖于biopython模块,需要提前安装好;

实战演习

代码语言:javascript
代码运行次数:0
运行
复制
# 提取CDS序列以及注释信息
python Gbk_extea_nucleotide.py -g NC_000913.gbk -t CDS -o NC_000913_cds.fnn
# 提取rRNA序列以及注释信息
python Gbk_extea_nucleotide.py -g NC_000913.gbk -t rRNA -o NC_000913_rRNA.fnn
# 提取tRNA序列以及注释信息
python Gbk_extea_nucleotide.py -g NC_000913.gbk -t tRNA -o NC_000913_tRNA.fnn

结果展示

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档