首页
学习
活动
专区
圈层
工具
发布

脚本分享—根据序列ID从fasta文件提取特定的序列

脚本简介: 本脚本旨在根据指定ID从FASTA文件中提取对应的序列,并输出为新的FASTA格式。...是一个常用的序列筛选工具,适用于各种生物信息学数据处理场景 主要用途: 快速从FASTA文件中提取多个特定ID的序列; 使用 -i 参数直接输入多个ID; 或使用 -l 参数指定一个ID列表文件。..._00001 gene_00004 gene_00006 # 如果提取的序列较多,可以将待提取的ID存入文件中,每一行是一个序列id python Extract_fasta_by_id.py -a ASM584v2..._protein.faa -l ASM584v2_list.tsv # 脚本默认只提取序列和序列ID,不包含序列后的注释信息,可以使用 python Extract_fasta_by_id.py -a...无需解压,直接提取 python Extract_fasta_by_id.py -a ASM584v2_protein.faa.gz -l ASM584v2_list.tsv # 如果提供的序列ID fasta

52710

脚本分享—从fasta格式文件中批量提取特定位置的序列

脚本简介: 这个脚本主要用于从FASTA格式文件中批量提取指定位置的序列,可以应用在很多不同场景,比如: 提取基因内部特定区域的序列,例如用于分析蛋白质或核酸的二级结构区域; 设计引物时,截取目标区域的序列作为模板...; 需要对特定区域进行比对或变异分析时,快速提取目标序列; 亚细胞定位预测后,提取对应区域的序列进行进一步研究; 根据BLAST比对结果,批量提取匹配到的特定序列; 批量提取UTR区域、基因间隔区等非编码序列...; 批量提取基因启动子区域序列,便于启动子分析; 从基因组中提取基因簇等大段连续序列; 提取各类移动元件序列或特定基因,比如基因组岛、前噬菌体、整合子、插入序列、操纵子区域,以及像16S rDNA这样的功能基因...总之,通过这个脚本,用户可以根据自己的研究需要,从FASTA文件中灵活、精准地提取指定区间的序列,广泛应用于各种生物信息学分析工作中。...: 1)脚本准备文件如下图所示 2)fasta文件详解 3)提取位置文件详解 实战演习 python Extract_fasta_by_site.py sequence.fasta site_list.tsv

93610
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    生物信息学常见数据格式

    生物信息学里常见的数据格式主要有fasta,fastq,gff/gtf。 1 FASTA FASTA是一种基于文本用于表示核酸序列或蛋白质的氨基酸序列的格式。...下面举几个例子 核酸序列 我们以人类血红蛋白α亚基的mRNA序列为例 图源NCBI 点击红框中的FASTA可查看其FASTA格式,如下 >gi|13650073|gb|AF349571.1| Homo...氨基酸序列 同样以人类血红蛋白α亚基的序列为例 图源NCBI 点上面的FASTA即可查看其FASTA格式,如下 >sp|P69905.2|HBA_HUMAN RecName: Full=Hemoglobin...中的Y坐标 length=101:长度为101 第2行: 序列行,一般用ATCGN来表示,其中N表示荧光信号干扰无法判断到底是哪个碱基。...0表示这个region的第1bp就是正好是密码子的第1个碱基; 1表示这个region的第2bp就是正好是密码子的第1个碱基; 2表示这个region的第3bp就是正好是密码子的第1个碱基; attribute

    1.1K30

    lncRNA组装流程的软件介绍之seqtk

    seqtk基于C语言编写的软件,运行速度极快,极大的提高工作效率。seqtk日常序列的处理包括,比如:fq转换为fa,格式化序列,截取序列,随机抽取序列等。...extract subsequences from FASTA/Q # 提取子序列 fqchk fastq QC (base/quality summary) # fastq...-s100 Sample_R1.fq.gz 10000 # 可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。...3. subseq 提取序列 # 根据输入的bed文件信息,将固定区域的序列提取出来: seqtk subseq in.fa reg.bed > out.fa # 根据输入的name list,提取相应名称序列...截取序列 # 切除reads的前5bp,以及后10bp: seqtk trimfq -b 5 -e 10 in.fq > out.fq 更多使用方法参考: https://www.jianshu.com

    1.4K10

    杂记:ggpairs更改配色;ggplot2极坐标添加直线;seqkit计算fasta序列的长度和gc含量

    计算gc含量 seqkit.exe fx2tab --name --only-id --gc output.fasta -o gc.txt ?...image.png 计算序列长度 seqkit.exe fx2tab --name --only-id -l output.fasta -o seqlen.txt ?...image.png ggplot2 作图 极坐标情况下添加直线 自己没有想法如何实现,搜索引擎搜索关键词 ggplot2 polar and then add straight lines找到参考链接...image.png 欢迎大家关注我的公众号 小明的数据分析笔记本 小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、...群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

    2K30

    seqtk—抽取随机序列

    FastQ文件 首选我们要了解fastq文件——FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。...FASTQ格式常以四部分组成: 第一部分:以@开头紧接着是序列的标识符和可选择的描述信息。和fasta格式的第一行相似。...第二部分:是原始序列信息 第三部分:以+开始,后面可再接与第一部分相同的序列标识符或者描述信息。一般都只是一个+ 第四部分:以ASCII字符表示第二行碱基序列的测序质量。...抽样示例 其余用法: FASTQ 转 FASTA 保留序列名称和质量值信息(可选): seqtk seq -A input.fastq.gz > output.fasta 截取序列子区间 提取每条序列的第...10 到 100 个碱基: seqtk subseq input.fasta 10-100 > output_sub.fasta 过滤短序列 保留长度 ≥ 50 bp 的序列: seqtk seq

    55100

    根据坐标在基因组上面拿到碱基序列来设计引物

    做DNA测序的朋友们一般来说,都会拿到突变位点信息,不管是SNV还是INDEL,都是一个基因组上面的坐标而已。...而高通量测序的结果通常是需要做一下实验验证,最常见的就是sanger测序啦,需要设计引物来捕获一下突变位点附近的序列信息,查看是否该位点真的具有突变信息。...如果仅仅是一两个位点, 我们可以很容易通过各种各样的网页工具去查询到它的序列信息,但是高通量测序的结果往往是成千上万的,就算是节省成本,一般来说也会挑选100个左右的位点拿去设计引物进行sanger测序...文件或者txt文件,通常不会选择fasta文件,因为绝大部分没有生物信息学背景的生物学家其实不懂它。...碱基序列都提取出来啦,就可以根据这些序列去设计引物做sanger测序验证。

    1.7K51

    HOMER - motif 挖掘和分析

    输入类型: 基因组区域:提供BED格式的peak文件(如ChIP-seq的peak区域),HOMER会从参考基因组FASTA文件中提取对应序列。...默认假设输入是基因组坐标文件(如 ChIP-seq 峰值文件),并提取这些坐标附近的启动子序列(通常是转录起始位点上游 1000 bp 到下游 100 bp)进行 motif 分析。...输入: 可以是基因组坐标文件(如 BED 或 peak 文件)。 也可以是 FASTA 文件(直接分析序列中的 motif)。...默认行为: 如果输入是基因组坐标文件,HOMER 会提取每个坐标附近的启动子序列。 如果输入是 FASTA 文件,HOMER 会直接分析这些序列中的 motif。...不支持直接输入 FASTA 文件。 默认行为: 从基因组中提取输入坐标对应的序列。 默认使用 -size 200,即从每个坐标的中心向两侧各扩展 100 bp,提取 200 bp 的序列。

    1.3K10

    fastafastq文件处理的瑞士军刀-seqtk

    Seqtk简介及安装 Seqtk是Heng Li(https://github.com/lh3)大神开发的一款用于处理fasta/fastq文件的工具,因其操作轻便且跨平台,继而受到广大科研人员的青睐,...-L INT 丢弃长度小于一定长度的序列 -c 互补 -r 反向互补 -A 强制将序列转化为FASTA格式...(-L),并将质量值小于一定值的碱基进行mask(-q),并生成fasta文件(-A) # 质量值小于20的碱基都变成了小写,长度小于100bp的序列不会被输出> seqtk...(0.4)的子序列 # 以10为种子,提取全部序列的40%> seqtk sample -s 10 test.fq 0.4@A00679:63:HGVWCDSXX:4:1271...1,然后输出N在序列中的坐标> seqtk cutN -n 1 -g testN.faA00679:63:HGVWCDSXX:4:1271:5927:18176 33 37A00679:63:HGVWCDSXX

    2.8K20

    QUAST:评估基因组组装效果

    对于一个组装出来的序列,不论是contig还是scaffold, 首先将各个序列根据长度从大到小排序,然后从第一个序列开始,将长度进行累加,直到累加的长度超过了总长度的50%,此时,最后一个累加的contig...只需要上传fasta格式的contig或者scaffold序列,然后提交即可。...在线服务虽然方便,但是也是有限制的,上传的fasta文件大小不能够超过100Mb,对于实际的基因组项目而言,当是不能满足要求。此时,可以下载软件到本地服务器,然后运行。...用法如下 python quast.py -t 10 -o test1_out contigs.fasta -t参数指定线程数,-o参数指定输出结果的目录。...GC含量分布图 窗口的GC含量分布图,quast将每个contig划分为长度100bp的窗口,统计每个窗口的GC含量, 横坐标为GC含量,纵坐标为窗口个数, 示意图如下 ?

    7K20

    四种获取fasta序列长度的方法

    在处理fasta序列的时候,我们经常需要获取每一条fasta序列的长度。今天小编就跟大家来分享四种获取fasta序列长度的方法。 一、awk awk '/^>/{if (l!...#提取前两列 cut -f1-2 test.fasta.fai 生成的.fai文件如下,前两列正好就是fasta序列的名字和长度。....fai文件的每一列的具体含义 第一列 NAME : 序列的名称,只保留“>”后,第一个空白之前的内容; 第二列 LENGTH: 序列的长度, 单位为bp; 第三列 OFFSET :...第一个碱基的偏移量, 从0开始计数,换行符也统计进行; 第四列 LINEBASES : 除了最后一行外, 其他代表序列的行的碱基数, 单位为bp; 第五列 LINEWIDTH : 行宽, 除了最后一行外..., 其他代表序列的行的长度, 包括换行符, 三、seqkit conda install seqkit seqkit fx2tab --length --name --header-line test.fasta

    2.7K30

    简便的植物小RNA分析神器psRNATARGET

    FASTA中的ID长度不超过50个字符 用户提交目标候选序列格式要求 用户在这一部分上传潜在靶基因。一个标准的转录本可以是一个cDNA,EST,unigene,mRNA,基因段。...上传序列的格式要求: 一个有效的序列只能是FASTA格式 流程一次最多可以分析5 M的目标候选序列,最大提交大小为1000 MiB(真正的 1 G)。...NGS所获得的miRNA序列,用户应先把其转变成FASTA或short tags。用户需要缩减序列的长度来保证这些序列的长度保持在19到25个碱基。进一步删除冗余数据降低文件的大小。...这种方法的一个重要特点是种子序列的大小只有2-8bp,并且没有对种子序列的错配数限制。...在V2版本中,种子序列长度扩展到了2-13 bp,种子序列错配最大数(除了G-U)被限制到了2个。

    12.5K52

    更快的处理bam数据—Sambamba

    在运行 sambamba index 之前,BAM 文件必须已经按照参考序列的坐标进行了排序。...如果你需要为FASTA 文件创建索引(例如,基因组参考序列),则需要使用此选项 view — 查看、过滤 主要用于高效地过滤 BAM 文件以及访问 SAM 头部信息和参考序列信息。...这允许精确指定想要提取的序列区域。 对于那些没有参考序列的读取,可以使用特殊的区域 '*' 来指定。...该参数允许用户基于复杂的区域列表进行操作,而不用手动指定每个区域 -F, --fasta-input: #显示指定输入文件为 FASTA 格式 flagstat — 统计 从read flags 中提取和输出统计信息...: 窗口的宽度,以碱基对(bp)为单位(必需);这定义了计算覆盖度的窗口大小 --overlap=OVERLAP: 连续窗口之间的重叠,以碱基对(bp)为单位(默认是0);这可以帮助平滑覆盖度的变化 -

    4K10

    一文读懂Prodigal教程

    然而,Genbank 和 EMBL 解析器并不复杂,也没有经过彻底的测试,因此我们建议尽可能使用 FASTA。 -o 选项指定输出文件(基因坐标),_-a_ 选项指定写入蛋白质翻译的位置。...seqlen:序列中的碱基数。 seqhdr:整个 FASTA 标头行。 version:用于分析此序列的 Prodigal 版本。...Prodigal 从 FASTA 标头中提取第一个单词,并将其用作其 ID。此 ID 不保证是唯一的(文件中各种标头的第一个单词可能相同),因此我们建议用户改用分号分隔的字符串中的“ID”字段。...FASTA 标头以文本 ID 开头,该文本 ID 由原始 FASTA 序列标头的第一个单词组成,后跟下划线,后跟蛋白质的序数 ID。...;rbs_motif=GGA/GAG/AGG;rbs_spacer=5-10bp;g c_cont=0.528 标题中接下来的三个字段(用“#”号分隔)是基因组中最左边的坐标、最右边的坐标和链(1 表示正向链基因

    1K10

    用 Python 玩转常用生物序列

    一、准备工作 1、获取感兴趣的基因,蛋白质,转录本等生物序列 FASTA 或 GenBank 这里举例,进入 NCBI 获取的GeneBank / FASTA 的数据格式 比如查看 POU5F1 基因...", "fasta") # =====获取详细的信息===== # 提取基因ID,name # Fasta 文件中序列名所在行的第一个词被作为 id 和 name print ("id: ", fa_seq.id...(gb_seq) # =====获取详细的信息===== # 提取基因ID,name # gb文件中序列名包含比fasta更加详细的序列信息,下面分别是 id 和 name print ("id:...这就使fasta成为我们一般在序列分析中常用的格式。...# =====寻找TATA框===== # TATA框约在多数真核生物基因转录起始点上游约-30bp(-25~-32bp)处,基本上由A-T碱基对组成,是决定基因转录始的选择,为RNA聚合酶的结合处之一

    2.2K30

    生物信息中的Python 02 | 用biopython解析序列

    接下来我们试着使用它来实现简单的序列处理。 一、准备工作 1、 按照上一篇下载fasta文件的步骤,可以同理得到GeneBank的数据格式 ?...格式文件 fa_seq = SeqIO.read("res/sequence1.fasta", "fasta") # =====获取详细的信息===== # 提取基因ID,name # Fasta...("res/sequence1.gb", "genbank") print (gb_seq) # =====获取详细的信息===== # 提取基因ID,name # gb文件中序列名包含比fasta...这就使fasta成为我们一般在序列分析中常用的格式。...# =====寻找TATA框===== # TATA框约在多数真核生物基因转录起始点上游约-30bp(-25~-32bp)处,基本上由A-T碱基对组成,是决定基因转录始的选择,为RNA聚合酶的结合处之一

    2.5K10

    生信菜鸟团博客2周年精选文章集(6)三个最基础生信软件教程

    fasta文件,可以随便找两个fa文件做测试 三:运行命令 1,建库,用makeblastdb,标准是 makeblastdb -in db.fasta -dbtype prot -parse_seqids...随便打开一个fastq文件可以看到,它的读长是300bp ?...这个图其实很容易看,就是100bp长度reads上的1-100的坐标在这四千万条reads里面的测序质量的箱线图,看那个红线均值就可以了,超过Q30就蛮好了,超过Q20也是合格的 3,碱基(A,T,C,...这也是100bp长度reads上的1-100的坐标在这四千万条reads里面的A,T,C,G的比例,如果是全基因组全转录组的随机打断,那么就应该A,T,C,G的比例都接近于25%,如果测序是有目的性的,...可以看到大多reads都是100bp长度,很整齐 6,可能的重复序列表格 ? 可以看到这些重复序列比例很高,高达千分之一,而且被注释了可能的来源,adapter,是需要去除的。

    1.3K110

    如何快速从基因组中提取基因、转录本、蛋白、启动子、非编码序列?

    NGS基础 - GTF/GFF文件格式解读和转换这篇文章有读者留言想要提取外显子,内含子,启动子,基因体,非编码区,编码区,TSS上游1500,TSS下游500的序列。...下面我们就来示范如何提取这些序列。 NGS基础 - 参考基因组和基因注释文件提到了如何下载对应的基因组序列和基因注释文件。...查看下文件内容和格式 基因组序列文件为FASTA格式,查看命令和内容如下(测试文件,只有1条染色体): # 查看前10行,每行查看前40个字符 # FASTA序列一般比较长,查看前面一部分字符是一个常用的方式...首先确定启动子区域,这里定义转录起始位点上游1000 bp和下游500 bp为启动子区域。...提取基因序列的操作也类似于提取启动子序列。

    6K10

    基因组重测序的unmapped reads assembly探究 【直播】我的基因组86

    在前面的直播基因组系列,我们讲解过那些比对不少我们人类的参考基因组序列的数据,其实可以细致的进行探究。...直播】我的基因组(十五):提取未比对的测序数据 这里主要参考这篇文章的图4:http://www.nature.com/ng/journal/v42/n11/figtab/ng.691F4.html...,但毕竟是2010年的文章了,现在其实有更好的选择,比如Minia 选择Minia工具来组装 Minia软件也是基于de Bruijn图原理的短序列组装工具,优于以前的ABySS和SOAPdenovo,...使用 step1:提取比对失败的reads samtools view -f4 jmzeng_recal.bam |perl -alne '{print "\@$F[0]\n$F[9]\n+\n$F[10...Minimum length: 63 bp Maximum length: 10,187 bp Length range: 10,125 bp Mode length: 150 bp with 16,461

    2.1K160
    领券