前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文献笔记三十三:结合二代三代测序数据组装叶绿体基因组

文献笔记三十三:结合二代三代测序数据组装叶绿体基因组

作者头像
用户7010445
发布2020-03-03 15:06:22
2K0
发布2020-03-03 15:06:22
举报
文章

Assembly of chloroplast genomes with long- and short-read data: a comparison of approaches using Eucalyptus pauciflora as a test case 2018 BMC Genomics Australian National University

研究内容

Eucalyptus pauciflora为例,探索组装叶绿体基因组最有效的方法

DNA提取测序
  • 二代测序 leaves total DNA 150bp paired-end sequencing with a roughly 400 bp insert size 质控
  • 三代测序 High molecular weight DNA Libraries were prepared according to the ONT 1D ligation library protocol. 质控
组装方法
  • 二代测序数据 unicycler软件
  • 三代测序数据 Hinge软件:an assembler designed for solving the long repeats problem in long-read assemblies of circular genomes Canu软件
  • 结合二代三代数据 unicycler软件
软件安装
  • unicycler
代码语言:javascript
复制
## 创建虚拟环境
conda create -n chloroAssembly python=3.6
conda activate chloroAssembly
conda install unicycler
###删除虚拟环境 conda remove -n chloroAssembly --all
试着运行unicycler软件主页中的例子

https://github.com/rrwick/Unicycler 使用的数据可以在软件主页找到下载链接

代码语言:javascript
复制
unicycler -1 short_reads_1.fastq -2 short_reads_2.fastq -l long_reads_high_depth.fastq -o output_dir -t 16

数据是Helicobacter pylori,在NCBI查了一下基因组大小1,667,867bp,使用unicycler的组装结果

代码语言:javascript
复制
grep ">" assembly.fasta
>1 length=1645796 depth=1.00x circular=true

稍微有点差别,可能是不同的株系吧我猜

graph.png

下载Eucalyptus pauciflora的全基因组测序数据
三代测序数据
代码语言:javascript
复制
wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR715/SRR7153095/SRR7153095.sra
fasterq-dump SRR7153095.sra -p

检查三代测序数据质量,使用到的是fastqc软件,原来fastqc软件还可以用于三代测序数据

代码语言:javascript
复制
mkdir qcResult
fastqc SRR7153095.sra.fastq -o qcResult -t 8

去除接头,用到的软件是porechop https://github.com/rrwick/Porechop

代码语言:javascript
复制
conda install porechop
porechop -i SRR7153095.sra.fastq -o longReadsRemoveAdapter.fastq -t 8

数据过滤,质量值大于9,最小长度5000,使用到的软件是nanofilt

代码语言:javascript
复制
conda install nanofilt
bgzip longReadsRemoveAdapter.fastq
zcat longReadsRemoveAdapter.fastq.gz | NanoFilt -q 9 -l 5000 > longReadsRemoveAdapterTrim.fastq
二代测序数据

数据下载

代码语言:javascript
复制
wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR715/SRR7153063/SRR7153063.sra
fasterq-dump --split-files SRR7153063.sra -p
wget ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR715/SRR7153071/SRR7153071.sra
fasterq-dump --split-files SRR7153071.sra -p

数据过滤,不按照论文中提供的脚本来了,直接使用fastq软件进行过滤了 软件主页 https://github.com/OpenGene/fastp

代码语言:javascript
复制
fastp -i SRR7153071.sra_1.fastq -I SRR7153071.sra_2.fastq -o shortReads71_R1.fastq -O shortReads71_R2.fastq
fastp -i SRR7153063.sra_1.fastq -I SRR7153063.sra_2.fastq -o shortReads63_R1.fastq -O shortReads63_R2.fastq
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小明的数据分析笔记本 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章
  • 研究内容
  • DNA提取测序
  • 组装方法
  • 软件安装
  • 试着运行unicycler软件主页中的例子
  • 下载Eucalyptus pauciflora的全基因组测序数据
    • 三代测序数据
      • 二代测序数据
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档