前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Kneaddata数据质控

Kneaddata数据质控

作者头像
生信喵实验柴
发布2023-02-24 13:16:10
8480
发布2023-02-24 13:16:10
举报
文章被收录于专栏:生信喵实验柴

一、下载案例数据

网址:

代码语言:javascript
复制
https://github.com/biobakery/biobakery

案例文章:

代码语言:javascript
复制
https://www.nature.com/articles/nature11234

该案例来自 HMP 计划,选取 10 个口腔黏膜(buccal mucosa)样品和 10 个舌头背面( tongue dorsum)样品进行比较分析。

代码语言:javascript
复制
#/share/home/xiehs/17.meta/data/hmp

buccal_mucosa_samples="SRS013506 SRS015374 SRS015646 SRS017687 SRS019221 SRS019329 SRS020336 SRS022145 SRS022532 SRS045049"
for s in ${buccal_mucosa_samples}
do
    wget http://downloads.hmpdacc.org/data/Illumina/buccal_mucosa/${s}.tar.bz2 -O input/${s}.tar.bz2
done
tongue_dorsum_samples="SRS011243 SRS013234 SRS014888 SRS015941 SRS016086 SRS016342 SRS017713 SRS019219 SRS019327 SRS043663"
for s in ${tongue_dorsum_samples}
do
    wget http://downloads.hmpdacc.org/data/Illumina/tongue_dorsum/${s}.tar.bz2 -O input/${s}.tar.bz2
done
#解压
cd input
id="SRS013506 SRS015374 SRS015646 SRS017687 SRS019221 SRS019329 SRS020336 SRS022145 SRS022532 SRS045049 SRS011243 SRS013234 SRS014888 SRS015941 SRS016086 SRS016342 SRS017713 SRS019219 SRS019327 SRS043663"
for s in ${id}
do
    tar -jxvf ${s}.tar.bz2
done
代码语言:javascript
复制
vi matadata.txt
#写进如下内容
ID  type
SRS013506   BM
SRS015374   BM
SRS015646   BM
SRS017687   BM
SRS019221   BM
SRS019329   BM
SRS020336   BM
SRS022145   BM
SRS022532   BM
SRS045049   BM
SRS011243   TD
SRS013234   TD
SRS014888   TD
SRS015941   TD
SRS016086   TD
SRS016342   TD
SRS017713   TD
SRS019219   TD
SRS019327   TD
SRS043663   TD

二、KneadData 数据质控

kneaddata 是一个数据质控过滤流程,软件整合了 fastqc 质控,trimmomatic 数据过滤,bowtie2 比对数据库过滤宿主等功能。输入原始数据,即可得到处理好的 cleandata,直接用于后面的分析。默认集成人,小鼠,rRNA 等数据库。如果是其他宿主,可以自行建库。

文档:

代码语言:javascript
复制
https://github.com/biobakery/kneaddata
代码语言:javascript
复制
conda activate biobakery
vi kneadata.sh #编辑如下内容进脚本
kneaddata  -i1 /share/home/xiehs/17.meta/data/hmp/input/SRS011243/SRS011243.denovo_duplicates_marked.trimmed.1.fastq \
    -i2 /share/home/xiehs/17.meta/data/hmp/input/SRS011243/SRS011243.denovo_duplicates_marked.trimmed.2.fastq \
    -db /share/home/xiehs/17.meta/database/kneadData_databases/human_genome_bowtie2/Homo_sapiens \
    -o kneaddata_output --remove-intermediate-output -v -t 12 \
    --trimmomatic /share/home/xiehs/Software/miniconda3/envs/biobakery/share/trimmomatic/ --trimmomatic-options \
    'ILLUMINACLIP:/share/home/xiehs/Software/miniconda3/envs/biobakery/share/trimmomatic/adapters/TruSeq3-PE.fa:2:40:15 SLIDINGWINDOW:4:20 MINLEN:50' \
    --reorder --bowtie2-options '--very-sensitive --dovetail' --run-fastqc-start --run-fastqc-end
#集群命令
#bsub -q fat -n 12 -o %J.log -e %J.err sh kneadata.sh
#没有的话就nohup sh执行到后台
nohup sh kneadata.sh &

写在最后:有时间我们会努力更新的。大家互动交流可以前去论坛,地址在下面,复制去浏览器即可访问,弥补下公众号没有留言功能的缺憾。

代码语言:javascript
复制
bioinfoer.com

有些板块也可以预设为大家日常趣事的分享等,欢迎大家来提建议。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档