01
CRISPR简介
CRISPR也即Clustered regularly interspaced shortpalindromicrepeats(成簇的、规律间隔的、短回文、重复序列),由回文重复序列repeats及其间隔序列spacer组成,是大多数细菌及古细菌中的一种获得性免疫方式。在CRISPR特征序列附近还有一些CRISPR-associated基因,编码一系列Cas蛋白,合称CRISPR/Cas系统。间隔序列来自于外来入侵DNA,作为识别外来入侵者身份的指纹,其在入侵DNA上对应的为原间隔序列(protospacer),作为身份识别的原间隔序列其特点为两端延伸的临近序列十分保守,称为原间隔序列临近基序(protospacer adjacentmotif,PAM)。
病毒(噬菌体)、质粒等外源DNA首次侵入细胞时,Cas1和Cas2编码的蛋白将扫描这段外源DNA,并识别出保守的PAM区域,然后将临近PAM的非保守的DNA序列作为候选的原间隔序列。随后,Cas1/2蛋白复合物将原间隔序列从外源DNA中剪切下来,并在其他酶的协助下将原间隔序列插入临近CRISPR序列前导区的下游。然后,DNA会进行修复,将打开的双链缺口闭合。这样一来,一段新的间隔序列就被添加到了基因组的CRISPR序列之中,形成了对病毒DNA的免疫“记忆”。
当外源DNA再次入侵时,CRISPR/Cas系统会根据第一次入侵形成的免疫“记忆”对外源DNA进行精确打击,这一过程分两步进行——crRNA的合成及在crRNA引导下的RNA结合与剪切,具体机制下所示:
①crRNA的生物学合成
CRISPR区域第一个重复序列上游有一段CRISPR的前导序列,该序列作为启动子来启动后续CRISPR序列的转录,转录成两种RNA,pre-CRISPR-derived RNA(pre-crRNA)和trans-acting crRNA(tracrRNA)。其中,tracrRNA是仅由重复序列区转录而成的具有发卡结构的RNA,而pre-crRNA是由整个CRISPR序列转录而成的大型RNA分子,pre-crRNA在重复序列处被切开进而形成crRNA。
②sRNA的结合与剪切
CRISPR/Cas系统中crRNA与tracrRNA(反式激活的crRNA)形成嵌合RNA分子,即单向导RNA(Single guide RNA, sgRNA)。sgRNA可以介导Cas9蛋白在与间隔序列匹配处进行切割,从而分解外源DNA。
根据功能元件的不同,CRISPR/Cas系统可以分为I类系统、II类系统和III类系统。这三类系统又可以根据其编码Cas蛋白的基因不同而分为更多的亚类。不同类型CRISPR/Cas系统完成干扰的步骤也有所不同。
02
CRISPR预测
原核生物基因组中可能多处存在CRISPR序列,其预测注释可以使用CRISPRfinder(http://crispr.i2bc.paris-saclay.fr/Server/)在线分析,提交序列后会给出确定的CRISPR序列与可能的CRISPR序列,如下所示:
其中左边的为回文重复序列,右边为不同的spacer序列。
2019年CRISPRfinder推出了新版本的CRISPRCasFinder,在预测CRISPR的同时还能找出Cas酶,且可以本地运行(https://crisprcas.i2bc.paris-saclay.fr)。软件及数据库下载地址:https://crisprcas.i2bc.paris-saclay.fr/Home/Download。
在CentOS环境下,需要预先安装以下软件:
yum (http://yum.baseurl.org/)
Vmatch version 2.3.0 (http://www.vmatch.de/download.html)
Vmatch下载安装如下所示:
wget -chttp://www.vmatch.de/distributions/vmatch-2.3.0-Linux_x86_64-64bit.tar.gz
需要将vmatch、mkvtree、vsubseqselect命令分别改为vmatch2、mkvtree2、vsubseqselect2。
EMBOSS version 5.0.0 or upper (http://emboss.sourceforge.net/)
Prodigal version 2.6.3 (https://github.com/hyattpd/Prodigal)
MacSyFinder version 1.0.5 (https://github.com/gem-pasteur/macsyfinder)
MacSyFinder下载如下所示:
wget -c https://dl.bintray.com/gem-pasteur/MacSyFinder/macsyfinder-1.0.5.tar.gz
Muscle version 3.8.31 (http://www.drive5.com/muscle)
BioPerl version 1.6.2 or upper (http://bioperl.org/)
clustalW version 2.1 (http://www.clustal.org/download/current/)
CRISPRCasFinder安装方法如下所示:
unzipCRISPRCasFinder.zip
依次安装上述的依赖软件以及依赖包,可以运行perl CRISPRCasFinder.pl -v查看缺少哪些perl模块,然后使用cpanm进行安装,例如:cpanm JSON::Parse。安装完成后即可使用主程序CRISPRCasFinder.pl。使用方法如下所示:
perl CRISPRCasFinder.pl [options] -in <filename.fasta>
-in:输入序列,fasta格式,后缀可以是.fasta、.fna、.mfa、.fa、.txt
-out:输出结果路径
-keep:保留过程文件,Prodigal/Prokka、CasFinder、rawFASTA、Properties
-html:输出HTML网页格式的结果
-so:sel392v2.so文件的路径(这个文件干么的我也不知道,在软件包中有提供)
-mSS:CRISPR-Cas系统的序列最短长度
检测CRISPR阵列:
-md:CRISPR重复序列之间允许的错配比例,默认为20
-t:截短的CRISPR重复序列允许的错配比例,默认为33.3
-mr:重复序列的最短长度,默认为23
-xr:重复序列的最长长度,默认为55
-ms:spacer的最短长度,默认为25
-xs:spacer的最长长度,默认为60
-n:不允许重复序列的错配
-pm:spacer与重复序列长度比的最小值,默认为0.6
-px:spacer与重复序列长度比的最大值,默认为2.5
-s:spacer之间相似度的最大值,默认为60
-cpuP:程序运行使用的CPU数目,默认为1
-meta:分析宏基因组序列
-gcode:密码子表,默认为大多数细菌所使用的密码子表11
-gscf:允许总结Cas-finder的文件并复制到TSV结果
-cas:使用Prokka搜寻相应的case酶基因
-ccvr:输出CRISPR-Cas临近报告,必须设置-cs
-cpuM:允许MacSyFinder使用的CPU数目,默认为1
-ccc:允许对CRISPR与Cas进行分类
-def:更严格还是更不严格,默认为SubTyping
具体使用如下所示:
perl CRISPRCasFinder.pl -so sel392v2.so -in armatimo_genomic.fna -out armatimo_crispr_cas -def General -cas -ccvr -ccc -gscf -keep -html -cpuM 11 -cpuP 11
注意,有时可能会因为内存问题中断,这时建议使用单核运行。结果文件夹如下所示:
其中CRISPRFinderProperties中为每个contigs上面预测的CRISPR,rawCas.fna为汇总的Cas基因,rawCRISPRs.fna为汇总的CRISPR序列,Visualization中为网页格式的可视化结果。
END