作者 | 董靖鑫
CRISPR系统的关键在于能够识别可以高效切割的目标位点,以及候选gRNA在其他基因组位置几乎或没有切割的目标位点。位点导向突变的靶向效率高度依赖于sgRNA,并且沿着靶标DNA方向微小的位置变动足以以不可预知的方式改变sgRNA的功能。因此,设计有效的sgRNA用于可靠的基因敲除实验至关重要。理想的gRNA应该最大限度地提高靶上活性(诱导效率),同时最大限度地减少潜在的脱靶效应(诱导特异性)。近年来,涌现出一些辅助gRNA设计的计算工具,这些工具旨在帮助研究人员选择可用的最佳靶点。本文关注范围仅是利用深度学习方法解决该问题的计算工具。
1. DeepCpf1-首次应用深度学习算法进行该任务的尝试
论文题目:Deep learning improves prediction of CRISPR–CPf1 guide RNA activity
发表单位:延世大学,首尔国立大学,汉阳大学等
论文地址:https://www.nature.com/articles/nbt.4061
数据链接:http://www.ncbi.nlm.nih.gov/sra/
代码链接:https://github.com/MyungjaeSong/Paired-Library
Web服务:http://deepcrispr.info/
1. 贡献
提出了两种算法来预测AsCpf1引导RNA的活性:
2. 动机
作者先前开发一个机器学习(非深度学习)算法预测基于靶向序列位置的AsCpf1的活性,这篇工作是以先前工作为原型结合神经网络提高预测的AsCpf1活性的准确率。
3. 方法
图1.1 Seq-deepCpf1架构
Seq-deepCpf1是一种基于卷积神经网络(CNN)的端到端深度学习框架,通过以下过程预测AsCpf1 indel效率:
4. 结果
图1.2 Seq-deepCpf1与传统机器学习方法比较
结论一:该方法在基于目标序列预测Cpf1活性方面优于传统机器学习方法。
图1.3 考虑染色质可及性的DeepCpf1与其他方法比较
(a) DeepCpf1与其他预测模型在HEK293T细胞(左,n = 55个独立靶点)和HCT116细胞(右,n = 66个独立靶点)中的性能比较。柱状图显示了测量indel效率和预测活动得分之间的斯皮尔曼相关性。为了清晰,结果从统计显著性检验只显示DeepCpf1与Seq-deepCpf1以及DeepCpf1与次优模型。
(b,c) DeepCpf1预测得分与HEK293T细胞(b, n = 55个独立靶点)和HCT116细胞(c, n = 66个独立靶点)内源性靶点indel效率排名的相关性。使用n - 2自由度的学生t检验得到的斯皮尔曼相关(r)和P值(P)显示。
(d)不同模型和数据集之间的Spearman相关系数热图。测试数据集是垂直排列的,而预测模型是水平排列的。括号中显示的是分析的靶点数量,AsCpf1和引导RNA传递的方法,以及使用的细胞系。每个交叉阴影框代表一个模型的斯皮尔曼相关性,该模型根据包括自己的训练数据集的测试数据集进行评估。增强RT,梯度增强回归树。
结论二:考虑染色质可及性显著提高了Cpf1内源性靶点活性的预测。
2. DeepCrispr-将靶上位点预测和脱靶位点预测整合到一个框架中
论文题目:DeepCRISPR: optimized CRISPR guide RNA design by deep learning
发表单位:同济大学,上海第十人民医院,阿斯利康等
论文地址:https://link.springer.com/article/10.1186/s13059-018-1459-4
代码链接:https://github.com/bm2-lab/DeepCRISPR
详细笔记(搬运):https://qinqianshan.com/biology/rna/deepcrispr/
1. 贡献
2. 动机
预先准确预测sgRNA的靶上敲除效果和脱靶位点优化sgRNA的设计,有助于CRISPR-Cas9在基因编辑上的应用。先前的研究尝试复杂的学习模型进行靶上敲除效果的预测和脱靶预测,但没有方法能彻底解决这些问题。
3. 方法
图2.1 DeepCrispr架构 a 一个sgRNA的编码模式。将每个DNA区域视为一张8通道图像,核苷酸序列由四个通道表示,即A通道、C通道、G通道和T通道,每个表观遗传特征被视为一个通道。b 靶向药效预测的训练细节。c 基于数十亿的全基因组sgRNA序列的无监督深度表征学习。d 脱靶预测的训练细节
DeepCrispr包含以下三个过程:
4. 结果
图2.2 靶向敲除效果结果对比
图2.3 脱靶位点预测结果对比
3. DeepCas9-可视化对预测sgRNA活性具有重要意义的DNA核苷酸序列的位置
论文题目:Prediction of CRISPR sgRNA Activity Using a Deep Convolutional Neural Network
发表单位:西南医科大学,希望之城国家医疗中心
论文地址:https://pubs.acs.org/doi/full/10.1021/acs.jcim.8b00368?
代码链接:https://github.com/lje00006/DeepCas9
1. 贡献
2. 动机
受CRISPR-Cpf1利用深度学习方法提高了预测性能的鼓舞,用深度学习方法进行sgRNA活性预测。
3. 方法
图3.1 DeepCas9 架构。(a)左侧采用卷积神经网络自动学习DNA序列特征。(b)卷积运算的过程,4 × 4滤波器以步长1遍历整个输入向量,计算输出。一个过滤器可以被可视化为一个序列motif。这有助于理解过滤器在每个序列位置偏好哪种核苷酸类型
DeepCas9包含以下三个过程:
4. 结果
图3.2 DeepCas9与其他预测方法的性能比较。(a)不同算法与数据集的Spearman相关系数相对图。测试数据集是垂直排列的,而预测算法是水平排列的。对于每个数据集,实验系统以物种或细胞类型表示。每个数据集中的参考线数量显示在括号中。(b) DeepCas9在测试数据集上与不同算法的改进值
图3.3深度CNN模型揭示的重要卷积核。卷积核的长度是4个核苷酸。在输入序列的每个位置,核对不同的核苷酸类型有偏好。每次移动核时,它都会通过对输入和核位置权重的元素级乘积的和产生一个输出。不利的核苷酸会抑制输出,而有利的核苷酸会增加输出。当子序列匹配核的首选项时,该核将被激活
作者进一步可视化了对预测sgRNA活性具有重要意义的DNA核苷酸序列的位置。位置重要性由在该位置激活的核的比例决定。当核滑过原间隔和侧序列时,它的功能是motif检测器,并在特定的位置匹配它的偏好时被激活。这一过程不同于大多数将特定核苷酸或基序偏好映射到位置的方法,相当于在目标序列中扫描学习到的pwm。作者观察到,大多数核在与PAM相邻的连续区域卷积时被激活,包括位置17、18、19和20,以及PAM的不明确的核苷酸(NGG中的“N”)。这一结果表明,诱变效果与PAM相邻确定位置的核苷酸组成相关。已经有人提出,16 - 20位点,被称为种子区域,通过与Cas9蛋白识别(REC)叶内的精氨酸丰富的桥螺旋(BH)接触来确定靶向特异性引导RNA种子区和目标DNA链之间的碱基配对进一步推动目标DNA双链的逐步不稳定和定向形成的引导-RNA-目标-DNA异双链。因此,目标DNA与种子区crRNA的互补对Cas9的切割活性至关重要。
图3.4 DeepCas9在三个独立生成的CRISPRi/a数据集上的表现
4. DeepHF-为高特异性SpCas9变体设计gRNA活性预测模型
论文题目:Optimized CRISPR guide RNA design for two high-fidelity Cas9 variants by deep learning
发表单位:复旦大学,北京安贞医院
论文地址:https://www.nature.com/articles/s41467-019-12281-8
Web服务:SpCas9 & Base Editor Efficiency Prediction
代码链接:https://github.com/izhangcd/DeepHF
1. 贡献
2. 动机
设计高特异性的SpCas9变体有助于解决Crispr/Cas系统的脱靶问题。由于缺乏向导gRNA的活性知识,高特异性的SpCas9变体的应用受到限制。现有研究表明,野生型SpCas9的一些高gRNA在高特异性Cas9变体中活性较低。因此作者设计活性预测模型用于上述三种核酸酶。
3. 方法
图4.1 a. 实验设计。针对人基因组每个基因设计4个gRNA,用芯片合成gRNA极其靶序列,连接到慢病毒载体上,转染到表达Cas9的细胞中进行编辑。靶序列用PCR将扩增出来深度测序;b. 预测模型示意图。深度学习与4个生物学特征结合起来预测效果最好
图4.2 DeepHF架构
DeepHF包含以下几个过程:
4. 结果
图4.3 用Tree SHAP分析与gRNA活性相关的特征重要性。a-c通过Tree SHAP分别对WT- SpCas9、eSpCas9(1.1)和SpCas9-hf1识别出Top 20%的重要特征。左边显示了核苷酸及其位置。GG_19表示GG二聚体从位置19开始。Tm表示熔化温度
图4.4 c不同重复实验间indel频率的Pearson相关性 d三种Cas9核酸酶的gRNA活性分布
图4.5 核苷酸组成对gRNA活性的影响。a-c最高25%活性的gRNA和最低25%活性的gRNA的位置依赖的核苷酸组成。条形图显示了每个位置的核苷酸频率的对数分数。下面的数字表示核苷酸在靶标DNA上的位置。d-f每个核苷酸数与gRNA活性的关联。圆圈的大小表示indel效率
图4.6 不同算法对gRNA活性预测的性能。a 数据集原理图和常规算法。b 数据集示意图和深度学习算法。c-e采用Spearman相关系数分别对WT-SpCas9、eSpCas9(1.1)和SpCas9-HF1进行gRNA活性预测的不同算法的性能
数据表明,RNN在gRNA活性预测方面优于CNN等算法,WT-SpCas9、eSpCas9(1.1)和SpCas9-HF1的Spearman相关系数分别为0.8555、0.8491和0.8512(图5c-e;补充数据6 - 8)。CNN的WT- SpCas9、eSpCas9(1.1)和SpCas9- hf1的Spearman相关系数分别为0.8455、0.8313和0.8343,获得了与XGBoost相似的性能。结合重要的生物特征的RNN在活性预测方面优于其他模型。
5. DeepSpCas9-通过构建更大的数据集提升模型性能
论文题目:SpCas9 activity prediction by DeepSpCas9, a deep learning–based model with high generalization performance
发表单位:延世大学,首尔国立大学
论文地址:https://www.science.org/doi/full/10.1126/sciadv.aax9249
Web服务:http://deepcrispr.info/DeepSpCas9/
代码链接:https://github.com/MyungjaeSong/Paired-Library
1. 贡献
在作者先前开发的DeepCpf1的基础上,开发了一种高通量的方法DeepSpCas9在成千上万的目标序列评估SpCas9-induced indel效率,并且可以预测基于目标序列的SpCas9活性。
2. 动机
从数据的角度解决活性预测的问题,构建更大的数据库从而提升深度学习模型的表现。
3. 方法
图5.1 DeepSpCas9 工作流
DeepSpCas9包含以下几个过程:
4. 结果
图5.2 评估结果
(A)在不同大小的数据集上训练的DeepSpCas9模型的交叉验证。每个点表示测量到的indel效率与10倍交叉验证预测活性之间的Spearman相关系数(总n = 10相关系数)。
(B)基于先前报告的基于机器学习的方法的SpCas9活性预测模型的交叉验证。每个点表示测量到的indel效率与10倍交叉验证预测活性之间的Spearman相关系数(总n = 10相关系数)。最佳、次最佳和第三最佳模型之间的统计显著性显示(Steiger’s检验)。
(C) DeepSpCas9与其他预测模型的性能比较,使用数据集Endo_Cas9 (n = 124个独立目标站点)和两个发布的数据集(分别为Hart 2015和Xu 2015数据集n = 4207和2060个独立目标站点)作为测试数据集。为了清晰起见,统计测试结果只显示了DeepSpCas9与使用相同大小过滤器的深度学习、DeepSpCas9与最佳传统基于机器学习的模型、以及使用相同大小过滤器的深度学习与最佳传统基于机器学习的模型。
(D) DeepSpCas9和DeepSpCas9-CA的性能比较(染色质可及性)。DeepSpCas9-CA模型是通过使用Endo-1A数据集对DeepSpCas9模型进行微调而开发的。使用Endo-1B数据集评估DeepSpCas9(左)和DeepSpCas9-CA(右)模型的斯皮尔曼相关系数(R)。
(E) 10次迭代微调和评估的结果。每个点代表实测indel效率与预测活性之间的斯皮尔曼相关系数。共进行了10轮(= 2 × 5)的微调及后续测试结果。
图5.3 泛化性能的比较。热图显示了从DeepSpCas9和其他模型的Spearman相关系数,这些系数是水平排列的。垂直放置的测试数据集的名称包括所用细胞系或物种的信息。其他相关参数,如引导RNA表达方法,Cas9活性分析方法,以及分析的位点数量也被显示出来。每个灰框表示针对包括其自身训练数据集的测试数据
图2.3表明DeepSpCas9在使用U6启动子驱动的sgRNAs生成的数据集进行的所有7次测试中,DeepSpCas9的Spearman相关性在之前发表的9个模型中是最高的,并且与第二最佳模型相比,7次测试中的5次观察到了统计显著性。
当对使用体外转录sgRNA生成的三个数据集进行测试时,DeepSpCas9和crisprscan的Spearman相关性最高,这是为预测体外转录sgRNA活性而生成的。Doench 2016(7)和CRISPRscan(10)均未显示U6启动子驱动和体外转录sgRNAs数据集的Spearman相关性最高。这些数据表明,DeepSpCas9的泛化性能是很高的。
总之,表明开发的DeepSpCas9能准确地预测SpCas9,并且具有很好的泛化性能。
6. C-RNNCrispr-联合CNN、RNN建模优势进行靶向活性预测
论文题目:C-RNNCrispr: Prediction of CRISPR/Cas9 sgRNA activity using convolutional and recurrent neural networks
发表单位:中山大学等
论文地址:https://www.sciencedirect.com/science/article/pii/S2001037019303186
代码链接:https://github.com/Peppags/C_RNNCrispr
1. 贡献
2. 动机
CNN擅长通过权重共享策略捕捉序列数据中的局部模式,但在学习序列相关性方面表现不好。RNN在序列建模中具有良好的性能,但不能并行导出特征。CNN-RNN的联合模型可以借助双方建模能力的互补性以提升模型能力,已在其他生物信息学领域(如增强子-启动子相互作用预测,蛋白质结合特异性预测等)得到证明。
3. 方法
图6.1 C-RNNCrispr架构
C-RNNCrispr将CNN-RNN整合到一个模型中,
C-RNNCrispr包含两个分支:
表观遗传分支的结构与sgRNA分支相似,只是没有双向门控递归网络(BGRU是RNN的一种特殊变体)层。添加BGRU层的动机是它易于增强序列特征之间的相关性。将两个并行GRU的输出进行串联,得到包含sgRNA序列前向和后向信息的最终特征表示。
预训练及微调:
除了sgRNA分支和表观遗传分支的最后两层全连接层,以及C-RNNCrispr的最后一层全连接层外,这两个分支的所有层均被冷冻。在借用了预训练的C-RNNCrispr基网络的权重后,作者使用RMSprop优化器对C-RNNCrispr进行微调,以最小化小尺寸细胞系的MSE损失函数。
4. 结果
图6.2 对比C-RNNCrispr及其两种不同架构(即不含CNN和不含BGRU)在基准数据集上5倍交叉验证的性能
图6.3 通过5倍交叉验证,通过对每个细胞系数据的微调,比较C-RNNCrispr从头开始训练和迁移学习的性能
图6.4 基于目标序列组成的5个深度学习模型在4个细胞系数据集5倍交叉验证下的性能比较
C-RNNCrispr在Spearman相关系数方面一直优于其他方法。平均而言,C-RNNCrispr的Spearman相关性值为0.663,比第二好的Seq_deepCpf1高0.026。此外,C-RNNCrispr在AUROC方面的表现也优于除数据集HCT116外的其他模型。综上所述,C-RNNCrispr仅利用序列组成信息就能有效预测sgRNA的活性。
图6.5 对C-RNNCrispr不同位置上不同核苷酸和表观遗传特征的重要性的可视化。颜色代表了位置特异性核苷酸和表观遗传特征对确定有效的sgRNA的贡献。核苷酸和表观遗传特征呈垂直排列,而序列位置呈水平排列
可视化特征得到的结论:
7. DeepSpCas9variants-评估SpCas9变体在任何靶标序列上的活性
论文题目:Prediction of the sequence-specific cleavage activity of Cas9 variants
发表单位:延世大学,首尔大学,首尔国立大学等
论文地址:https://www.nature.com/articles/s41587-020-0537-9
代码链接:https://github.com/NahyeKim/DeepSpCas9variants,https://github.com/CRISPRJWCHOI/CRISPR_toolkit/tree/master/Indel_searcher_2
1. 贡献
之前的工作都围绕着如何选择sgRNA展开的,作者关注到有大量优化的SpCas9变体并未发挥其潜质,从另一个角度全面评估了SpCas9变体活性,提供这些SpCas9变体在任何靶标序列上的活性预测工具。
2. 动机
SpCas9由于其较高的活性和相对广泛的PAM兼容性而被广泛用于基因组编辑。然而,SpCas9的应用有时会受到脱靶效应的影响,或者由于缺乏SpCas9 PAM序列(NGG)而变得困难。为了克服这些问题,SpCas9变体已经被开发出来;一些变体可以同时满足增强保真度和改变或扩大PAM兼容性。
由于缺乏对这些SpCas9变体的广泛和系统的比较,在给定的实验中使用哪种SpCas9变体的选择可能会令人困惑。虽然在几个目标序列上已经相互比较了一些变体,但在少数目标序列上的这些比较结果不足以得出一般性的结论。
3. 研究内容
SpCas9变体活性的高通量评估。
SpCas9变体PAM兼容性比较:为给定PAM序列的靶标选择最有效的SpCas9变体。
广泛比较SpCas9变体的靶标活性,并与完全匹配的tRNA-N20 sgRNAs兼容。
SpCas9变体在不匹配的靶标序列上活性的高通量分析。
DeepSpCas9variants:基于深度学习的计算模型,预测SpCas9变种的活性。
4. 方法
图7.1 DeepSpCas9variants架构
DeepSpCas9variants包含以下几个过程:
5. 结果
图7.2 利用sgRNA-靶序列对的慢病毒库高通量评估SpCas9变体的活性
图7.3 SpCas9变体的PAM兼容性和活性
在这156条PAM序列的靶标中,SpCas9对NGGN PAMs的基因组进行了最高水平的编辑(平均indel效率,49%),VRQR和VQR变体对NGAG PAMs的基因组进行了最高水平的编辑(平均indel频效率,分别为49%和46%)(图7.3a,b)。
图7.4 当sgRNA向导序列与靶标序列不匹配时,SpCas9变体的特异性
图7.5 开发和评估deepspcas9变体,预测SpCas9变体活性的计算模型
利用训练数据,作者开发了基于深度学习的计算模型,预测具有(G/ G)N19 sgRNAs(在6个高保真变体和SpCas9的情况下,也考虑了tRNA-N20 sgRNAs)的9个变体在给定的具有所有类型PAM的靶标序列上的活性(即每个靶标序列9 + 7 = 16个预测活性)。当使用从未用于训练的测试数据集评估这些计算模型时,Pearson相关系数从0.86到0.94(平均,0.91),而Spearman相关系数从0.81到0.92(平均,0.90),表明这些模型具有稳健的性能。
8. CRISPRon-提升数据的质量和规模优化模型的性能
论文题目:Enhancing CRISPR-Cas9 gRNA efficiency prediction by data integration and deep learning
发表单位:青岛华大基因研究院,深圳华大生命科学研究院,奥尔胡斯大学,哥本哈根大学,哈佛医学院等
论文地址:https://www.nature.com/articles/s41467-021-23576-0
Web服务:CRISPR WebServer
代码链接:https://github.com/RTH-tools/crispron/
详细笔记(搬运):https://zhuanlan.zhihu.com/p/385303316
1. 贡献
2. 动机
相较于采用更为高级的机器学习算法,增加基础数据的规模和质量能更显著的提高预测模型的准确性和可靠度。
3. 方法
图8.1 CRISPRon 架构以及在独立测试集上的泛化性能
CRISPRon将自动提取的30 nt DNA输入序列的序列和热力学性质相结合,该序列由原间隔体、PAM和邻近序列组成,用于精确预测gRNAs的活性(图8.1a)。除了序列组成,CRISPRon还嵌入了CRISPRoff中使用的能量模型描述的gRNA-target-DNA结合能ΔGB,它封装了gRNA-DNA杂交自由能,以及DNA-DNA开放和RNA展开自由能惩罚。
4. 结果
图8.2 与gRNA靶向预测相关的重要特征
图8.3 在外部独立数据集中泛化性能