前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. | 抗体体细胞突变的机器学习分析预测免疫球蛋白轻链毒性

Nat. Commun. | 抗体体细胞突变的机器学习分析预测免疫球蛋白轻链毒性

作者头像
DrugAI
发布2021-07-05 10:18:20
6320
发布2021-07-05 10:18:20
举报
文章被收录于专栏:DrugAI

编译 | 王晓枫 审稿 | 闵小平 指导 | 闵小平(厦门大学)

今天向大家介绍由瑞士贝林佐纳,生物医学研究所的Maura Garofalo等人于2021年6月10日发表在《Nature Communications》上的一篇名为“Machine learning analyses of antibody somatic mutations predict immunoglobulin light chain toxicity”的一篇论文。在系统性轻链淀粉样变性 (AL) 中,致病性单克隆免疫球蛋白轻链(LC)在靶器官中形成毒性聚集物和淀粉样原纤维。及时诊断对于避免永久性器官损伤至关重要,但由于症状通常仅在器官严重损伤后才会出现,导致延迟诊断的情况时常发生。在这项工作中,作者提出了LICTOR,一种基于克隆选择过程中获得的体细胞突变分布来预测免疫球蛋白中轻链毒性的机器学习方法。LICTOR的特异性和灵敏度分别为0.82和0.76,受试者工作特征曲线下的面积(AUC)为0.87。同时,作者也在一组独立的12个具有已知临床表型的轻链序列上进行测试,LICTOR取得了83%的预测准确率。此外,可以通过硅还原LICTOR发现的两个生殖细胞特异性体细胞突变,并通过实验评估秀丽隐杆线虫模型体内毒性的损失来消除轻链(LC)的毒性表型。因此,作者指出,所提出的LICTOR方法是诊断AL和降低AL高死亡率的一种有前途的策略。

1

研究背景

系统性轻链型淀粉样变性(AL)是一种单克隆丙种球蛋白病,其特征是浆细胞克隆异常增殖,产生大量致病性免疫球蛋白游离轻链(LCs)。LCs主要以同源二聚体的形式分泌,错误折叠形成有毒物质和淀粉样原纤维,在靶器官中积累并导致致命的器官功能障碍和死亡。尽管LC沉积可发生在除大脑以外的任何器官中,但肾脏和心脏是受影响最大的部位。因此,早期诊断对于避免不可逆的器官损伤是至关重要的。然而,由于该疾病的复杂性及其模糊的症状使得AL的及时诊断以及预测AL的发作极具挑战性。如图1a所示,由于每个患者都携带不同的致病性LC序列,这是由于在B细胞亲和力成熟过程中获得的变量(V)和连接(J)免疫球蛋白基因的独特重排和一组独特的体细胞突变(SMs)造成的。因此,开发特定的预测工具是预测AL诊断和改善患者预后的关键一步。在这项工作中,作者基于机器学习的策略设计了一种预测AL中轻链毒性的方法,命名为LICTOR (λ-轻链毒性预测器)。实验结果表明,LICTOR提供了区分有毒和无毒轻链的特异性特征。因此,作者指出LICTOR可能是改善AL诊断的有力工具,并通过个性化医疗揭示患者治疗的新策略。

图1 体细胞突变(SMs)的存在区分了有毒和无毒的轻链(LC)序列

2

方法

2.1 数据集

训练时使用的数据库是由AL-Base收集的λ同型的428个tox和590个nox序列组成。此外,它包含了生物医学研究所(IRB-DB)收集的已知对AL无毒的57条nox λ LC序列。1075个序列使用Kabat-Chothia编号方案自动对齐。对于ALBase序列,生殖系信息从数据库中获取,而对于IRB-DB lc,生殖系信息采用内部脚本进行评估。随后,利用IMGT数据库重建GL序列。

2.2 机器学习使用的预测变量

在这项工作中,给定一个序列,作者提取了三个特征,分别为每个突变位置的氨基酸(AMP),氨基酸单体对(MAP),二聚氨基酸对(DAP)。

2.3 机器学习算法

四种机器学习算法(贝叶斯网络、逻辑回归、J48和随机森林)采用Weka 3.8.1实现来解决分类任务。对于所有算法,都使用了默认的Weka参数。算法通过在数据集上执行10折交叉验证进行评估。每种算法的性能是:首先,只使用一组特征(如AMP、MAP和DAP,总共三种组合)进行评估;第二,三个家族成对组合(如AMP U MAP,共三种组合);第三,三个家庭结合在一起。这就得到7个(特征配置)×4个(算法)= 28个预测实验。此外,每一个实验都在有毒序列上使用或不使用SMOTE算法来平衡训练集,因此,一共进行28×2(含/不含SMOTE)= 56次实验。

3

实验结果

3.1 体细胞突变(SMs) 是鉴别轻链(LC)毒性的关键因素

为了研究SMs在产生毒性LC中的作用并验证它们在LC毒性预测器中作为预测变量的用途,作者收集了一个包含1075λ LC序列的数据库。该数据库包括从AL患者(tox)中提取的428个“有毒”序列(即负责形成AL 发展的有毒聚集体的LC)和647个包含来自健康供体库的序列的“无毒”轻链(nox),其他自身免疫性疾病或癌症,从淀粉样蛋白轻链数据库(AL-Base)(428 tox, 590 nox)和与AL无关的内部LC数据库(57 nox)中获得。如图1b所示,为了识别SMs,所有LC都与使用IMGT数据库获得的相应种系(GL)序列对齐。然后根据Kabat-Chothia方案对LC进行编号(使用从1到125的渐进枚举),允许对具有不同序列长度的LC进行结构比较。比较结果表明SMs是LC毒性的关键决定因素,因此可以用作预测变量来开发LC毒性预测工具。

3.2 使用机器学习预测轻链(LC)毒性

为了将SMs作为特征来开发机器学习方法,作者将来自SMs的信息与LC同型二聚体的三维结构知识结合起来,创建了用于机器学习算法训练的三个预测变量族,分别为AMP、MAP和DAP。接下来,采用四种机器学习算法(贝叶斯网络、逻辑回归、J48和随机森林),评估了他们之间解决分类问题的能力。为了评估不同类别预测变量的重要性,作者进行了28次预测实验,包括 AMP、MAP 和 DAP 家族的所有可能组合。作者发现,如图2a所示,对于所有经过测试的机器学习算法,预测变量族的最佳组合提供的AUC与随机分类器 (AUC=0.50) 的面积大不相同,其中随机森林是最好的分类器(AUC=0.87) 和 J48最差 (AUC=0.75)。结果表明,体细胞突变(SMs)的结构背景在预测LC的毒性方面的重要性,并且随机森林是AMP、MAP 和 DAP案例中的最佳方法。因此,在LICTOR中作者选择使用了随机森林。

图2 机器学习预测有毒和无毒序列,并识别毒性的关键特征

3.3 验证LICTOR准确性

为了验证LICTOR的预测准确性,作者用了一组具有已知临床表型但不存在于训练集(valset)中的序列。valset共包括12个LCs,包括7个与AL相关的心脏受累序列(H3、H6、H7、H9、H15、H16和H18),5个来自多发性骨髓瘤(MM)患者的LCs (M2、M7、M8、M9和M10)。如补充数据2和图3a所示,LICTOR能够正确地将2个LCs中的10个(6个tox和4个nox)归类为有毒或无毒。同时,使用随机分类器获得类似精度的概率为0.016,这进一步证明了LICTOR是预测以前未见过的LCs临床毒性的稳健而准确的工具。

图3 LICTOR准确预测训练集中缺失序列的LC毒性,并逆转心脏毒性LC的病理表型

3.4 LICTOR揭示轻链(LC)毒性的具体特征

为了确定导致AL中LC毒性的关键特征,作者根据其“信息增益”对 LICTOR的预测变量进行排名,该值表示每个预测变量携带的信息对分类的重要性。作者发现,在三个预测变量家族的前10个最重要特征中,特征49-A(表示SMs第49位的丙氨酸)在AMP家族排名以及一般排名中获得最高分(图 2d和补充数据8)。此外,在三个家族中排名最好的预测变量中,描述突变位置的变量在tox序列中比在nox序列中更频繁(图 2d)。有趣的是,所有这些突变都位于 LC 同源二聚体界面(图 2e),表明这些位置的突变可能影响二聚体界面的结构完整性和/或诱导单体的局部不稳定性,从而导致LC错误折叠和聚集。对于其他排名靠前的特征也观察到类似的趋势,其中未突变的位置在nox序列中比在tox序列中更频繁(图 2d)。

为了研究排名靠前的特征在预测LC毒性中的作用,作者对特征选择技术识别的特征的重要性进行了定量分析。为此,作者训练了30个不同的分类器,根据它们的信息增益依次添加每个特征族的10个最重要的特征。结果报告在补充图 2和补充数据9中。有趣的是,仅使用排名最高的特征49-A的分类器在AUC为 0.55 的情况下实现了64%的准确率,而要实现高于0.77的AUC,至少需要17个顶级特征。综上所述,这些发现表明,LC特定位置是否存在特定突变是LICTOR用于对LC表型进行分类的关键特征。更重要的是,这进一步强调了体细胞突变(SMs)作为AL病因的关键作用。

4

总结

本文提出了一种基于克隆选择过程中获得的体细胞突变分布来预测AL中轻链(LC)毒性的机器学习方法LICTOR,此方法代表了第一种从序列中准确预测轻链毒性的方法,可以及时识别高危患者,例如可能发展为AL的MGUS受试者。因此,使用LICTOR可以促进对AL发展的更密切监测,并促进早期治疗和更好的患者预后。最后,LICTOR可以与其他最近提出的策略一起使用,例如合成淀粉样蛋白纤维对患者来源的全长LC的不同募集功效,以预测AL发展的风险。

参考资料

Garofalo, M., Piccoli, L., Romeo, M. et al. Machine learning analyses of antibody somatic mutations predict immunoglobulin light chain toxicity. Nat Commun 12, 3532 (2021). https://doi.org/10.1038/s41467-021-23880-9

论文链接:

https://www.nature.com/articles/s41467-021-23880-9

代码链接:

https://github.com/mauragarofalo/LICTOR/code

Nox/tox序列数据链接:

https://github.com/mauragarofalo/LICTOR/data

轻链数据:

http://albase.bumc.bu.edu

AL-base:

http://albase.bumc.bu.edu

Kabat-Chothia编号方案:

http://www.bioinf.org.uk/abs/

LICTOR预测服务器:

http://lictor.irb.usi.ch

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档