基于构效关系的基因毒性预测软件介绍

摘要

本文结合ICH M7和相关文献资料,简单介绍了基因毒性QSAR模型预测软件和几种评估潜在致突变杂质的方法。

前段时间,华海的缬沙坦事件让很多人意识到基因毒性杂质控制的重要性。笔者最近正好碰到一个涉及多种基因毒性杂质的项目,重新学习了ICH M7,尤其是对于指导原则中提到的“采用(定量)构-效关系((Q)SAR)进行计算机模拟的毒性评估”方法。这里笔者将学习收获分享给大家,不足和错误之处望大家指正。

一、基因毒性杂质分类

基因毒性杂质是指“在较低水平时也有可能直接引起DNA 损伤,导致DNA 突变,可能引发癌症的DNA 反应性物质”。致突变性的判定依据主要是细菌回复突变试验( Ames) 结果,致癌性则以动物致癌试验结果和人类致癌性相关证据( 主要来源于环境、食品及职业接触的研究结果) 来判定。

此外,其他类型的无致突变性的遗传毒性物质通常有阈值机制,这类杂质以杂质水平存在时通常不会对人类造成致癌风险。

M7根据致突变性及致癌性将杂质分为5类。对于实际和潜在的进行初步分析评估时,首先通过数据库和文献检索致癌性和细菌致突变性数据,根据表1 将其归为1 类,2 类或5 类。当没有足够的致突变性/致癌性研究结果,无法获得这样的分类数据时,则应进行构-效关系(SAR)评估,着重关注细菌突变的预测,这可能会使得该杂质被归为3 类、4 类或5 类。

表1 根据致突变潜力和致癌潜力对杂质进行分类及其控制措施

二、QSAR模型预测软件

基于结构进行的评估有助于人们根据已有知识来预测细菌突变试验的结果。实施该评估的方法有很多,包括综述已有文献资料和/或计算机模拟的毒性评估。在实际药学研究中,我们经常会碰到第三类杂质,它们具有警示结构,但无致突变性数据。

当无法获得杂质的致突变性/致癌性数据时,ICH M7 推荐采用两种相补的、原理不同的(定量)构-效关系((Q)SAR)方法进行计算机模拟的毒性评估——以专家规则为基础的系统和以统计学为基础的系统,以预测细菌突变试验。如果两个互补的(Q)SAR 方法(专家规则和统计学)均没有警示结构,则足以说明该杂质没有致突变忧虑,不建议做进一步的检测(表1 中的5 类)。

目前常用的以专家规则为基础的模型系统和以统计学为基础的模型系统分别有:

表2 常用QSRA预测软件

2013年期刊Regulatory Toxicology and Pharmacology刊登了一篇汇集了拜耳、赛诺菲、阿斯利康、辉瑞、诺华、强生、艾伯维、默克、勃林格殷格翰等世界各大制药巨头联合署名的文章——Use of in silico systems and expert knowledge for structure-based assessment of potentially mutagenic impurities——详细介绍了运用计算机模型和专家知识评估药物杂质的潜在诱变性。

其中,文章介绍了2款经验/专家规则软件和3款统计学软件。下面笔者简单介绍下这两类预测软件。

1、专家规则/经验软件

(1)DEREK

DEREK (Deductive estimation of risk from existing knowledge)是一款付费商用软件,是由Lhasa Limited公司开发的一款能够预测化合物毒性的专家规则系统软件。Derek是世界上广泛使用的毒性预测软件工具,用户遍及全球各个制药公司、化学制品公司、科研机构和食品药品安全监督管理机构,也是FDA和EMA法规中推荐使用的化合物毒性风险评估工具。

Lhasa Limited从历年发表的文献知识、毒性数据库、用户分享数据库中分析总结结构-毒性关系、物种差异和物理化学-毒性关系等方面的最新知识,用以建立“结构-毒性”关系SAR规则。在软件的交互使用过程中,只需提交一个化学结构,例如通过内置的结构编辑器构建一个结构,或直接导入一个mol、SD、ChemDraw、Symyx Draw、Ceres、SMILES文件,Derek将此结构以及其互变异构体与知识库中的结构样式进行比对,然后突出显示所有和毒性相关的子结构,给出毒性风险的详细信息。

Derek数据库含数十万个毒性化合物结构,以及八百多条警示结构规则,其中超过25%的致突变性警示结构规则来源于私有数据。具有广泛的毒性终点,包括:基因毒性、皮肤刺激、致癌性、致畸性、肝毒性、肾毒性等等。高度透明,提供相关文献和支持信息,推理过程的描述,以及预测毒性的机理。

(2)ToxTree

Toxtree是由欧盟委员会的欧洲化学品局联合研究中心开发的免费毒性预测平台。软件主要以决策树的形式,根据结构警示对物质进行分类和预测,常用于遗传毒性、皮肤致敏性和水生生态毒性的预测分析。软件最大的特点是界面友好,操作简单。Toxtree支持用户通过输入SMILES编码或者使用内置的二维结构图编辑器绘制化学结构图来查找化学物,然后在方法里选择预测性质对应的决策树,点击预测按钮即可得到预测结果。

Toxtree软件包含多个预测终点,如毒理学关注阈值(TTC,包括Cramer规则、扩展的Cramer规则和Kroes决策树)、致癌性预测(遗传毒和非遗传毒)、体外遗传毒性(Ames试验)预测、啮齿类体内微核试验预测、皮肤刺激和腐蚀性预测、眼刺激和腐蚀性、细胞色素P450介导的药物代谢、DNA 结合、蛋白质结合和环境污染物的水生生物毒性生物降解潜力等共13个预测终点。

A、首先用软件自带的结构编辑器绘制化合物结构式。

B、在Method菜单选择决策树,其中Carcinogenicity (genotox and nongenotox) and mutagenicity rules by ISS为致癌和致突变决策树,In vitro mutagenicity (Ames test) alert by ISS为体外遗传毒性(Ames试验)决策树。

C、点击Estimate预测结果,可在方法中查看决策树的文献来源、预测方法以及性质机理,十分便捷。

2、统计学软件——Sarah Nexus

为了应对ICH M7的新要求,Lhasa Limited公司与美国FDA合作开发了基于统计学的QSAR模型:Sarah Nexus,与该公司的Derek软件合用,组成了应对ICH M7指导原则新要求的一种选择。

Sarah Nexus是一种新的预测致突变性的(Q)SAR方法。Sarah Nexus使用独特的、高度透明的机器学习算法,从Ames突变实验数据出发,构建统计模型。这种算法使用了一种新颖的、自组织分级网络来训练模型。它通过碎片化输入结构使得模型具有更高的透明度,更易诠释预测结果,从而方便专家审核,以满足ICH M7指导原则要求。

SarahNexus采用的分级模型,不仅可以搜索匹配片段,还可以通过使用与目标化合物结构最相似的结构来优化结果。此方法保留那些可能具有更高毒性的片段,片段可以是各种大小,并且允许结构重叠,确保更高的预测精确度。Sarah Nexus预测结果的结构解释通过突出显示这些模型认为有意义的片段来实现。下图诠释了碎片化过程的步骤。

A、输入化合物结构切割为“相关”片段

B、使用回归式学习方法评估每个片段对于阳性和阴性的贡献

C、模型将相关片段组织为网络,每个节点对应一个假设。从每个相关片段的预测和置信度可以获得总的预测结果。

三、几种基于QSAR模型评估的方法使用

1、专家知识——expert knowledge

除了基于专家规则和统计学两个互补的预测模型,QSAR系统在使用中离不开专家知识的运用,即M7在QSAR系统描述时提到的“expert knowledge”。

专家知识方法是由具有化学和遗传毒理学专业知识的科学家,利用现有数据(文献、公开或内部数据库等)和任何其他相关信息进行专业的分析,是每一个基于结构评估的基本要素,能够进一步评估计算机预测的相关性。

如有必要,所有基于计算机系统的分析结果均可以使用专家知识进行回顾,以对所有预测的阳性、阴性、相互矛盾或无法得出结论之间的相关性提供额外的支持性证据,从而支持最终结论的合理性。

2、几种方法的科学性比较

美国医药研究和制造商协会(PhRMA)和欧洲制药工业和协会联合会(EFPIA)对各大制药公司使用的潜在致突变评估系统进行了调研。调研公司包括:雅培、百时美施贵宝、勃林格殷格翰、罗氏和赛诺菲。分别比较了:单独使用DEREK系统、联合使用DEREK/统计学软件、联合使用DEREK/专家知识、联合使用DEREK/统计学软件/专家知识,这四种评估方法对1449个化合物预测Ames试验结果的成功率和敏感性。

调研显示:

(1)单独使用DEREK时,至少80%的诱变化合物,即Ames阳性化合物,是能够正确预测的。

(2)基于统计学系统和专家知识的方法都可以略微提高Ames阴性结果预测率(即增加几个百分点)。

(3)根据现有数据表明,两种互补的预测系统联合与专家规则加专家知识方法预测之间没有明显的差别,然而FDA更倾向于前者的使用。

(4)所有方法结合使用时,可以进一步提高预测灵敏度和Ames阴性预测率(同样是几个百分点)。

(5)基于构效关系的预测不应该只看结果本身,无论评估使用何种方法,专家知识的评估都是更好地理解软件预测和判断结果的基本要素。

表3 单独使用DEREK预测结果

表4 DEREK结合统计学系统预测结果

表5 DEREK结合专家知识预测结果

表6 五家公司的完整评估系统构成

表7 五家公司联合使用DEREK/统计学软件/专家知识预测结果

3、QSAR预测模型的不足

在专家规则软件中没有触发任何结构突变警报的化合物不能自动归为阴性,因为没有结构警报有可能表明信息的缺失,即计算机专家规则模型中没有覆盖该类化学环境。鉴于该类系统的适用性难以定义,且方法不可靠性问题,这构成了基于结构的评估的一个普遍缺陷。

在没有发现警示结构的情况下,首先需对已知突变结构的类似化合物进行评估,并结合相关文献,确保计算机系统中包含的知识系统无缺陷。此外,无论潜在的杂质是否包含在计算机系统所覆盖的化学空间中,都应该进行检查,以验证预测的准确性。

4、关于预测软件评估报告

ICH M7 明确提出要给出2个模型系统的评价结果,依据研发的阶段,QSAR评估报告可包含下列信息:

(1)方法学描述: 软件、模型、数据库、参数及版本信息等。

(2)有专家知识评估的结果汇总: 软件鉴定出有意义的杂质的化学结构特征与致突变性试验阳性的结构功能团的相关性;基于模型预测及专家知识评估(有/无致突变性)的结论及分类。

(3)支持性信息:支持或反驳QSAR结果的专家知识意见,可用案例或参考文献举证;尤其对4 类及5 类杂质的综合性结论应提交支持性信息。

(4)附录: 上市申请时应提交支持性的完整的细菌致突变性试验报告。

四、小结

本文结合ICH M7和相关文献资料,简单介绍了基因毒性QSAR模型预测软件和几种评估潜在致突变杂质的方法。计算机QSAR模型预测为我们提供一种方法和途径,但在实际问题的解决中,存在软件可及性和系统局限性等缺点。因此,基因毒性评估还需根据实际情况多种方法途径综合评估,以保证研究的科学性和合理性。

参考文献:

1.ICH M7

2.Use of in silico systems and expert knowledge for structure-based assessment of potentially mutagenic impurities

3.ICH M7 指导原则下DNA 反应性/致突变性杂质的控制水平

4.应用Toxtree 平台预测中草药重要成分的致癌性和遗传毒性

5.杂质谱分析技术在化药注射剂杂质控制中的应用研究

6.http://www.cloudscientific.com/plus/list.php?tid=78

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181130B0189M00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券