作者 | 李清文 编辑 | 龙文韬 校对 | 李仲深
今天给大家介绍Mohammad Ali Moni与Ulfarsson等人在Briefings in Bioinformatics上发表的文章“PreDTIs: prediction of drug–target interactions based on multiple feature information using gradient boosting framework with data balancing and feature selection techniques”。发现药物 - 靶点(蛋白质)相互作用(DTIS)对于研究和开发新的药物具有重要意义,对制药行业和患者具有巨大的优势。然而,使用实验室实验方法对DTI的预测通常是昂贵且耗时的。因此,已经为此目的开发了不同的基于机器学习的方法,但仍有需要提升的空间。此外,数据不平衡和特征维度问题是药物目标数据集中的一个关键挑战,这可以降低分类器性能。该文章提出了一种称为PreDTIs的新型药物 – 靶点相互作用预测方法。首先,蛋白质序列的特征载体由伪定位特异性评分矩阵(PSEPSSM),二肽组合物(DC)和伪氨基酸组合物(PSEAAC)提取;并且药物用MACCS子结构指数编码。此外,我们提出了一种快速算法来处理类别不平衡问题,并开发MoIFS算法,以删除无关紧要和冗余特征以获得最佳最佳特征。最后,将平衡和最佳特征提供给LightGBM分类器的以识别DTI,并应用5折CV验证测试方法来评估所提出的方法的预测能力。预测结果表明,所提出的模型预测显着优于预测DTIS的其他现有方法,该文章的模型可用于发现未知疾病或感染的新药。
一、研究背景
药物-靶点相互作用(DTI)的预测是药物开发和药物发现过程中的一个基本阶段。药物再利用是药物发现的一种发展趋势,其重点在于识别现有药物与靶点之间的未知相互作用。人类基因组的发展和分子医学计划的扩展有助于预测药物的新靶点。在过去的几年里,人们在发现未知药物上投入了大量的努力,但很少有新药获得食品和药物管理局(FDA)的批准并进入人们手中,而大量药物由于不可接受的毒性而在临床试验中被拒绝。DTI的实验室实验通常费时、费力且成本高昂;因此,这样的失败是不容易接受的,而且浪费了大量的资金。一般来说,新药的成本约为18亿美元,开发新药大约需要13年时间。因此,研究人员非常有必要建立基于机器学习(ML)的技术来检测DTI,这种技术可以成功地减少实验室实验要检查的候选药物的搜索,从而最大限度地减少工作量和成本。
在这项研究中,研究者提出了一种基于ML的DTIS预测模型,称为PreDTIS。首先,利用MACCS指纹图谱、PsePSSM、PseAAC和DC提取药物化学结构特征和蛋白质序列特征。然后,这三种类型的蛋白质特征与药物特征相结合,形成药物-靶点数据集,以进行准确的DTI预测。其次,针对药物靶标数据集高度不平衡的特点,提出了一种新的欠采样技术来解决正负数据集的不平衡问题。第三,改进的增量特征选择算法(MoIFS)用于选择最优特征,去除噪声和冗余特征,为准确预测提供重要特征。最后,在比较不同的ML分类器的基础上,选择LightGBM分类器,从平衡的特征和选择的特征中预测DTI。结果表明,与其他已有方法相比,该文章提出的模型显著提高了DTI的预测性能。
二、模型与方法
该文章研究过程如下图(图1)所示
图1. 该文章研究过程
2.1 数据集
研究者构建了5127对DTI。关于药物 – 靶点数据集的详细信息如表1所示。通常,DTIS网络由BG可视化,其中图形的节点表示药物或蛋白质,边缘表示这些节点(药物和靶)之间的已知相互作用。最重要的是,这个BG拥有少量的边缘。例如,EN在BG中有445×664=295480条边,并且只有2926条边是已知的交互作用(正样本)。因此,可能的295480-2926=292554未知相互作用(负样本)大于已知的相互作用,产生了主要的偏差问题。为了解决数据不平衡带来的偏差,研究者提出了一种新的FASTUS算法来平衡正负样本(例如EN:2926个正样本/2926个负样本)来评估分类性能。
表1. 该文章所用到的数据集
2.2 特征提取方法
2.2.1 药物特征
分子亚结构指纹(MSF)可以有效地表示所考虑的药物的化学结构。MSF是药物化学结构的字符串表示,旨在提高化学数据库的搜索和分析效率。它们可以编码药物分子的2D和3D特征。在各种类型的指纹中,MSF对药物等小分子的表现良好,而atom-pair fingerprints对多肽等大分子的表现最好。MSF直接提取二进制位的分子结构,即药物分子中特定亚结构的存在(1)或缺失(0)。它把一个分子表示成大片段。它可以保留药物分子的全部复杂性,从而不会从分子结构中产生任何错误特征。最重要的是,该过程提供了分子性质和结构之间的完整关系。因此,分子被表示为布尔数组,并根据结构键的指纹进行描述。这里,SMARTS(子结构模式预定义字典)模式和指纹位具有一对一的关系。在SMARTS模式中,如果药物分子中存在亚结构,则指纹比特设置为一(1);否则,如果没有亚结构,则将其设置为零(0)。作为示例,药物分子的亚结构指纹字典如图2所示。
图2. 药物分子结构表征
2.2.2 靶点特征(Pseudo position specific scoring matrix)
研究人员使用PsePSSM表征氨基酸序列,因为它不仅编码来自蛋白质序列的序列信息;它还反映了进化信息。一条长为L的氨基酸序列可用PSSM表示为
其中Pij代表在氨基酸序列中第i个氨基酸被替换为第j个氨基酸的得分,该得分通过PSI-BLAST工具生成。
因此可以将蛋白质序列表征成L×20的特征,由于在输入的蛋白质序列中氨基酸的长度是不同的;因此,具有不同长度的PSSM矩阵需要使用以下等式转换成相同的维度:
其中Pj是每个蛋白质的平均得分。由于该特征无法考虑蛋白质序列的任何序列信息。因此研究人员使用了PsePSSM,其由如下公式推导:
该PsePSSM能够在提取特征后,从数据集中不同长度的蛋白质序列中生成统一的维数向量。
2.3 数据平衡技术
在本研究中,研究人员基于随机欠采样技术的概念,提出了一种新的算法来克服数据集中的不平衡问题。该算法输入的是不平衡数据(少数类样本和多数类样本),经过处理后得到平衡数据作为最终数据。
假设药物靶向数据集中有n1个少数数据样本和n2个多数数据样本。在这里,研究人员训练一个支持向量机分类器来学习n1个少数样本的特征值,然后应用相同的分类器从n2个多数数据样本中提取特征。阈值取决于数据集的特征。如果输入特征的数量较多,我们使用多核分类器来拟合少数样本;否则,研究人员使用单核分类器来拟合那些样本。然后根据预测值和实际特征值计算欧几里得距离。研究人员将这些欧几里德距离映射到对应的多数类样本的索引中。然后,使用计算的欧几里德距离值按降序排列。从排序列表中选择N1个样本。最终数据由原始实验数据集构造出n1和由该方法指定的n2组合。换言之,该文章提出的欠采样技术通常去除了与少数类样本相似的多数数据样本,而保留了距离少数类样本较远的多数类样本。因此,随着所得到的平衡数据集变得更加可分,决策界限变得更加明确。该平衡算法由算法1展示:
2.4 LightGBM分类器
LightGBM算法是机器领域中一种新的、功能强大的算法。它是一个基于梯度增强框的用决策树算法进行学习的架梯度增强决策树(GBDT)。如果训练数据{(x1,y1),(x2,y2),...,(xn,yn)},则x表示数据样本,y表示类别标签。在GBDT中,F(X)用来表示估计函数,GBDT的优化函数用来最小化某一指定损失函数的期望值L(y,F(X))。为了减少损失函数,GBDT使用线性搜索迭代标准。如果实验数据集大且特征多,则GBDT算法不能达到令人满意的精度和效率。该集成算法的主要代价是在决策树学习过程中寻找最佳分割点。研究人员提出了一种使用基于梯度的单边采样(GOSS)和专一特征捆绑(EFB)的有效梯度提升算法LightGBM。在该方法中,LightGBM应用GOSS通过计算方差增益来控制分割。首先,按照训练样本的降序对梯度值进行排序,然后提取前a×100%个梯度值较大的数据样本作为A, Ac包含(1−a)×100%个梯度较小的其余部分样本。之后,进一步随机采样大小为b×Ac的子集B。最后,根据A∪B上的方差增益来划分样本。LightGBM具有专一函数,可跳过对于0(零)特征值的不必要计算。总之,LightGBM是GBDT与EFB和GOSS的鲁棒实现,可以在不损失准确性的情况下提高模型效率。GOSS通过计算方差增益来帮助分割最优节点,EFB通过去除零特征支持GBDT训练过程。LightGBM实现代码可在https://github.com/Microsoft/LightGBM获得。
三、结果与讨论
表2列举了针对不同数据集,使用与不使用数据平衡技术在预测性能上的差异,可以看出Fastus技术可以获得比较有效的性能。
表2. 是否使用数据平衡技术的预测结果对比
表3列出了使用不同分类器的预测结果,可以看出使用LightGBM的预测性能是最佳的。
表3. 使用不同分类器的预测结果
表4列出了对于四个数据集不同方法的预测结果,综合来说该文章提出的方法表现良好。
表4. 不同方法对DTI的预测结果
四、总结
该文章提出了一种新的计算模型,使用蛋白质序列和药物化学结构预测未知的DTI,以表明已知靶点的新药,并找到目前药物的新靶点。在特征提取阶段,产生的药物 – 靶点特征可以表征目标与进化、序列和结构有关的有辨识度的模式,有助于更有效地预测新的DTIS相互作用。当数据集存在一个大多类和一个几乎可以忽略的少数类,不平衡的数据集可能导致模型丢失提供准确决策的能力。该文章提出的数据平衡算法解决了药物靶点数据集中的类别不平衡问题。该模型实现了最佳预测性能,并且可以提出潜在的DTI,甚至是对Covid-19的有效药物候选者。
参考文献
MAHMUD S M H, CHEN W, LIU Y, et al. 2021. PreDTIs: prediction of drug-target interactions based on multiple feature information using gradient boosting framework with data balancing and feature selection techniques. Briefings in Bioinformatics [J].