首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >数据资源 | HCDT 2.0:一个高度可信的药物-靶标数据库,包含实验验证的基因、RNA 和通路

数据资源 | HCDT 2.0:一个高度可信的药物-靶标数据库,包含实验验证的基因、RNA 和通路

作者头像
生信菜鸟团
发布2025-06-20 08:59:42
发布2025-06-20 08:59:42
7210
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

BioJournal Link

【优质期刊】文献【泛读,精读】笔记。关注癌症,生信,多组学,数据库,科研工具,精准医学,临床研究,生物技术,计算机技能,大语言模型的应用。

326篇原创内容

公众号

图片
图片

Basic Information

  • 英文标题:HCDT 2.0: A Highly Confident Drug-Target Database for Experimentally Validated Genes, RNAs, and Pathways
  • 中文标题:HCDT 2.0:一个高度可信的药物-靶标数据库,包含实验验证的基因、RNA 和通路
  • 发表日期:25 April 2025
  • 文章类型:Data Descriptor
  • 所属期刊:Scientific Data
  • 文章作者:Xinying Liu | Jin Li
  • 文章链接:https://www.nature.com/articles/s41597-025-04981-2

Abstract

Para_01
  1. 药物-靶标相互作用构成了理解药物作用机制和推进治疗发现的基本基础。虽然现有的药物-靶标数据库提供了宝贵的资源,但由于异质的数据来源和注释标准,它们表现出结构和功能上的碎片化。
  2. 在HCDT 1.0中精心策划的高置信度药物-基因相互作用的基础上,我们推出了HCDT 2.0,这是一个通过多组学数据整合扩展范围的全面且标准化的资源。
  3. 此次更新包含了三维相互作用,包括药物-基因、药物-RNA和药物-通路相互作用。
  4. 当前版本包含1,284,353个经过整理的相互作用:1,224,774个药物-基因对(678,564种药物×5,692个基因),11,770个药物-RNA映射(316种药物×6,430个RNA),以及47,809个药物-通路链接(6,290种药物×3,143个通路),还有16,317个药物-疾病关联。
  5. 为了增强生物学可解释性,我们进一步整合了通路-基因和RNA-基因调控关系。
  6. 此外,我们还整合了涵盖26,989种药物和1,575个基因的38,653个负向DTI。
  7. 这个综合框架不仅解决了跨尺度数据表示中的关键差距,还为系统药理学应用建立了坚实的基础,包括药物再利用、不良事件预测和精准肿瘤学策略。

Background & Summary

Para_01
  1. 新药的开发是一个耗时且劳动密集的过程,通常受到药物作用机制的复杂性和耐药性出现的阻碍。
  2. 将一种新药推向市场的平均成本估计约为26亿美元,从发现到上市需要超过十年的时间。
  3. 因此,迫切需要找到一种新的策略来发现药物。
  4. 常见的药物相互作用目标包括基因、通路和RNA,药物能够与这些成分中的每一个进行相互作用。
  5. 药物靶点研究对药物开发至关重要,帮助我们理解药物如何与特定靶点相互作用以进行药物发现和疾病治疗。
  6. 目前,预测药物-靶点相互作用有四种主流方法,包括基于传统神经网络的方法、基于图神经网络的方法、基于知识图嵌入的方法和基于多模态学习的方法。
  7. 科学家可以使用这些方法来预测和验证更多的药物靶点,但它们依赖于经过实验验证的关于药物靶点的信息,涵盖关键基因、通路和RNA等。
  8. 然而,药物靶点研究仍然面临一些挑战。
  9. 一方面,大多数药物可能只针对少数靶点,限制了治疗选择的多样性。
  10. 另一方面,靶点的复杂性和多样性也增加了药物开发过程中的困难和不确定性。
  11. 因此,整合药物-靶点数据对于识别潜在的药物靶点和制定有效的治疗策略至关重要。
  12. 尽管存在各种专注于药物的数据库,如ncDR、Lnc2Cancer和SM2miR,但在当前生物信息学领域中,一个集成药物-基因、药物-通路和药物-RNA关系的统一平台仍然是一个重大缺口。
Para_02
  1. 为了填补这一空白并提供更全面的复杂药物-靶点相互作用视图,我们在2022年进行了HCDT 1.0,这是一个专注于高度可信的药物-基因关系的数据库。在这项研究中,我们更新了HCDT 2.0中的药物-基因相互作用,并扩展了关于药物-RNA和药物-通路的相互作用范围。HCDT 2.0涵盖了广泛的相互作用,为生物信息学领域的研究人员提供了丰富的资源。

Methods

Data collection

数据收集

Para_01
  1. 在构建 HCDT 2.0 数据库时,我们遵循了严格的数据收集、整理和整合方法,以确保数据集的精确性和可靠性。
Para_02
  1. HCDT2.0 数据库由三种关系组成,即药物-基因、药物-RNA 和药物-通路。这三个关系数据库中与药物相关的数据是统一的,包括药物名称、同一药物的多种关系、简化分子线性输入系统(SMILES)、国际纯粹与应用化学联合会(IUPAC)名称、国际化学标识符(INCH)、药物类型、分子式和分子量。
  2. 其中,最重要的是 SMILES,因为它是一种独特的标识符,能够区分不同的药物。
Para_03
  1. 我们的HCDT 2.0数据库包含9个专门用于研究药物-基因相互作用的数据库。在遗传数据方面,我们确保至少包括以下标识符之一:基因符号、Entrez ID、Ensemble ID或UniProt ID,这些标识符可以在HGNC数据库中与基因信息进行映射。
  2. 这确保了我们能够准确地关联和分析药物与基因之间的相互作用。
Para_04
  1. 有6个数据库专门用于研究药物-RNA相互作用。对于RNA数据,该数据集包括RNA名称、Ensemble ID、转录本稳定ID、染色体/支架名称、GENCODE基本注释、表型描述、基因% GC含量、基因类型、转录本类型和基因同义词。
  2. 其中最重要的是Ensemble ID,因为这通常是唯一标识符,可以区分一种RNA与其他RNA。
Para_05
  1. 有5个数据库专注于药物-通路相互作用。关于通路数据,信息包括通路名称、REACTOME_ID、KEGG_HSAID、SMPDB_ID、ChEBI_ID、KEGG_ID和GENEIDS。
  2. 这些数据代表了通路在相应数据库中的ID,即区分该通路与其他通路的唯一标识符。

Data filtering

数据过滤

Para_01
  1. 基因数据过滤:我们仍然遵循HCDT 1.0版本,标准是Ki、Kd、IC50和EC50中至少有一个≤10微摩尔。基于此,我们更新了数据库内容。
Para_02
  1. RNA数据过滤:以下四个数据库被排除在外:lnc2cancer3.011主要关注长非编码RNA与癌症的关系。尽管该数据库记录了药物信息,但并未提及药物与相应RNA之间的直接关系;在LncMAP15和LNCmap16中,大多数药物-靶点相互作用是基于计算预测的,并未通过生物实验验证,这不符合本研究对高度可信度的要求;NoncoRNA17是一个支持实验的癌症非编码RNA和药物靶点数据库。但其中有很多预测数据,我们只筛选其中经过验证的数据。剩余的6个数据库被选为HCDT数据库中药物-RNA关系的原始数据来源。为了确保药物-靶点相互作用的高度可信度,我们使用了以下标准:(i)数据必须经过实验验证;(ii)数据必须来自人类。HCDT 2.0由多个数据库整合而成。我们筛选了9个药物-靶点相互作用数据库,排除了两个药物-靶点预测数据库和一个没有直接药物-靶点关系的数据库。剩余的6个数据库都符合我们的高度可信度标准。所有药物-靶点相互作用都通过体内实验验证,并且保证来源于人类而非其他物种。
  2. 所有药物-靶点相互作用都通过体内实验验证,并且保证来源于人类而非其他物种。
Para_03
  1. 在过滤药物通路关系数据库时,为了确保药物-靶点相互作用的高可信度,我们使用了以下标准:(i) 数据库中的数据必须能够找到与药物相对应的通路关系;(ii) 这些药物通路的数据已经过实验验证而不是预测。
  2. 之所以将五个数据库纳入本研究,是因为它们可以提供药物对应信号通路的信息,并且这些药物通路的相互作用数据已被验证。
  3. 相反,某些数据库如治疗靶点数据库(TTD)被排除在外。
  4. 这是因为TTD数据库仅根据目标基因与特定通路中基因之间的一致性推断药物的作用通路,并不直接提供药物作用通路的具体信息。
  5. 因此,它不符合本研究的筛选标准。

Drug-target classification

药物-靶标分类

Para_01
  1. 在HCDT 2.0中,数据包括药物-基因、药物-RNA和药物-通路的关系。在这段文字中,我们对这些数据进行了分类分析。
  2. 众所周知,我们已经有了HCDT 1.0,当时的数据只包括药物-基因的关系。
Para_02
  1. 基因的分类与1.0版一致。这意味着根据功能,基因被分为四组:编码蛋白质的基因、不编码核糖核酸(RNA)的基因、没有实际功能的假基因以及功能尚不清楚的其余基因。
Para_03
  1. 至于RNA,分类是基于源数据库中提供的RNA类型。目前,它们被分为五个不同的组:miRNA(微小RNA)、lncRNA(长链非编码RNA)、RNA(一般RNA)、circRNA(环状RNA)和piRNA(PIWI相互作用RNA)。
  2. 每种这些类别代表一类具有特定生物学功能和在基因调控、细胞过程及疾病机制中的角色的RNA(图1)。

Fig. 1

图片
图片

- 图片说明

◉ HCDT 2.0 中的 RNA 类别。

Para_04
  1. 在路径方面,它们通常不被分类,因为它们描述了生物过程中的连续性和相互联系,而不是离散的实体。因此,我们根据其不同数据库的来源对其进行分类(图2)。
  2. 让我们一步一步地思考。

Fig. 2

图片
图片

- 图片说明

◉ HCDT 2.0 中的通路类别。

Drug-genes update

药物基因更新

Para_01
  1. 在更新后的HCDT 2.0中,相互作用关系的数量为1,224,774(表1),这与之前的HCDT 1.0版本相比有所扩展。这表明我们的HCDT 2.0数据库正在成为一种更全面的药物靶点相互作用数据资源。
  2. 在HCDT 2.0中,新增加的DSigDB18数据库是一个新的资源,它关联了药物及其目标基因。它包含23,325个相互作用数据,补充了现有数据库的内容。

Table 1 Statistics on the updated Drug-Gene data source in HCDT 2.0. 表 1 HCDT 2.0 中更新的药物-基因数据源统计。

图片
图片
Para_02
  1. 与其他常用数据库如BindingDB、GtoPdb、PharmGKB和TTD相比,DSigDB的独特贡献在于其专注于药物特征信息,这对于探索药物再利用及其作用机制具有重要意义。其他数据库已更新到最新版本。
  2. BindingDB包含353,167条相互作用记录,而GtoPdb和PharmGKB分别有14,605和4,831条相互作用记录。
  3. TTD包含530,553条相互作用记录。

Negative drug-target interactions

负向的药物-靶标相互作用

Para_01
  1. 为了全面描述药物-靶标关系,我们在HCDT 2.0中整合了负向的药物-靶标相互作用(DTIs)。这些负向DTI候选者来源于BindingDB、ChEMBL、GtoPdb、PubChem和TTD。
  2. 实验结合亲和力测量值(Ki/Kd/IC50/EC50/AC50/效价 >100 μM)被用来定义这些非活性相互作用。
  3. 我们系统地整合了涉及26,989种药物和1,575个靶基因的38,653个负向DTIs(表2)。

Table 2 Statistics on the Negative Drug-Target Interactions data source in HCDT 2.0. 表 2 HCDT 2.0 中关于负药物-靶标相互作用数据源的统计。

图片
图片

Drug-RNAs

药物-RNAs

Para_01
  1. 在HCDT 2.0中,我们添加了关于药物-RNA的药物靶标信息。我们从六个数据库中收集了药物-RNA的信息,并发现了316种药物和6,430种RNA之间的总共11,770个高可信度相互作用(表3)。
  2. 与单一数据库相比,HCDT 2.0在相互作用方面提供了显著扩展。在这些数据库中,DRmiRNA是最大的数据提供者,占药物的37.03%,靶标的11.84%以及药物-靶标相互作用的46.21%。

Table 3 Statistics on Drug-RNA in HCDT 2.0. 表 3 HCDT 2.0 中药物-RNA 的统计数据。

图片
图片
Para_02
  1. 我们构建了一个药物-RNA相互作用网络,以揭示药物和RNA之间的潜在相互作用。一个涉及度等于或大于10的枢纽RNA的子网络在图3中进行了说明。它包括20个枢纽RNA和56种药物。
  2. 例如,miR-99b可能是十种药物的目标,这些药物可以分为四类:单克隆抗体(如用于抑制癌症生长的西妥昔单抗)、皮质类固醇(如用于管理和调节炎症及免疫反应的地塞米松)、激素药物(如通过影响激素来治疗乳腺癌的他莫昔芬)和化疗药物(如卡铂、顺铂、多柔比星、丝裂霉素C、长春新碱、吉西他滨,它们通过不同的方式杀死癌细胞)。
  3. 我们对药物-RNA相互作用的研究表明,6,822个相互作用(占总数的57.97%)来源于单一数据库,551个相互作用(占总数的4.68%)来源于两个数据库,68个相互作用(占总数的0.58%)来源于三个数据库。
  4. 我们HCDT 2.0数据库中的丰富内容得到了显著强调。这些相互作用从多个数据库得到的支持不仅增强了其可信度,还突显了它们在药物靶点研究和疗法开发中的关键作用。

Fig. 3

图片
图片

- 图片说明

◉ 药物-RNA相互作用子网络用于中心RNA。

Drug-pathways

药物通路

Para_01
  1. 在HCDT 2.0中,我们添加了药物和通路之间新的相互作用。我们从5个数据库中收集了药物-通路信息,并获得了总共47,809个高可信度的相互作用,涉及6,290种药物和3,143条通路(表4)。其中,Pubchem是最大的数据提供者,占药物的13.61%,靶点的91.95%和药物-靶点相互作用的31.08%。

Table 4 Statistics on Drug-Pathway in HCDT 2.0. 表 4 HCDT 2.0 中药物-通路的统计信息。

图片
图片
Para_02
  1. 为了构建全面的多层次药物-靶标相互作用网络,我们系统地整合了来自多个存储库的异质数据。通过聚合KEGG24、Reactome25和信号通路数据库(SMPDB)26注释,推导出通路-基因关联,生成了2,639条整理记录。
  2. 对于RNA-基因调控关系,采用了两种互补的方法:(1)基于顺式调控元件的分析,将RNA剪接位点(RANcentral27)和基因剪接位点(Ensembl28)进行映射,并为顺式距离≤ 10 kb的RNA-基因对建立功能联系(11,509条记录);
  3. (2)直接证据整合策略,从miRNA靶标(miRTarBase29)、长非编码RNA靶标(LncTarD30、LncRNA2Target31)数据库中编译RNA靶标基因相互作用,在严格整理和去除重复后,得到110,294个高可信度相互作用。
  4. 这种双重方法框架确保了基于空间邻近性和直接证据覆盖转录调控机制。

Drug-diseases

药物-疾病

Para_01
  1. 在HCDT 2.0中,我们系统地整合了来自三个互补数据库的药物-疾病关联:比较毒理基因组学数据库(CTD)、KEGG和TTD。这种整合产生了16,317条经过整理的记录,涵盖了7,728种独特的药物和1,473种不同的疾病(表5)。
  2. 这些多源交互的纳入不仅增强了数据库在药物重新定位和精准医学应用中的实用性,还通过统一的多组学数据实现了对药物、基因、RNA、通路和疾病之间分子连通性的整体分析。

Table 5 Statistics on Drug-Disease in HCDT 2.0. 表5 HCDT 2.0中的药物-疾病统计数据。

图片
图片

Data Records

Para_01
  1. HCDT 2.0 中描述的数据集可以通过以下链接公开获取:https://doi.org/10.6084/m9.figshare.2809873433。
Para_02
  1. 所有数据都进行了标准化:药物统一用PubChem CID和名称标注,基因用HGNC符号标注,而RNA和通路保留了其原始数据库特定标识符和命名法,以确保跨源一致性。
  2. 该结构包括五个表格:(1) 药物-基因(包含DRUG_NAME、PUBCHEM_CID、GENE_SYMBOL、HGNC_ID)用于验证的分子靶点;(2) 药物-RNA带有RNA标识符(DRUG_NAME、PUBCHEM_CID、RNA_NAME、RNA_ID);(3) 药物-通路(PATHWAY_NAME、REACTOME_ID、KEGG_ID);(4) 药物-疾病(Disease_Name、ICD-11、MESH、OMIM);以及(5) 负DTIs提供实验确认的非相互作用对。
  3. 所有表格共享PUBCHEM_CID作为通用药物标识符,并包括标准化的注释模式(补充表S1),能够系统地整合多组学数据并支持从药物重定位到可解释目标发现的应用。

Technical Validation

Para_01
  1. HCDT 2.0通过几个验证步骤确保其数据的准确性和可靠性:
Para_02
  1. 所有相互作用,无论是药物-基因、药物-RNA,还是药物-通路,都通过体内或实验数据进行了验证。最终数据集中没有使用任何预测或计算模型
Para_03
  1. 为了确保数据集中标识符的一致性和完整性,所有药物、基因、RNA和通路名称均已使用广泛接受的标识符(例如PubChem CID、Ensemble ID、HGNC ID)进行了标准化。
Para_04
  1. 跨数据库验证:HCDT 2.0 中的相互作用来自多个数据库,提供了额外的验证并增强了数据的可信度。数据库之间的交叉引用可以识别由多个来源支持的相互作用,从而提高数据库的可信度。
  2. ,

Usage Notes

Para_01
  1. HCDT 2.0 数据库可以在 http://hainmu-biobigdata.com/hcdt2/index.php 在线访问。

Code availability

Para_01
  1. 在整理或验证此数据集时,未使用任何自定义代码。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Basic Information
  • Abstract
  • Background & Summary
  • Methods
    • Data collection
    • Data filtering
    • Drug-target classification
    • Drug-genes update
    • Negative drug-target interactions
    • Drug-RNAs
    • Drug-pathways
    • Drug-diseases
  • Data Records
  • Technical Validation
  • Usage Notes
  • Code availability
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档