
做 AI for Drug Discovery,很多时候最容易被忽略的不是模型,而是问题定义。
一个项目刚开始时,常见的冲动是直接去找配体、拉活性数据、做 docking,甚至直接跑分子生成。但在真正的药物发现流程里,更早的问题往往是:
这个疾病,到底先看哪些靶点?
如果靶点本身没有足够的疾病证据,后面再复杂的 QSAR、虚拟筛选、生成模型和分子优化,都可能只是在一个不稳定的假设上继续堆工作。
这也是 AIDD 实战(数据库篇) 系列第一期选择 疾病到靶点 的原因。
这一期不做单纯的数据库介绍,而是用一个具体例子走一遍:
拿到一个疾病后,如何形成第一版可讨论、可推进的 target shortlist。
本期使用的主数据库是 Open Targets Platform,辅助数据库是 Therapeutic Target Database 2026,TTD 2026。
Open Targets Platform 是一个公开、开源、可访问的靶点识别、注释和优先级排序知识库。2025 年 NAR 更新文章中提到,它整合了 23 个独立公共来源的 target–disease evidence,覆盖遗传变异、体细胞突变、扰动实验、通路、已知药物/临床候选物和文献挖掘等证据类型。
TTD 2026 则更偏 治疗靶点和药物开发上下文。其 NAR 2026 更新文章显示,TTD 2026 包含 306,247 条 target–disease associations、10,506 个 target perturbation profiles、17,806 个药物的多维活性景观,以及 2,234 个已批准药物的临床画像,整体覆盖 3,798 个 targets 和 40,398 个 drugs。
简单理解:
Open Targets 负责回答:哪些靶点和这个疾病有关。TTD 负责补充:这些靶点有没有进入过药物开发语境。
本期只回答一个问题:
当我们拿到一个疾病时,如何做出第一版靶点候选清单?
这里的目标不是证明某个靶点一定值得做,而是搭建一条可以复用的数据工作流。
最终输出物不是某个网页截图,而是一张可以继续用于组会讨论、文献调研和下一步建模的数据表:
disease-to-target shortlist
这张表至少要回答几个问题:
本期示范疾病选择 inflammatory bowel disease,IBD,炎症性肠病。
选择 IBD 的原因很简单:它是一个典型的父级疾病概念,下面包含 Crohn’s disease、ulcerative colitis 等子类疾病。
在 Open Targets 中搜索:
inflammatory bowel disease
进入疾病页面后,第一步不是马上看靶点列表,而是确认疾病实体本身。

Open Targets 中 inflammatory bowel disease 的疾病页面。实战中第一步不是直接看靶点,而是先确认疾病名称、数据库 ID、本体位置和疾病定义。
例如这里,IBD 对应的疾病实体包括:
页面中的疾病描述是:IBD 是一组病因不明的小肠和大肠炎症性疾病谱,包含 Crohn’s disease、ulcerative colitis 和 indeterminate colitis。
这一步看似基础,但非常重要。
因为在 disease-to-target workflow 中,同一个疾病可以有不同粒度:
这些查询并不等价。
如果研究的是广义 IBD,就可以从 inflammatory bowel disease 开始;如果项目已经限定在 Crohn’s disease 或 ulcerative colitis,就应该直接切到更具体的疾病实体。
疾病实体选错,后面的 target ranking、evidence interpretation 和 shortlist 都会偏。
所以第一条实战原则是:
先定义疾病,再筛靶点。
确认疾病实体后,切换到 Associated Targets 页面。

Open Targets 的 IBD-associated targets 页面。这里适合做第一轮 disease-to-target 初筛,但 overall association score 只能用于排序,不能直接等同于靶点成功概率。
在这次实操截图中,Open Targets 按 association score 给出了 IBD 相关靶点排序。默认显示的前 10 个靶点包括:
其中,NOD2 的 association score 约为 0.87,是默认排序中的第一个靶点。
但这里不能直接得出 NOD2 就是最值得做的靶点。
Open Targets 文档中说明,association score 是一种用于整合证据和排序的 scoring framework。不同数据源对 evidence 的定义和数量不同,平台会通过 harmonic sum 等方式进行聚合,因此这个分数适合做排序入口,但不应该被理解成靶点成功率或临床转化概率。
更合理的读法是:
score 用来帮我们决定先看谁,而不是替我们决定最终做谁。
在这张图中,除了总分,更重要的是横向的一排 evidence columns。可以看到,不同靶点的证据类型并不一样,例如:
这也是 Open Targets 的价值所在:它不是只给一个分数,而是把不同来源的证据拆开展示。
所以第二条实战原则是:
不要只看 overall score,要看 evidence composition。
在第一轮初筛时,建议先把 top 10 或 top 20 记录下来。
这一步的目的不是做结论,而是建立候选池。
可以先记录几个字段:
表1|本期实战中基于 Open Targets 整理的 IBD top targets 初筛表。只是示例
Rank | Target | OT score | 主要 evidence type | 初步观察 |
|---|---|---|---|---|
1 | NOD2 | 0.87 | GWAS、ClinVar、PanelApp、UniProt、Europe PMC、IMPC 等 | 遗传学和文献证据明显,适合做 evidence granularity 案例 |
2 | IL10RA | 0.83 | Clinical precedence、ClinVar、PanelApp、UniProt、Europe PMC、IMPC 等 | 与 IL10 信号轴相关,需进一步看模态和安全性 |
3 | IL10RB | 0.82 | ClinVar、PanelApp、UniProt、Europe PMC、Expression Atlas、IMPC 等 | 与 IL10RA 同属通路相关受体,不能当作完全独立假设 |
4 | IL10 | 0.78 | GWAS、ClinVar、PanelApp、Europe PMC、IMPC 等 | 细胞因子靶点,更偏生物制剂/调节性策略 |
5 | ADAM17 | 0.78 | ClinVar、PanelApp、Gen2Phenotype、UniProt、Europe PMC、IMPC 等 | 证据来源较多,但需要特别看安全性和机制复杂性 |
6 | IL12B | 0.75 | Clinical precedence、GWAS、Europe PMC 等 | 有较强开发上下文,适合做 target profile 示例 |
7 | ITGA4 | 0.74 | Clinical precedence、GWAS、Europe PMC、IMPC 等 | 临床开发先例明显,适合作为 positive-control 类靶点 |
8 | IL23R | 0.71 | GWAS、ClinVar、UniProt、Europe PMC 等 | IBD 经典免疫通路相关靶点,适合深入查证据 |
9 | INAVA | 0.69 | GWAS、UniProt、Europe PMC、Expression Atlas 等 | 偏遗传学线索,后续需要看 tractability |
10 | JAK2 | 0.68 | Clinical precedence、GWAS、Cancer Gene Census、Europe PMC 等 | 小分子可及性较强,但 safety 和作用方向需要特别谨慎 |
这张表里最重要的不是数值,而是把靶点分成不同类型。
例如:
如果只是把 top 10 排名复制下来,这一步意义不大。真正有用的是开始判断:
这些靶点分别代表哪类证据、哪类风险、哪类后续动作。
接下来进入 NOD2–IBD 的 evidence 展开页面。

NOD2–IBD 的 GWAS evidence 页面。截图中可以看到,Open Targets 展示了多个 95% GWAS credible sets,并将 NOD2 prioritised as likely causal gene for inflammatory bowel disease。表格中的 reported traits 包括 Crohn’s disease、small bowel Crohn’s disease 和 inflammatory bowel disease 等不同疾病粒度。
这是这一期最关键点。
Open Targets 官方文档说明,target–disease association 有 direct 和 indirect 两类证据。以 IBD–NOD2 为例,直接描述 inflammatory bowel disease 和 NOD2 的证据属于 direct association;而 Crohn’s disease 是 inflammatory bowel disease 的 ontology descendant,因此 Crohn’s disease–NOD2 的证据也可以作为 IBD–NOD2 的 indirect evidence 被纳入。
这在上图中非常直观。
表格里的 reported trait 不只包括 inflammatory bowel disease,也包括 Crohn’s disease 和 small bowel Crohn’s disease。这意味着 NOD2 的 IBD 证据并不只是来自一个单一疾病标签,而是跨越了 IBD 及其子类型。
这不是问题,反而是疾病本体带来的价值。对于 IBD 这种 umbrella disease,来自 Crohn’s disease 或 ulcerative colitis 的证据本来就可能对父级疾病有帮助。
但风险在于:如果不区分证据粒度,很容易把一个子类型疾病的证据误读成整个 IBD 的普适证据。
因此,在 target shortlist 中可以再备注一列:
Evidence granularity:direct / indirect / mixed
对 NOD2 来说,更合适的写法不是:
NOD2 是 IBD 第一靶点。
而是:
NOD2 在 IBD 相关排序中靠前,GWAS credible sets 提供了较强遗传学支持;但 evidence 需要区分 inflammatory bowel disease 本身与 Crohn’s disease 等子类疾病来源。后续应进一步检查疾病亚型、direction of effect、tractability 和 safety。
靶点和疾病相关,并不等于这个靶点适合做药。
Open Targets 的 Target Prioritisation 页面正是为这个问题设计的。文档中说明,该页面可以从 Associations on the Fly 页面进入,展示 disease-agnostic 的 target-specific properties,并将这些因素聚合为四个部分:Precedence、Tractability、Doability、Safety。页面还使用 traffic-light 颜色系统辅助判断,绿色偏有利,红色偏不利。

Open Targets Target Prioritisation 视图。该页面将靶点属性归纳为 Precedence、Tractability、Doability 和 Safety 四类,帮助从疾病相关性进一步走向项目可行性判断。
在这里,我在顶部 pin 住了 5 个靶点:
下方还展示了 IBD 排名前 10 的靶点,包括 ADAM17、ITGA4、IL23R、INAVA 和 JAK2。
这张图非常适合用来解释一个原则:
target prioritization 不是只看一个维度,而是把证据、模态、实验可行性和风险放在一起看。
Precedence 关注的是这个靶点是否已有临床阶段药物作用过。Open Targets 文档中对 Target in clinic 的定义是:某个基因产物是否被任意临床阶段药物作用,评分会基于最高临床阶段进行归一化。
在上图中,IL10RA、IL10RB、IL12B、ITGA4、JAK2 等靶点都显示出不同程度的 clinical precedence 相关信息。
但需要注意:
clinical precedence 不是越高越值得做。
它可能意味着:
例如 IL12B 和 ITGA4 都有较强的临床开发语境。它们可以帮助理解 IBD 药物开发中的成功路径,但如果目标是寻找新靶点,就不能简单把这些靶点当作最终答案。
Tractability 关注的是靶点是否适合某类药物发现流程。Open Targets 的 tractability 文档说明,平台会考虑小分子结合位点、抗体可及表位、PROTAC 相关数据,以及其他临床模态信息,用于辅助判断靶点适合哪些 therapeutic modalities。
上图中可以看到多个相关字段:
这些字段对 AIDD 很重要。
如果目标是小分子项目,优先关注:
如果目标是抗体或细胞外靶向,优先关注:
如果目标是蛋白降解,后续还要看:
这一步的核心不是判断靶点好不好,而是判断:
这个靶点应该进入哪条药物模态路线。
Doability 更偏后续实验可做性。上图中可以看到 mouse orthologue identity、mouse models、gene essentiality 等字段。
这类信息在 AIDD 项目里经常被低估。
一个靶点即使疾病证据很强,如果缺少合适模型、readout、probe 或扰动工具,后续实验验证也会非常困难。
这对 early-stage AIDD 尤其关键,因为模型能给出候选分子,但项目是否能推进,最终还要看实验是否能验证。
所以这一步可以问:
AIDD 不是只在电脑里排序,最终要落到可验证实验。
Safety 是 target prioritization 中最容易被忽视的一类。
上图中还可以看到 genetic constraint、gene essentiality、known safety events、tissue specificity、tissue distribution 等字段。
这类字段提醒我们:
一个靶点和疾病高度相关,不代表直接调控它就安全。
例如:
所以第四条实战原则是:
疾病相关性强,不等于安全窗口足够。
Target Prioritisation 适合横向比较多个靶点,但如果要深入理解某个靶点,就需要进入 target profile。
这次截图中,代表性靶点选择的是 IL12B。

IL12B 的 target profile 页面。target profile 适合进一步查看 drugs and clinical candidates、tractability、top diseases、baseline expression、known safety events、mouse phenotypes、molecular structure 和 bibliography 等信息。
IL12B 是一个适合作为展示的靶点。它不是因为一定最值得做,而是因为它的数据库页面能展示出完整的 target evaluation 逻辑。
从上图可以看到,target profile 中包括多个模块:
这些模块帮助我们从不同角度回答问题:
这个靶点有没有药物开发历史?看 Drugs and Clinical Candidates。
它适合什么药物模态?看 Tractability。
它和哪些疾病最相关?看 Top Diseases。
它在哪些组织表达?看 Baseline Expression。
是否有已知安全风险?看 Known Safety Events。
动物模型是否提示严重表型?看 Mouse Phenotypes。
进入 target profile 后,不要逐项浏览,而要带着决策问题看。
例如 IL12B 这类具有 clinical precedence 的免疫相关靶点,更适合作为理解 IBD 治疗靶点开发历史的入口;如果后续目标是做全新小分子生成,则还需要继续确认该靶点是否适合小分子策略,还是更适合抗体、生物制剂或其他模态。
Open Targets 已经帮我们做了 disease-to-target 的证据整合,但项目立项时还需要补一个视角:
这个靶点在药物开发数据库里是什么状态?
这一步可以接入 TTD。

TTD 中 NOD2 的 target page。TTD 用于补充靶点开发上下文,包括 target general information、target–disease associations、transcriptomic analysis 和 target perturbation profiles 等模块。
上图中展示的是 NOD2 在 TTD 中的 target page。可以看到,TTD 页面中包含:
这和 Open Targets 的视角不同。
Open Targets 更适合做 evidence ranking,帮助判断一个靶点为什么和疾病相关,以及是否具备 prioritisation factors。
TTD 更适合做 target-centered context,帮助查看这个靶点在治疗靶点数据库中的定位、疾病关联、突变证据、转录组证据和扰动数据。TTD 更新文章也强调,target–disease associations、target perturbation profiles、drug bioactivity landscapes 和 clinical profiles 可以共同支持疾病相关靶点识别、功能解释和治疗潜力评估。
因此,Open Targets 和 TTD 的组合不是重复,而是互补:
Open Targets:从疾病出发,看哪些靶点值得优先检查。TTD:从靶点出发,看这个靶点已有多少开发和机制上下文。
完成 Open Targets 和 TTD 的查询后,最终应该形成一张 target shortlist。
这张表不是数据库原始表,也不是最终立项结论,而是第一版可讨论的结果表。
表2|本期实践形成的 disease-to-target shortlist 示例。该表基于本次 Open Targets 和 TTD 页面截图整理,属于示例表,不是数据库原始结论,也不代表最终立项建议。
Disease | Target | Evidence summary | Evidence granularity | Prioritisation observation | TTD context | Decision | Next action |
|---|---|---|---|---|---|---|---|
IBD | NOD2 | Open Targets 排名靠前,association score 约 0.87;GWAS credible sets 明显,截图中包含 Crohn’s disease、small bowel Crohn’s disease 和 IBD 等不同 reported traits | mixed | 遗传学证据强,但需要进一步确认方向性、疾病亚型和模态可行性;target prioritisation 中部分 safety / mouse model 信息需要谨慎解释 | TTD 中可进入 NOD2 target page,补充突变、转录组和扰动上下文 | Hold / Biology-priority | 继续查文献、direction of effect、Crohn’s disease vs UC 亚型差异;暂不直接进入小分子设计 |
IBD | IL10RA | Open Targets 排名靠前,与 IL10 信号轴相关;多类遗传和临床相关证据 | mixed | 作为受体靶点,需要重点看膜蛋白属性、clinical precedence 和 safety;不应和 IL10RB/IL10 当作完全独立假设 | 可进一步查 TTD / Open Targets target profile 中的疾病和药物开发语境 | Transfer modality / Hold | 更适合先进入通路和生物制剂/抗体相关调研,而不是直接小分子生成 |
IBD | IL10RB | 与 IL10RA 同属相关受体通路,Open Targets 排名靠前 | mixed | 需要和 IL10RA、IL10 一起作为 pathway cluster 解读;安全性和组织分布需要特别检查 | 后续可用 TTD 补充疾病关联和扰动信息 | Hold | 做 IL10 pathway mini-review,避免重复计算同一通路信号 |
IBD | IL10 | 细胞因子靶点,Open Targets 排名靠前,可能与免疫调节和疾病亚型有关 | mixed | secreted protein / cytokine 属性提示其更偏生物调节策略;小分子并非天然优先路线 | 需要查药物开发和临床上下文 | Transfer modality | 更适合进入 biologics / pathway modulation 方向,而非传统小分子 QSAR |
IBD | IL12B | Open Targets 中有 clinical precedence 和疾病相关证据;target profile 信息丰富 | mixed | 适合作为 IBD 免疫通路中已有开发先例的代表靶点;可用于理解成功路径和 positive-control 设计 | target profile 可查看 drugs and clinical candidates、tractability、top diseases、safety 和 mouse phenotypes | Keep as benchmark / context target | 可作为下一步查药物、活性和临床先例的示范靶点 |
IBD | JAK2 | Open Targets top 10 中出现;具有小分子开发语境和 clinical precedence | mixed | 小分子可及性较强,但 JAK 类靶点通常需要格外关注安全性、选择性和作用方向 | 后续可查 TTD / DrugMAP / BindingDB / PubChem | Keep with caution | 适合作为下一期 BindingDB/PubChem 活性数据教程的候选之一 |
这张表的重点不是给出标准答案,而是展示一个决策过程。
例如,NOD2 在 IBD 中证据很强,但它不一定应该直接进入小分子生成。更合理的下一步是查清楚:
同样,IL10、IL10RA、IL10RB 不能被当成三个完全独立假设。它们更像是同一免疫调节轴上的不同节点。把它们聚成一个 pathway cluster,比逐个孤立解读更合理。
IL12B 和 ITGA4 这类已有临床开发语境的靶点,则更适合作为 benchmark 或 positive-control。它们能帮助理解 IBD 靶点开发的成熟路径,但不一定代表创新方向。
JAK2 则适合展示另一个典型场景:小分子可及性较好,但 safety 和 selectivity 风险必须提前进入判断。
第一版 shortlist 形成后,可以把靶点分成四类。
适合进入下一期 BindingDB / PubChem / ChEMBL 的靶点,通常满足:
例如,IL12B 可以作为 clinical context 靶点,JAK2 可以作为小分子活性数据靶点,但两者目的不同。一个更适合讲已有生物制剂/临床开发逻辑,一个更适合讲小分子数据整理和 safety caveat。
适合 Hold 的靶点通常有强 biology signal,但项目路径还不清楚。
NOD2 就是这种类型。
它在 IBD 中有很强遗传学支持,也适合讲 direct / indirect evidence,但是否直接进入小分子设计,还需要更多判断。尤其要查清楚 direction of effect、疾病亚型和具体干预方式。
有些靶点不适合传统小分子,但并不代表没有价值。
例如 IL10、IL10RA、IL10RB 这类免疫调节相关靶点,更适合先进入 biologics、通路调节、抗体或其他模态讨论,而不是硬塞进小分子 QSAR。
这类靶点的下一步不是 BindingDB,而可能是 IUPHAR、DrugMAP、ClinicalTrials、Open Targets target profile、TTD 和文献综述。
如果一个靶点主要依赖弱文献共现、疾病粒度不清、缺少 tractability,或者有明显 safety 风险,就应该暂时降级。
降级不等于永远不做,而是说明:
它现在不适合进入下一步分子设计。
Open Targets 的 association score 是证据聚合和排序工具,不是临床成功概率。高分靶点适合优先检查,但不能直接等于立项结论。
IBD、Crohn’s disease 和 ulcerative colitis 不是完全等价的查询对象。尤其在父级疾病中,indirect evidence 很常见,需要在 shortlist 中单独记录。
IL10、IL10RA、IL10RB 这类靶点应该作为 pathway cluster 一起解读。否则容易高估候选靶点的多样性。
一个靶点和疾病相关,不代表它适合小分子、抗体或 PROTAC。Tractability 需要单独判断。
Safety 不是临床前最后一步才看的事情。在 target prioritization 阶段,就应该把 gene essentiality、known safety events、tissue distribution、mouse phenotype 等信息纳入判断。
本期从 IBD 出发,走了一遍最小 disease-to-target workflow:
定义疾病实体
↓
Open Targets 查看 associated targets
↓
记录 top targets
↓
拆 evidence type
↓
用 NOD2 解释 direct / indirect evidence
↓
进入 Target Prioritisation
↓
检查 Precedence / Tractability / Doability / Safety
↓
进入 target profile 深挖代表性靶点
↓
用 TTD 补充 target-centered 开发上下文
↓
形成第一版 target shortlist
这条流程的核心不是查到了哪个靶点,而是建立了一种工作方式:
先定义疾病实体,再拆证据结构;先做靶点优先级,再看模态和安全性;先形成 target shortlist,再进入活性数据和分子设计。
在 AIDD pipeline 里,这一步非常基础,但也非常容易被跳过。
如果直接从分子生成开始,问题可能会变成:
模型生成得很好,但靶点假设不稳。
而如果先把 disease-to-target workflow 打通,后面的 BindingDB、PubChem、ChEMBL、DrugMAP、DDInter、PROTAC-DB、TPDdb 等数据库,才知道应该服务于哪个问题。
下一期继续冲!
[1]. Annalisa Buniello, Daniel Suveges, Carlos Cruz-Castillo, Manuel Bernal Llinares, Helena Cornu, Irene Lopez, Kirill Tsukanov, Juan María Roldán-Romero, Chintan Mehta, Luca Fumis, Graham McNeill, James D Hayhurst, Ricardo Esteban Martinez Osorio, Ehsan Barkhordari, Javier Ferrer, Miguel Carmona, Prashant Uniyal, Maria J Falaguera, Polina Rusina, Ines Smit, Jeremy Schwartzentruber, Tobi Alegbe, Vivien W Ho, Daniel Considine, Xiangyu Ge, Szymon Szyszkowski, Yakov Tsepilov, Maya Ghoussaini, Ian Dunham, David G Hulcoop, Ellen M McDonagh, David Ochoa, Open Targets Platform: facilitating therapeutic hypotheses building in drug discovery, Nucleic Acids Research, Volume 53, Issue D1, 6 January 2025, Pages D1467–D1475, https://doi.org/10.1093/nar/gkae1128
[2]. Yintao Zhang, Ying Zhou, Hangwei Xu, Wanghao Jiang, Bo Li, Dianyu Lai, Cong Wan, Shanshan Wang, Mingxiao Zhao, Ying Tan, Songlin Lu, Tingting Fan, Xin Liu, Feng Zhu, Yuzong Chen, Therapeutic target database 2026: facilitating targeted therapies and precision medicine, Nucleic Acids Research, Volume 54, Issue D1, 6 January 2026, Pages D1692–D1701, https://doi.org/10.1093/nar/gkaf1154