首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >CoTox:以思维链推理重构分子毒性预测的可解释性范式

CoTox:以思维链推理重构分子毒性预测的可解释性范式

作者头像
MindDance
发布2026-01-08 13:04:38
发布2026-01-08 13:04:38
2280
举报

CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction

期刊: arxiv 链接: https://www.arxiv.org/abs/2508.03159 代码: https://github.com/dmis-lab/CoTox 简介: 该论文针对药物研发中毒性预测的挑战,提出了 CoTox 框架,其创新点在于整合大语言模型(LLMs)与思维链(CoT)推理,结合化学结构数据、生物通路和基因本体(GO)术语,实现可解释的多毒性预测。方法上,CoTox 采用 IUPAC 名称作为化学结构输入,通过结构化提示词引导 LLMs 进行分步推理,并融入筛选后的毒性相关生物信息。实验使用 UniTox 数据集,对比了传统机器学习、深度学习模型及不同提示策略的 LLMs,结果显示 CoTox 在多种器官特异性毒性预测上表现更优,其中基于 IUPAC 的 CoTox 平均 F1 分数达 0.663,优于 XGBoost(0.576)和 Chemprop(0.619)。该论文证明了 LLM-based 框架在提高毒性预测可解释性和支持早期药物安全评估方面的潜力。


药物毒性始终是制约药物研发进程的核心瓶颈,据统计,超过90%的候选药物因未被预见的毒性问题在临床开发阶段终止,即便成功上市的药物也可能因潜在毒性被迫撤回,这不仅造成巨额经济损失,更对患者安全构成严重威胁。传统的机器学习与深度学习模型在in silico毒性预测领域虽有应用,但过度依赖标注数据、缺乏可解释性的固有缺陷,使其难以捕捉由复杂生物学机制驱动的器官特异性毒性。在此背景下,韩国延世大学团队提出的CoTox框架,通过整合大语言模型(LLMs)与思维链(Chain-of-Thought, CoT)推理策略,为解决上述问题提供了创新性方案,其研究成果《CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction》为药物毒性预测领域带来了突破性进展。

现有毒性预测方法的局限性与CoTox的创新定位

传统机器学习(如XGBoost)与深度学习模型(如基于图神经网络的Chemprop)在毒性预测中主要依赖分子结构特征的模式识别,但这类方法存在两大关键局限:一是对标注数据的强依赖性,在缺乏实验数据的新化合物上表现不佳;二是预测过程的“黑箱”特性,无法解释毒性与分子结构、生物通路之间的关联,难以支撑药物优化的机制性决策。

近年来,大语言模型(LLMs)凭借其上下文推理能力展现出毒性预测潜力,但现有研究仍存在明显短板:其一,输入形式多采用SMILES字符串,这类化学专用编码与自然语言差异较大,导致LLMs难以充分解析分子结构特征;其二,仅依赖结构信息进行预测,忽略了生物通路、基因功能等关键生物学背景,无法解释毒性的器官特异性机制;其三,缺乏明确的推理过程,预测结果的可信度与可追溯性不足。

CoTox框架的核心创新在于多维度信息融合结构化推理机制的结合。它突破了单一结构信息的限制,将化学结构(以IUPAC命名表示)、生物通路与基因本体(GO)术语整合为推理基础,并通过思维链策略引导LLMs进行 step-by-step 推理,既提升了预测准确性,又实现了毒性机制的可解释性。

CoTox框架的技术架构与工作流程

该图分为两部分展示了 CoTox 的工作流程。(A)毒性提示构建部分:从 CTD 数据库中提取与化合物相关的通路和 GO 术语,经 GPT-4o 筛选出毒性相关信息,再结合通过 PubChem 获取的 IUPAC 名称,整合形成毒性提示。(B)LLM 推理过程部分:基于构建的毒性提示,通过结构化指令引导 LLM 进行推理,生成包含推理过程和预测结果(如心脏毒性、肝毒性等的 “有毒” 或 “无毒” 判断及最终答案列表)的输出,体现了框架整合生物数据与化学结构进行毒性预测的核心逻辑。
该图分为两部分展示了 CoTox 的工作流程。(A)毒性提示构建部分:从 CTD 数据库中提取与化合物相关的通路和 GO 术语,经 GPT-4o 筛选出毒性相关信息,再结合通过 PubChem 获取的 IUPAC 名称,整合形成毒性提示。(B)LLM 推理过程部分:基于构建的毒性提示,通过结构化指令引导 LLM 进行推理,生成包含推理过程和预测结果(如心脏毒性、肝毒性等的 “有毒” 或 “无毒” 判断及最终答案列表)的输出,体现了框架整合生物数据与化学结构进行毒性预测的核心逻辑。

该图分为两部分展示了 CoTox 的工作流程。(A)毒性提示构建部分:从 CTD 数据库中提取与化合物相关的通路和 GO 术语,经 GPT-4o 筛选出毒性相关信息,再结合通过 PubChem 获取的 IUPAC 名称,整合形成毒性提示。(B)LLM 推理过程部分:基于构建的毒性提示,通过结构化指令引导 LLM 进行推理,生成包含推理过程和预测结果(如心脏毒性、肝毒性等的 “有毒” 或 “无毒” 判断及最终答案列表)的输出,体现了框架整合生物数据与化学结构进行毒性预测的核心逻辑。

毒性提示词构建:多源信息的精准整合

CoTox的提示词构建过程旨在为LLMs提供全面且相关的推理依据,主要包含三个关键步骤:

生物信息提取与筛选:研究团队从比较毒理基因组学数据库(CTD)中获取化合物关联的通路与GO术语,再通过GPT-4o进行语义过滤,仅保留与毒性相关的条目(如“EGFR信号通路”“心脏发育调控”等),确保输入生物学信息的针对性。这一步骤解决了公共数据库中信息冗余的问题,使模型聚焦于毒性机制相关的生物过程。

化学结构的自然语言转化:不同于传统的SMILES字符串,CoTox采用IUPAC命名作为分子结构的输入形式。通过PubChemPy工具调用PubChem数据库,获取化合物的标准化IUPAC名称(如“N-(5-磺酰基-1,3,4-恶二唑-2-基)乙酰胺”)。IUPAC命名以自然语言为基础,能够直观反映分子中的官能团、环系结构及取代基位置,更符合LLMs的语言理解范式,有助于模型解析结构与毒性的关联。

提示词整合:最终的提示词包含化合物的IUPAC名称、筛选后的毒性相关通路及GO术语,形成“化学-生物”双维度的推理基础,为后续的结构化推理提供完整信息支撑。

基于思维链的LLM推理:模拟毒理学家的分析逻辑

CoTox设计了严格的结构化推理流程,引导LLMs模拟毒理学家的分析思路,分为四个递进步骤:

第一步,解析通路与毒性机制的关联性。例如,当输入“cAMP信号通路”时,模型需推理其与心脏收缩功能的潜在关联,判断是否存在干扰心脏正常生理功能的可能。

第二步,解读GO术语的生物学意义。通过“肝脏再生”“脂质羟基化”等术语,推断化合物对特定器官功能的影响方向,如“脂质羟基化异常可能暗示肝脏代谢功能紊乱”。

第三步,基于IUPAC名称解析分子结构特征。识别与毒性相关的结构 motif,如“含氟芳香环可能引发氧化应激”“磺酰胺基团可能干扰酶活性”等。

第四步,综合上述分析,形成器官特异性毒性的完整推理链,并输出“有毒”或“无毒”的二元预测结果。所有推理过程与预测结果以标准化JSON格式呈现,确保结果的一致性与可追溯性。

这种结构化推理机制不仅提升了预测的可解释性,更使模型能够像研究人员一样“阐述”毒性机制,为药物优化提供明确的结构修饰方向。

实验验证与性能分析

数据集与实验设计

研究采用UniTox数据集进行性能评估,该数据集包含2418种FDA批准药物的毒性标注,涵盖心脏、血液、生殖、肝脏、肺、肾脏6类器官特异性毒性(排除了类别失衡的皮肤毒性与耳毒性),标注结果经FDA数据库与临床专家验证,具有较高可靠性。实验中,548种可从CTD数据库获取生物信息的化合物被用作测试集,其余用于基线模型训练。

基线模型包括传统机器学习方法XGBoost与深度学习模型Chemprop,LLM相关实验则对比了四种提示策略:零样本(仅输入分子结构)、少样本(加入4个示例)、思维链(CoT,引导分步推理)及CoTox(整合结构与生物信息的CoT),并测试了GPT-4o、Llama3.1、Gemini-2.5-Pro等多种LLMs的性能差异。评估指标采用F1分数,以平衡分类任务中的精确率与召回率。

核心实验结果与分析

提示策略对比:结果显示,仅依赖化学结构的零样本与少样本策略性能有限(平均F1为0.368-0.434),而引入思维链推理后性能有所提升(IUPAC-CoT的平均F1为0.417)。当进一步整合生物信息后,CoTox策略表现最优,其中基于IUPAC的CoTox平均F1达0.663,显著高于传统模型(XGBoost为0.576,Chemprop为0.619),证实了多源信息融合与结构化推理的协同优势。

该表比较了传统机器学习(XGBoost)、深度学习(Chemprop)及 GPT-4o 在不同提示策略下对六种毒性类型的预测性能。结果显示,仅使用化学结构的方法中,少样本提示优于零样本和 CoT 提示;加入生物过程信息的 BioProcess-CoT 性能提升;而结合化学与生物信息的 CoTox(IUPAC)平均 F1 分数最高(0.663),优于传统模型和其他提示策略,尤其在血液和肝毒性预测上表现突出,验证了多信息融合和 IUPAC 输入的有效性。
该表比较了传统机器学习(XGBoost)、深度学习(Chemprop)及 GPT-4o 在不同提示策略下对六种毒性类型的预测性能。结果显示,仅使用化学结构的方法中,少样本提示优于零样本和 CoT 提示;加入生物过程信息的 BioProcess-CoT 性能提升;而结合化学与生物信息的 CoTox(IUPAC)平均 F1 分数最高(0.663),优于传统模型和其他提示策略,尤其在血液和肝毒性预测上表现突出,验证了多信息融合和 IUPAC 输入的有效性。

该表比较了传统机器学习(XGBoost)、深度学习(Chemprop)及 GPT-4o 在不同提示策略下对六种毒性类型的预测性能。结果显示,仅使用化学结构的方法中,少样本提示优于零样本和 CoT 提示;加入生物过程信息的 BioProcess-CoT 性能提升;而结合化学与生物信息的 CoTox(IUPAC)平均 F1 分数最高(0.663),优于传统模型和其他提示策略,尤其在血液和肝毒性预测上表现突出,验证了多信息融合和 IUPAC 输入的有效性。

模型适应性分析:在不同LLMs上的测试表明,Gemini-2.5-Pro表现最佳(平均F1=0.700),其次为Llama3.1-8B(0.685)与GPT-4o(0.663),而专门针对生物医学任务微调的TxGemma模型性能最差(平均F1=0.421),这可能与其对生物通路与GO术语的解析能力不足有关。值得注意的是,推理型LLMs(如o3、Qwen3-32B)在IUPAC输入下的性能较SMILES提升10%-15%,印证了自然语言化分子表征对推理能力的促进作用。

该表展示了多种 LLM(包括通用型、专家型和推理型)使用 CoTox 提示时的预测性能,以及 IUPAC 与 SMILES 输入的性能差距。结果显示,Gemini-2.5-Pro 整体表现最佳(平均 F1=0.700),Llama3.1-8B 次之;推理型 LLM 在 IUPAC 输入下性能提升显著(如 o3 提升 15.6%),而专家型 TxGemma 表现最差;多数模型使用 IUPAC 时性能更优,表明 IUPAC 更适配 LLM 的推理能力,而模型的推理能力对 CoTox 性能至关重要。
该表展示了多种 LLM(包括通用型、专家型和推理型)使用 CoTox 提示时的预测性能,以及 IUPAC 与 SMILES 输入的性能差距。结果显示,Gemini-2.5-Pro 整体表现最佳(平均 F1=0.700),Llama3.1-8B 次之;推理型 LLM 在 IUPAC 输入下性能提升显著(如 o3 提升 15.6%),而专家型 TxGemma 表现最差;多数模型使用 IUPAC 时性能更优,表明 IUPAC 更适配 LLM 的推理能力,而模型的推理能力对 CoTox 性能至关重要。

该表展示了多种 LLM(包括通用型、专家型和推理型)使用 CoTox 提示时的预测性能,以及 IUPAC 与 SMILES 输入的性能差距。结果显示,Gemini-2.5-Pro 整体表现最佳(平均 F1=0.700),Llama3.1-8B 次之;推理型 LLM 在 IUPAC 输入下性能提升显著(如 o3 提升 15.6%),而专家型 TxGemma 表现最差;多数模型使用 IUPAC 时性能更优,表明 IUPAC 更适配 LLM 的推理能力,而模型的推理能力对 CoTox 性能至关重要。

结构表征方式的影响:IUPAC命名在多数模型中表现优于SMILES,尤其在结构特征解析上优势显著。例如,对于Etodolac,IUPAC名称能明确提示“吲哚-吡喃稠环”与“羧酸基团”,支持模型推理其脂溶性与生物活化潜力,而SMILES仅能反映原子连接关系,难以直接关联毒性机制。这种差异源于IUPAC命名的语义丰富性与自然语言兼容性,使其更适合LLMs的分步推理过程。

器官特异性毒性预测:CoTox在血液毒性(F1=0.817)与肝脏毒性(F1=0.768)上表现突出,这与血液与肝脏相关的生物通路研究较为充分、GO术语注释更完善密切相关;而肺毒性与肾毒性的预测难度较高(F1<0.57),可能因这些器官的毒性机制更复杂,现有生物信息覆盖不足所致。

该图通过 Etodolac 和 Enalapril 两种化合物,对比了 SMILES 和 IUPAC 作为输入时的结构推理差异。对于 Etodolac,SMILES 仅模糊描述原子连接性,而 IUPAC 名称能明确体现 “吲哚 - 吡喃稠环”“羧酸基团” 等结构,支持更详细的脂溶性、生物活化潜力等推理;对于 Enalapril,IUPAC 名称可帮助识别 “苯丁酸酯”“二肽结构” 等,更准确关联潜在毒性通路,表明 IUPAC 的解释性和语言对齐性更适合 CoTox 的思维链毒性预测。
该图通过 Etodolac 和 Enalapril 两种化合物,对比了 SMILES 和 IUPAC 作为输入时的结构推理差异。对于 Etodolac,SMILES 仅模糊描述原子连接性,而 IUPAC 名称能明确体现 “吲哚 - 吡喃稠环”“羧酸基团” 等结构,支持更详细的脂溶性、生物活化潜力等推理;对于 Enalapril,IUPAC 名称可帮助识别 “苯丁酸酯”“二肽结构” 等,更准确关联潜在毒性通路,表明 IUPAC 的解释性和语言对齐性更适合 CoTox 的思维链毒性预测。

该图通过 Etodolac 和 Enalapril 两种化合物,对比了 SMILES 和 IUPAC 作为输入时的结构推理差异。对于 Etodolac,SMILES 仅模糊描述原子连接性,而 IUPAC 名称能明确体现 “吲哚 - 吡喃稠环”“羧酸基团” 等结构,支持更详细的脂溶性、生物活化潜力等推理;对于 Enalapril,IUPAC 名称可帮助识别 “苯丁酸酯”“二肽结构” 等,更准确关联潜在毒性通路,表明 IUPAC 的解释性和语言对齐性更适合 CoTox 的思维链毒性预测。

案例研究:CoTox的机制解析能力与临床价值

普萘洛尔的毒性推理验证

普萘洛尔(一种β受体阻滞剂)的案例中,CoTox准确预测其心脏毒性与肝脏毒性,并给出合理机制解释:心脏毒性方面,模型关联“内在凋亡通路”与“氧化应激”相关GO术语,结合IUPAC名称中的“丙醇胺侧链”,推理其通过阻断β肾上腺素受体引发心肌细胞凋亡,与已知药理机制一致;肝脏毒性方面,模型指出其“萘环结构”经CYP2E1代谢生成活性中间体,引发氧化应激与肝细胞损伤,这与文献报道的代谢途径完全吻合。对于肾毒性,模型因未发现相关通路与结构警示(如氨基糖苷类特征),正确预测为“无毒”,与临床认知一致。该案例验证了CoTox推理过程的科学性与可靠性。

该表展示了 Gemini-2.5-Pro 结合 CoTox 对普萘洛尔的毒性预测结果。模型对心脏毒性、血液毒性、肝毒性、肺毒性预测为 “有毒”,对不育和肾毒性预测为 “无毒”,且每个预测都有对应的推理过程,如心脏毒性涉及 “内在凋亡通路” 和 “丙醇胺侧链” 的作用,肝毒性与 “CYP2E1 代谢” 和 “萘环结构” 相关,肾毒性因缺乏相关通路和结构警示而预测为无毒,其推理与已知毒理机制和文献一致,验证了 CoTox 推理的可靠性。
该表展示了 Gemini-2.5-Pro 结合 CoTox 对普萘洛尔的毒性预测结果。模型对心脏毒性、血液毒性、肝毒性、肺毒性预测为 “有毒”,对不育和肾毒性预测为 “无毒”,且每个预测都有对应的推理过程,如心脏毒性涉及 “内在凋亡通路” 和 “丙醇胺侧链” 的作用,肝毒性与 “CYP2E1 代谢” 和 “萘环结构” 相关,肾毒性因缺乏相关通路和结构警示而预测为无毒,其推理与已知毒理机制和文献一致,验证了 CoTox 推理的可靠性。

该表展示了 Gemini-2.5-Pro 结合 CoTox 对普萘洛尔的毒性预测结果。模型对心脏毒性、血液毒性、肝毒性、肺毒性预测为 “有毒”,对不育和肾毒性预测为 “无毒”,且每个预测都有对应的推理过程,如心脏毒性涉及 “内在凋亡通路” 和 “丙醇胺侧链” 的作用,肝毒性与 “CYP2E1 代谢” 和 “萘环结构” 相关,肾毒性因缺乏相关通路和结构警示而预测为无毒,其推理与已知毒理机制和文献一致,验证了 CoTox 推理的可靠性。

恩替卡韦的潜在毒性发现

恩替卡韦(抗乙肝病毒药物)的案例更凸显了CoTox的临床价值。基于器官特异性细胞系的基因表达数据,CoTox预测其具有肾毒性,尽管这与FDA标签中的结论冲突,但近期临床研究显示,长期使用恩替卡韦的患者肾功能下降风险显著升高(HR=4.05,p<0.001)。这一结果表明,CoTox能够捕捉传统毒理评估中被忽略的潜在毒性信号,为早期药物安全评估提供补充视角,尤其对缺乏长期临床数据的新药具有重要预警价值。

该表呈现了 Gemini-2.5-Pro 结合 CoTox 对恩替卡韦在肝、肺、肾三个器官上的毒性预测结果。模型正确预测了肝毒性(基于 GO 术语和鸟苷类似物结构)和肺无毒(缺乏相关通路和结构特征),但误判肾毒性为 “有毒”。不过,近期临床研究显示恩替卡韦可能存在肾功能下降风险,表明 CoTox 可能捕捉到传统标签未涵盖的潜在毒性信号,体现了其在早期毒性风险评估中的实用价值。
该表呈现了 Gemini-2.5-Pro 结合 CoTox 对恩替卡韦在肝、肺、肾三个器官上的毒性预测结果。模型正确预测了肝毒性(基于 GO 术语和鸟苷类似物结构)和肺无毒(缺乏相关通路和结构特征),但误判肾毒性为 “有毒”。不过,近期临床研究显示恩替卡韦可能存在肾功能下降风险,表明 CoTox 可能捕捉到传统标签未涵盖的潜在毒性信号,体现了其在早期毒性风险评估中的实用价值。

该表呈现了 Gemini-2.5-Pro 结合 CoTox 对恩替卡韦在肝、肺、肾三个器官上的毒性预测结果。模型正确预测了肝毒性(基于 GO 术语和鸟苷类似物结构)和肺无毒(缺乏相关通路和结构特征),但误判肾毒性为 “有毒”。不过,近期临床研究显示恩替卡韦可能存在肾功能下降风险,表明 CoTox 可能捕捉到传统标签未涵盖的潜在毒性信号,体现了其在早期毒性风险评估中的实用价值。

结论与展望

CoTox框架通过整合化学结构(IUPAC命名)、生物通路与GO术语,结合思维链推理策略,实现了分子毒性的精准预测与机制解析,其性能全面超越传统模型,为药物研发的早期毒性评估提供了新工具。该框架的核心优势在于:一是采用自然语言化的分子表征(IUPAC),提升了LLMs对结构特征的解析能力;二是引入生物背景信息,使预测扎根于生物学机制;三是通过结构化推理实现可解释性,为药物优化提供方向。

未来研究可进一步拓展其应用边界,例如整合剂量-效应关系、多组学数据(如蛋白质组、代谢组)以提升预测的全面性,或针对毒性机制复杂的器官(如肺、肾脏)优化生物信息输入,降低预测误差。CoTox的开源代码与提示词模板为学术界与工业界提供了实用工具,有望推动LLMs在药物安全评估领域的规模化应用,加速安全高效药物的研发进程。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction
  • 现有毒性预测方法的局限性与CoTox的创新定位
  • CoTox框架的技术架构与工作流程
    • 毒性提示词构建:多源信息的精准整合
    • 基于思维链的LLM推理:模拟毒理学家的分析逻辑
  • 实验验证与性能分析
    • 数据集与实验设计
    • 核心实验结果与分析
  • 案例研究:CoTox的机制解析能力与临床价值
    • 普萘洛尔的毒性推理验证
    • 恩替卡韦的潜在毒性发现
  • 结论与展望
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档