编译| 杨慧丹 审稿| 王玉杰
近十年来,许多制药公司和生物技术公司重新调整了战略,以利用人工智能(AI)的潜力进行药物发现和开发。人工智能可以为药物开发中复杂而漫长的发现过程提供更高的精度,从而缩短研发时间以及降低成本。
近日,加拿大Mila实验室( https://mila.quebec/ )的唐建教授团队做出重大举措,宣布开源一个功能强大且灵活的药物研发平台——TorchDrug。TorchDrug由MilaGraph发起,旨在推进人工智能在药物发现方向的开源共享,加速整个药物研发的进展。
1
平台介绍
TorchDrug是一个专为药物发现设计的机器学习平台,涵盖了从图机器学习(图神经网络、几何深度学习和知识图谱)、深度生成模型到强化学习的技术,它提供了一个全面而灵活的接口来支持PyTorch中药物发现模型的快速原型设计。
TorchDrug具有四项主要功能,包括:
最小化领域知识
TorchDrug提取了大部分领域知识并提供了基于张量的接口,它允许用户使用张量代数和机器学习运算来操作生物医学对象。
mol = data.Molecule.from_smiles("C1=CC=CC=C1", node_feature="default")
model = models.GIN(input_dim=mol.node_feature.shape[-1], hidden_dims=[128, 128])
output = model(mol, mol.node_feature.float())
数据集和构建模块
平台拥有大量数据集和构建模块,用户无需编写示例代码即可轻松在TorchDrug中实现标准模型。构建模块也具有非常良好的扩展性,以促进模型设计的探索。
qm9 = datasets.QM9("~/molecule-datasets")
model = layers.Sequential(
layers.GCNConv(qm9.node_feature_dim, 128),
layers.GCNConv(128, 128),
layers.SumReadout(),
global_args=("graph",))
mol = qm9[0]["graph"]
feature = model(mol, mol.node_feature.float())
综合基准测试
研究人员对平台进行了多项药物发现任务的综合基准测试,系统地对热门的深度学习架构进行了对比。基准测试结果有望跟踪新模型的进展,并激发新的研究方向。
可扩展的训练和推理
TorchDrug具备可扩展性,可在多个CPU或GPU上加速训练和推理。用户仅需一行代码,即可在CPU、GPU甚至分布式设置之间无缝切换。
# Single CPU / Multiple CPUs / Distributed CPUs
solver = core.Engine(task, train_set, valid_set, test_set, optimizer)
# Single GPU
solver = core.Engine(task, train_set, valid_set, test_set, optimizer, gpus=[0])
# Multiple GPUs
solver = core.Engine(task, train_set, valid_set, test_set, optimizer, gpus=[0, 1, 2, 3])
# Distributed GPUs
solver = core.Engine(task, train_set, valid_set, test_set, optimizer, gpus=[0, 1, 2, 3, 0, 1, 2, 3])
同时,该平台还提供包括属性预测、预训练分子表征、De Novo分子生成与优化、反应预测与逆合成等多个教程,以指导用户使用。
TorchDrug本质上是一个基于PyTorch的机器学习工具箱,它涵盖了最新的模型和基准,以及易于使用和可扩展的构建模块。图是TorchDrug中的基本数据结构,药物发现中的一个图的具体实例是分子,它可能具有额外的化学约束和特征,也可以将一组任意图进行批处理,以最大限度地提高硬件利用率。TorchDrug 提供了大量热门的用于药物发现和图表示学习的数据集和模型,帮助用户尽可能少地编写和调试示例代码。
2
平台展望
唐教授表示,虽然用于药物发现的人工智能继续不负众望,但药物发现的未来依赖于培育一个丰富的开源社区,并说道:“我们希望这个平台能够将机器学习和生物医学界的研究人员聚集在一起,加速药物发现的过程,并成为未来机器学习药物发现的领先的开源平台。” 该团队还计划通过几何深度学习方法将该平台进一步扩展到3D结构建模与生成。
参考资料
1.平台链接:http://torchdrug.ai/
2.Tang J, Wang F, Cheng F. Artificial Intelligence for Drug Discovery[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 4074-4075.
https://doi.org/10.1145/3447548.3470796
3.https://deepgraphlearning.github.io/DrugTutorial_KDD2021/
4. https://doi.org/10.1145/3447548.3470796