AlphaFold3来了！全面预测蛋白质与所有生命分子相互作用及结构，引领药物研发新革命

Tom2Code

发布于 2024-07-19 18:48:23

2.3K3

文章被收录于专栏：TomTom

近年来，深度学习领域的迅速进步对蛋白质设计产生了显著影响。最近，深度学习方法在蛋白质结构预测方面取得了重大突破，使我们能够得到数百万种蛋白质的高质量模型。结合用于生成建模和序列分析的新型架构，这些方法在过去几年里极大改变了蛋白质设计领域，提高了识别新蛋白质序列和结构的准确性和能力。深度神经网络现在能够学习和提取蛋白质结构的基本特征，预测它们与其他生物分子的相互作用，并且有潜力创造用于治疗疾病的新型药物。

单细胞多组学技术是指结合多种不同的生物学技术，对单个细胞进行多方面的分析和研究，从而获得更全面、更准确的单细胞数据。该技术包括单细胞基因组学、单细胞转录组学、单细胞蛋白质组学、单细胞表观组学等。单细胞多组学技术的发展为我们提供了一种更加精确理解生物体内复杂的细胞类型和功能的方式，尤其是对于异质性细胞群体中少数的特殊细胞类型如干细胞或罕见癌细胞，具有非常重要的应用价值。通过融合不同技术获得的信息，单细胞多组学可以更准确地描述单个细胞在多个生命事件和过程中的状态与变化，为生命科学的研究提供更加全面和深入的视角。

代谢组学是对某一生物或细胞在一特定生理时期内所有代谢产物同时进行定性定量分析的学科，被广泛用于揭示小分子与生理病理效应间的关系。目前，代谢组学已经被应用于药物开发的各个阶段（如药物靶标识别、先导化合物发现、药物代谢分析、药物响应和耐药研究等）。基于代谢组学的高性价比特性，它被药学领域的研究者给予了厚望，有望加速新药开发的进程。然而，代谢组领域还面临着严重的信号处理与数据分析问题，对其在新药研发中的应用构成了巨大挑战。为了有效消除由环境、仪器和生物因素所引入的不良信号波动，就需要开发针对代谢组信号系统优化的新方法，为不同组学研究量身定制最优的数据分析策略。

三大前沿课程目录

一、深度学习蛋白质设计

二、单细胞多组学

三、机器学习代谢组学

四、CADD计算机辅助药物设计

以下为课程内容介绍

一、深度学习蛋白质设计

STUDY

课程目标：

本课程从零基础开始学习，对 Python 编程基础、Linux 常用命令和 Machine Learning/Deep Learnings 领域相关算法进行详细讲解，并结合当前蛋白质设计方面的论文文献讲解相关技术的应用。主要介绍蛋白质设计的底层逻辑与基本规则，学习蛋白质结构预测、蛋白质序列设计、蛋白质-蛋白质相互作用分析、以及蛋白质功能注释和优化方法，掌握深度学习在蛋白质设计中的常见算法以及实际方法，培养学生具备基本的深度学习蛋白质设计能力和蛋白质人工智能应用的前沿视野，为参与解决生物医学、生物工程和生物能源等方面的重大问题提供更多机会。

课程内容主要分为三个方面：

（1）结构到序列的预测基础：基于结构的蛋白质设计是蛋白质结构预测的

逆过程。学生将学会通过生物信息学工具分析蛋白质序列，预测其二级结构和三维结构，并初步理解结构与功能之间的关联。

（2）ML/DL 算法模型应用与评估：深度学习可以用于预测蛋白质序列的

功能和稳定性。学生将能够使用机器学习或深度学习算法模型进行蛋白质特定功能和序列稳定性预测，同时学习如何评估模型的准确性和可靠性。

（3）蛋白质设计应用实践：深度学习通过预测蛋白质-蛋白质之间的相互作

用、蛋白质的功能以及生物属性为生物制药、生物医学等方面提供了新的方向。学生将通过以上学习的与蛋白质序列、结构和功能预测相关的原理，学会设计新的蛋白质复合物和抗体，识别蛋白质的功能域、结构域和功能位点等，通过神经网络和生成对抗网络的应用，优化和筛选符合特定要求的蛋白质。

TEACHER

授课老师

Dr.Pang, 生物信息学博士，有8年生物数据分析、多组学交叉领域研究经验，曾在国内外多家知名生物医药企业和科研院所有任职经历，对机器学习、深度学习、基因组学、转录组学、代谢组学以及蛋白质组学等有深入研究，发表SCI论文18篇，其中一作及通讯作者9篇。

向下划动查看全部内容

第一天 Python 编程基础知识

1. Python 基础

1.1 Python 简介：了解 Python 的发展历史、特点、现状，以及与其他编程语

言的比较。

1.2 安装和设置 Python 环境：安装 Python3 ，设置开发环境（如

Anaconda(miniconda)、Jupyter notebook）并运行第一个 Python 程序。

1.3 Python 变量和数据类型：数据类型（整数、浮点数、字符串、布尔值）、

表定制等。

4. 数据分析与可视化

4.1 Pandas：使用 Pandas 进行高级的数据分析操作，包括如何去做数据清洗、

预处理和排序等数学计算，数据的分箱技术，分组技术，聚合技术，以及透视表

等。

4.2 数据可视化：介绍 Seaborn 的基本使用，以及和 Matplotlib 的功能对比，

使用 Matplotlib 和 Seaborn 进行高级数据可视化。

5. 蛋白质设计中的特定应用

5.1 BioPython 包的使用：DNA，RNA 和蛋白质序列处理，访问主要的遗传

数据库（如 GenBank，SwissPort，FASTA 等）访问，执行基本生物学数据分析。

5.2 Python 脚本编写：将常见的蛋白质处理任务编写为自动化脚本，如序列

对比、结构预测等。

5.3 机器学习快速入门：学习使用 Scikit-learn 进行特征提取、机器学习模型

训练、评估和优化。

6. 实战案例

6.1 案例 1：蛋白质序列数据分析入门，如统计特定序列的频率、可视化序

列分布等。

6.2 案例 2：蛋白质结构预测基础，使用机器学习技术预测蛋白质的二级结

构或功能位点。

6.3 案例 3：开发一个自动化的蛋白质分析工具，集成数据处理、分析及可视

化功能。

第二天 Linux Shell 命令行操作基础

1. Shell 环境简介

1.1 什么是 Shell：了解 Shell 是什么，为什么要学习 Shell，以及它如何与操

作系统交互。

1.2 不同类型的 Shell 介绍：Bash、Zsh、Tcsh。

1.3 访问 Shell：如何打开终端窗口，基础的命令行界面操作。

2. 基础命令

2.1 文件系统操作：wc, cd, ls, pwd, rm, cp, mv 等命令的使用。

2.2 文件操作：mkdir, touch, more, less, head, tail, grep, find 等命令。

2.3 权限和所有权：使用 chmod, chown, chgrp 改变文件的权限和所有权。

2.4 文本处理：echo, cat, cut, sort, uniq, tr, awk, sed 等工具的基本使用。

2.5 归档和压缩：tar, gzip, gunzip, zip, unzip 等命令的使用。

3. Shell 脚本编写

3.1 Shell 变量和数据类型：定义和使用 String、int、float 和 array 变量。

3.2 流程控制与条件语句：if, else, elif, case 等语句的使用。

3.3 循环结构：for, while, until 循环的使用。

3.4 输入和输出：处理用户输入和脚本输出。

3.5 引用和转义字符：学习在命令行中正确使用单引号、双引号和转义字符。

3.6 高级文本编辑器 Vim 的配置和使用 Vim

3.7 创建和执行 Shell 脚本：编写一个简单的脚本并使其接收参数和执行。

4. 高级 Shell 编程

4.1 函数的高级用法：定义和使用函数，学习如何传递参数和调用函数。

4.2 调试 Shell 脚本：如何调试 Shell 脚本，包括设置和使用调试选项。

4.3 基本正则表达式的应用，学习文本处理三剑客 grep、sed、awk。

4.4 环境变量管理：了解 PATH 和其他环境变量的作用和管理方法。

5. 实用案例

5.1 案例 1: 使用 Python 运行 Shell 脚本。

5.2 案例 2: 编写一个自动整理下载并整理蛋白质序列数据的脚本。

5.3 案例 3: PDB 文件分析脚本的编写。

第三天机器学习与深度学习基础

1. 统计学习理论基础

1.1 统计学习方法概述

1.2 传统有监督学习方法介绍

（a) 感知机与决策树算法

（b) K 近邻与朴素贝叶斯法

（c) 逻辑回归与支持向量机算法

（d) 随机森林算法与隐马尔可夫模型

1.3 集成学习算法重点介绍：GBDT、XGBoost

1.4 无监督学习与聚类算法

1.5 特征工程与模型评估

2. 神经网络与深度学习方法基础

2.1 人工神经网络基础知识

2.2 多层感知机

2.3 卷积神经网络：学习卷积的内涵、卷积的概念与特征、池化操作等

2.4 典型卷积神经网络算法结构、训练方法及应用

2.5 循环神经网络基本原理与模型介绍

2.6 长短期记忆神经网络模型及应用场景

3. 生成式神经网络

3.1 自动编码器

3.2 变分自动编码器

3.3 生成对抗网络

（a) 生成对抗网络基本原理

（b) Encoder-Decoder 模型

（c) DCGAN 和 WGAN 算法示例

4. 注意力机制

4.1 Seq2Seq 模型

4.2 (自)注意力机制模型的原理和工作机制

4.3 Transformer 模型及应用

4.4 BERT 模型与预训练方法介绍

4.5 基于 BERT 模型实现文本生成实验

5. 深度学习蛋白质设计入门

5.1 理解蛋白质设计的主要概念

5.2 传统从序列推断功能的方式介绍

5.3 机器学习领域中预测蛋白质功能的方法与局限性

5.4 了解 Pre-Trained Embeddings 方法的蛋白质设计方法

5.5 生成模型在蛋白质设计上的使用及优势

第四天深度学习蛋白质设计基础

1. 深度学习蛋白质设计概述

1.1 蛋白质设计的背景与当前现状，

1.2 蛋白质设计面临的困难、传统方法与途径

（a) 从序列预测蛋白质结构：同源建模、共进化信息

（b) 使用神经网络预测蛋白质结构

1.3 蛋白质设计的关键点：序列、结构、功能、能量

1.4 蛋白质设计的目标：设计一个给定结构或功能的蛋白质

1.5 当前深度学习方法在蛋白质设计中的进展

（a) 基于序列的深度学习方法：DeepSequence，Progen，ProteinBERT 等

（b) 基于结构的深度学习方法：AlphaFold2, ColabFold, RoseTTAFold,

OmegaFold 等

（c) 其他蛋白质深度学习方法：

1.6 蛋白质设计方法的评估（亲和力、催化活性、配体特异性等）

2. 蛋白质设计概述

1.1 蛋白质序列表示形式

（a) 独热编码（One-Hot Encoding）

（b) 嵌入表示（Learned Embedding）

（c) 特定位置评分矩阵（Position-Specific Scoring Matrix）

1.2 蛋白质结构的表示形式

（a) 基于顺序和手工修正的表示

（b) Voxel 表示

（c) 距离图

（d) 图表示形式：图和点云

1.3 蛋白质结构可视化工具介绍和使用

（a) 蛋白质数据结构文件格式 PDB 介绍

（b) PyMOL：查看和分析蛋白质、DNA 和小分子的 3D 结构

（c) Chimera：综合性分子建模程序，提供多种分析和可视化功能，包括

体积数据的处理。

（d) VMD:一个分子可视化程序，用于使用 3D 图形和内置脚本显示、动

态化和分析大型生物分子系统。

1.4 蛋白质设计的常用评估指标：NSR、RMSD、GDT、能量评分函数、可

溶性、与靶标之间的结合强度和特异性

3. 蛋白质数据库介绍

1.1 一级蛋白质序列数据库：UniProtKB

1.2 一级蛋白质结构数据库：PDB

1.3 二级蛋白质数据库：Pfam，CATH，SCOP2

1.4 专用数据库：KEGG，OMIM

4. 蛋白质设计工具箱介绍

1.1 Rosetta：提供一个灵活的函数库来完成一组不同生物分子的建模任务,

完成对各种生物分子系统的预测、设计和分析，包括蛋白、RNA 和 DNA、肽、

小分子以及非标准或衍生氨基酸。

1.2 Foldit: 一个结合了游戏和科学的蛋白质折叠和设计平台，允许用户通过

游戏界面参与蛋白质设计。

1.3 Bioluminate: 是 Schrödinger 提供的一套生物分子建模和设计工具，包含

蛋白质设计模块。集成了高质量的分子动力学模拟和自由能计算，适用于精准设

计和预测。

1.4 EvoDesign：一个基于进化信息和结构模拟的蛋白质设计工具，主要用于

功能性蛋白质设计。

1.5 OpenFold: 是 AlphaFold2 的开源实现，具有相同的架构，但拥有改进的

速度和内存使用效率。

5. Rosetta 工具箱使用案例：一种基于统计势函数的蛋白质设计方法

1.1 统计势函数的一般定义：基于对已知蛋白质结构的大规模数据库的统计

分析，提取出各种结构特征之间的概率分布。

1.2 蛋白质设计中的统计势函数介绍

(a) 学习 Rosetta 工具箱中统计势函数定义和基本理念

(b) Rosetta 工具箱中能量函数常见项及物理意义

1.3 基于 Rosetta 工具箱中统计势函数的蛋白质设计案例

(a) 使用 Rosetta 工具检查输入的 PDB 文件，预处理，确定设计目标

(b) 执行序列设计实验，使用 Rosetta 的 PackRotamers 协议

量评估

第五天基于深度学习的蛋白质设计进阶

1. 一种基于深度学习的蛋白质序列设计模型 ProteinMPNN

1.1 ProteinMPNN 简介与核心理念：通过深度学习生成具有特定功能的蛋白

质序列

1.2 ProteinMPNN 模型结构与工作原理

(a) ProteinMPNN 技术分析

(b) ProteinMPNN 模型介绍

1.3 基于 ProteinMPNN 的蛋白质设计应用：设计新型抗菌肽

(a) 实验流程：环境配置，数据准备、模型训练、筛选与验证。

(b) 实验总结：学会如何应用 ProteinMPNN 进行实际的蛋白质设计任务。

2. 从统计分析到深度残差网络的蛋白质结构预测算法

2.1 直接耦合分析和互信息计算：分析蛋白质序列中残基之间的相互作用信

息来推测它们之间的耦合关系或互信息。

2.2 深度残差网络和蛋白质接触图预测：深度残差网络可以用来预测蛋白质

的接触图，即残基之间的接触概率或距离，从而揭示蛋白质的结构信息。

2.3 蛋白质距离矩阵预测：预测蛋白质结构中所有残基对之间的距离或接近

程度。

2.4 图神经网络方法：捕捉蛋白质结构中残基之间复杂的相互作用和依赖关

系。

3. 从几何约束的梯度下降法到端到端深度学习的蛋白结构预测

1.1 梯度下降法和其在蛋白结构优化中的应用概述。

1.2 几何约束如何被集成到梯度下降法中，以实现特定的结构优化目标。

1.3 端到端几何深度学习方法介绍以及在蛋白结构预测中的优势和挑战。

1.4 AlphaFold 等先进模型如何利用端到端深度学习实现高效精准的蛋白质

结构预测。

(a) TrRosetta 介绍：使用了经过调整的残基接触预测方法，通过分析多

序列对应（MSA）和残基间的共进化信息来推断蛋白质的三维结构。

(b) AlphaFold 介绍：使用了端到端的深度学习模型，结合了残基对应、

残基接触预测和结构优化等步骤，以预测蛋白质的三维结构。

端几何深度学习方法, 综合利用 MSA、距离和 3D 坐标信息，提高

结构预测的准确性。

4. Alphafold2 详解

4.1 AlphaFold2 的发展背景及其前身 AlphaFold 的演变过程。

4.2 AlphaFold2 的工作原理

(a) 多序列对应（MSA）和残基接触预测：利用多序列对应信息和残基

间的共进化信号来预测蛋白质的三维结构。

(b) Evoformer 架构：介绍 AlphaFold2 中使用的 Evoformer 架构，包括其

在特征提取和结构预测中的应用。

4.3 AlphaFold2 的算法和技术细节

(a) 神经网络架构：AlphaFold2 中的主要神经网络架构和层次结构。

(b) 训练和优化：AlphaFold2 如何通过大规模数据集的训练来优化结构

预测的准确性。

4.4 了解 AlphaFold3 相比于 AlphaFold2 的优势

5. RoseTTAFold 详解

5.1 RoseTTAFold 背景和基本概念

5.2 RoseTTAFold 的工作原理与技术细节

(a) 多序列对应（MSA）和残基接触预测：RoseTTAFold 如何利用多序

列对应信息和残基间的共进化信号来预测蛋白质的三维结构。

(b) 深度神经网络架构：RoseTTAFold 中使用的主要神经网络结构和层

次。

优化模型以提高预测准确性。

5.3 RoseTTAFold 的优势和局限性。

6. 案例演示

6.1 使用 AlphaFold2 进行蛋白质结构在线预测

6.2 使用 RoseTTAFold All-Atom（RFAA）进行蛋白-小分子复合物结构预测

6.3 RoseTTAFold、ProteinMPNN 和 AlphaFold 之间的主要区别

第六天深度学习蛋白质设计应用实战

1. 基于 AlphaFold2 多体蛋白结构预测与设计

1.1 多序列比对与序列拼接配对问题

（a) 多序列比对在蛋白质结构预测中的关键作用。

（b) 序列拼接配对问题如何影响蛋白质结构预测的准确

（c) AlphaFold2 中模板匹配的原理及其应用范围。

（d) 多肽和蛋白质柔性对接的挑战和解决方案。

2. 基于 AlphaFold2 做蛋白结构和序列新设计及结构聚类

2.1 AlphaFold2 如何实现蛋白质序列和结构的新设计

2.2 结构聚类与新功能发现

（a) Alphadatabase 数据库的结构分析与新功能发现。

（b) 使用 Foldseek 工具进行新结构的探索与功能预测。

3. 基于 AlphaFold2 做多构象预测与质量评估

3.1 多构象预测与功能发现

（a) 多序列比对采样聚类分析在蛋白质多构象预测中的应用。

（b) 不同 MSA 对蛋白质构象预测和功能发现的影响。

3.2 模型质量评估与侧链构象优化

（a) 三角机制如何提升蛋白质模型质量评估的准确性。

（b) 局部三角机制和 Evoformer 在蛋白质侧链构象预测中的应用和效果

评估。

4. RFdiffusion 实现通用性蛋白结构生成

4.1 RFdiffusion 基于指定骨架的蛋白质结构设计核心知识点：

4.2 利用用户提供的特定结构框架进行蛋白质结构设计应用案例：

(a) 无约束单体设计（contigmap）：全新骨架的蛋白质结构创新设计，通

过 RFdiffusion 实现从头生成新颖、非同源蛋白质结构；

（b) 特定骨架引导设计 (scaffoldguided)：利用已有结构骨架指导蛋白质

结构创新与改造。

5. ProteinGenerator 与 Rosettafold AA 的进阶应用

5.1 ProteinGenerator 实现蛋白质骨架与序列的 co-design

(a) 隐空间中蛋白质序列和结构的联合分布模型。

(b) 与 RFdiffusion 在设计中的异同和比较分析。

5.2 Rosettafold AA 实现多类生物大分子结构预测与生成

(a) 加入小分子结构预测器的 Rosettafold AA 版本。

(b) 将局部坐标系迁移到小分子结构的技术与方法。

6. 一种蛋白质生成模型 Chroma 的基本构架与实现

6.1 Chroma 模型的基本架构和理论背景。

6.2 利用 Chroma 逼近蛋白构象空间全空间采样和生成的方法。

第七天大语言模型在蛋白质设计中的应用进展

1.蛋白质大预言模型发展现状

1.1 介绍当前基于不同结构的蛋白质语言模型

2. ProGen 介绍

2.1 ProGen 模型构架讲解及其优势

2.2 ProGen 的性能与改进

3. ESMFold 介绍

3.1 ESM 网络构架介绍

3.2 ESMFold 环境配置与使用步骤讲解

3.3 ESMFold 运行结构预测及性能评估

3.4 ESMFold 与 AlphaFold2 方法的对比

4. ProLLaMA：用于多任务蛋白质语言处理的蛋白质大语言模型

4.1 ProLLaMA 模型介绍

4.2 ProLLaMA 训练框架概述及应用特色

5. ProteinBERT：蛋白质序列和功能的通用深度学习模型

5.1 ProteinBERT 方法概述与框架介绍

5.2 ProteinBERT 的优势及应用场景

6. 深度学习算法在多肽设计的应用

6.1 基于 RF diffusion 实现多肽设计

6.2 基于 AlphaFold2 梯度下降进行多肽骨架和序列设计

6.3 多肽对接算法介绍：

(a) 基于 AutoDock 的多肽对接

(b) 基于 AlphaFold2 的多肽柔性对接

6.4 基于多肽蛋白复合物训练的深度学习多肽设计算法

二、单细胞多组学课程

课程目标：

1. 掌握单细胞多组学研究思路以及课题设计方法

2. 掌握R语言基本语法以及基本绘图

3. 掌握单细胞转录组基础分析及高级分析

4. 掌握单细胞转录组多样本比较分析

5. 掌握单细胞ATAC数据分析，以及与转录组数据联合分析

6. 掌握单细胞VDJ数据分析，以及与转录组数据联合分析

TEACHER

授课老师

Dr. Li，生物信息学博士，有十余年的测序数据分析经验。研究领域涉及机器学习，芯片数据分析，核酸及蛋白序列分析，DNA，RNA，甲基化测序数据分析，单细胞测序数据分析，miRNA及靶基因分析，癌症相关基因预测及预后分析等，发表SCI论文30余篇，其中一作及并列一作15篇。

向下划动查看全部内容

Day 1

单细胞测序技术发展历程及研究现状

单细胞测序原理及测序平台介绍

单细胞相关数据库介绍

单细胞数据分析流程介绍

单细胞研究思路及案例分享

R语言简介

R语言概述

R软件及R包安装

R语言语法及数据类型

条件语句

循环

函数

Day 2

单样本转录组数据基础分析

数据质控及归一化

降维(PCA, tSNE, UMAP)

聚类分析

鉴定marker基因

细胞亚群注释

功能富集分析

单样本转录组数据高级分析

GSEA分析与GSVA分析

细胞亚群继续分群

细胞周期分析

拟时序分析

细胞通讯分析

代谢分析

RNA velocity分析

h5ad转seurat对象

Day 3

RNAseq与膜表面蛋白数据整合分析

RNAseq分群效果与膜蛋白分群效果比较

RNAseq与膜蛋白数据整合后分群

基因与蛋白表达相关性

多组样本转录组数据分析

质控、归一化

降维、聚类

鉴定marker基因，细胞亚群注释

样本间细胞亚群频率比较

样本间差异表达基因分析

绘制小提琴图、散点图、山脊图、火山图、热图、气泡图、feature plot

Day 4

单细胞ATAC数据分析

细胞亚群peak鉴定

Motif富集分析

motif deviation

转录因子足迹分析

基因富集分析

peak co-accessibility分析

单细胞ATAC拟时序分析

单细胞ATAC与转录组的整合分析

Day 5

单细胞VDJ分析

VDJ分析以及可视化

检测克隆型

克隆型丰度

CDR3组成

比较克隆型

克隆空间稳态

克隆比例

重叠分析

多样性分析

转录组联合VDJ分析

课程案例图片：

三、机器学习代谢组学

课程目标：1.理解代谢生理功能和代谢疾病，熟悉技术及其应用。2.了解代谢组学实验流程、数据处理技巧，以及色谱、质谱和LC-MS技术。3.熟悉关键代谢通路和数据库，利用R软件进行分析和可视化。4.理解机器学习在代谢组学中的作用，掌握R语言进行分析。5.使用R语言进行数据清洗与分析，通过文献解读和复现增强研究创新能力

TEACHER

授课老师

机器学习代谢组学授课老师：

代谢组学老师来自国内985高校，该技术已研究有十余年，有丰富的研究经验，熟悉蛋白质组学、转录组学、代谢组学的原理及数据分析流程，已发表数篇SCI，Nature等顶刊，有丰富的教学经验！

向下划动查看全部内容

第一天

A1代谢物及代谢组学的发展与应用

（1）代谢生理功能；

（2）代谢疾病；

（3）非靶向与靶向代谢组学；

（4）空间代谢组学与质谱成像（MSI）；

（5）代谢流与机制研究；

（6）代谢组学与药物和生物标志物。

A2代谢组学实验流程简介

A3色谱、质谱硬件原理

（1）色谱分析原理；

（2）色谱的气相、液相和固相；

（3）色谱仪和色谱柱的选择；

（4）质谱分析原理及动画演示；

（5）正、负离子电离模式；

（6）色谱质谱联用技术；

（7）LC-MS的液相系统

A4代谢物样本处理与抽提

（1）组织、血液和体液样本的提取流程与注意事项；

（2）用ACN抽提代谢物的流程与注意事项；

（3）样本及代谢物的运输与保存问题；

第二天

B1代谢通路及代谢数据库

（1）几种经典代谢通路简介；

（2）能量代谢通路；

（3）三大常见代谢物库：HMDB、METLIN和KEGG;

（4）代谢组学原始数据库：Metabolomics Workbench和Metabolights.

B2 LC-MS数据质控与搜库

（1）LC-MS实验过程中QC样本的设置方法；

（2）LC-MS上机过程的数据质控监测和分析；

（3）代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件；

（4）XCMS软件数据转换与提峰；

B3 R软件基础

（1）R和Rstudio的安装；

（2）Rstudio的界面配置；

（3）R的基本数据结构和语法；

（4）下载与加载包；

（5）函数调用和debug；

B4 ggplot2

（1）安装并使用ggplot2

（2）ggplot2的画图哲学；

（3）ggplot2的配色系统；

（4）ggplot2画组合图和火山图；

B5 学习资源分享

（1）代谢组学学习资料

（2）R语言学习资料

第三天

C1机器学习简介

（1）有监督学习与无监督学习

（2）生物信息中十大机器学习算法

C2无监督式机器学习在代谢组学数据处理中的应用

（1）大数据处理中的降维；

（2）PCA分析作图；

（3）三种常见的聚类分析：K-means、层次分析与SOM

（4）热图和hcluster图的R语言实现；

C3一组代谢组学数据的降维与聚类分析的R演练

(1)数据解析；

(2)演练与操作；

C4有监督式机器学习在代谢组学数据处理中的应用

（1）数据用PCA降维处理后仍然无法找到差异怎么办？

（2）PLS-DA找出最可能影响差异的代谢物；

（3）VIP score和coef的意义及选择；

（4）分类算法：支持向量机，随机森林

C5一组代谢组学数据的分类算法实现的R演练

(1)数据解读；

(2)演练与操作；

第四天

D1代谢组学数据清洗与R语言进阶

（1）代谢组学中的t、fold-change和响应值；

（2）数据清洗流程；

（3）R语言tidyverse

（4）R语言正则表达式；

（5）代谢组学数据过滤；

（6）代谢组学数据Scaling原理与R实现；

（7）代谢组学数据的Normalization；

（8）代谢组学数据清洗演练；

D2在线代谢组分析网页Metaboanalyst操作

（1）用R将数据清洗成网页需要的格式；

（2）独立组、配对组和多组的数据格式问题；

（3）Metaboanalyst的pipeline和注意事项；

（4）Metaboanalyst的结果查看和导出；

（5）Metaboanalyst的数据编辑；

（6）全流程演练与操作

第五天

E1机器学习与代谢组学顶刊解读（2-3篇）；

（1）代谢组学和机器学习算法预测中国2型糖尿病的未来发展；

（2）机器学习与代谢组学相结合，为胃癌诊断和预后指明方向

（3）1-2篇代谢组学与转录组学和蛋白组学结合的文献。

E2文献数据分析部分复现（1篇）

（1）文献深度解读；

（2）实操：从原始数据下载到图片复现；

（3）学员实操。

四、CADD计算机辅助药物设计

STUDY

CADD计算机辅助药物设计：依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果，以计算机化学为基础，通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用，考察药物与靶点的结构互补、性质互补等，设计出合理的药物分子。它是设计和优化先导化合物的方法，特别是在食品、生物、化学、医药、植物、疾病方面应泛！靶点的发现与确证是现代新药研发的第一步，也是新药创制过程中的瓶颈之一。

学习目标：计算机辅助药物设计主要包含：PDB数据库、靶点蛋白、蛋白质-配体、蛋白-配体小分子、蛋白-配体结构、分子对接、蛋白-配体对接、虚拟筛选、蛋白-蛋白对接、蛋白-多糖分子对接、蛋白-水合对接、分子动力学等

分子对接：分子对接是通过受体的特征以及受体和药物分子之间的相互作用方式来进行药物设计的方法。主要研究分子间(如配体和受体)相互作用,并预测其结合模式和亲合力的一种理论模拟方法.近年来,分子对接方法已成为计算机辅助药物研究领域的一项最火最重要的技术。

虚拟筛选：虚拟筛选(virtual screening，VS)也称计算机筛选，即在进行生物活性筛选之前，利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用，计算两者之间的亲和力大小，以降低实际筛选化合物数目，同时提高先导化合物发现效率。

分子动力学：分子动力学是一门结合物理，数学和化学的综合技术。分子动力学是一套分子模拟方法，该方法主要是依靠牛顿力学来模拟分子体系的运动，以在由分子体系的不同状态构成的系统中抽取样本，从而计算体系的构型积分，并以构型积分的结果为基础进一步计算体系的热力学量和其他宏观性质。

近年来发过哪些顶刊以及方向：

计算机辅助药物设计|J. Med. Chem.|基于晶体结构的MPS1抑制剂的设计和优化

JCIM｜DockIT：虚拟现实交互的柔性分子对接

Nature Methods | 蛋白质序列的深度嵌入和比对

Trends Biochem Sci｜配体结合动力学计算方法研究进展

Curr Opin Struc Biol | 多目标药物设计中的人工智能

MDPI Processes | 分子动力学模拟在食品及其工艺中的应用

Food Chemistry | 分子对接和分子动力学模拟

目前计算机辅助药物设计受众人体众多，列如CADD、药物设计、药学、药物研发、药物筛选、新药研发、药物化学、生物制药、免疫、天然产物、兽药研发，生物信息、中药药理、中药化学、网络药理、结构药理、食品安全、食品风味、食药研发、食品研发、抗肿瘤药物、肿瘤免疫、酶工程、遗传、抗体药物、农业工程、化学、有机合成、有机化学、结构生物、合成生物等众多科研人员

TEACHER

授课老师

计算机辅助药物设计主讲老师来自国内高校北京协和医院药物研究所，老师主要擅长深度学习、机器学习、药物虚拟筛选、计算机辅助药物设计、人工智能药物发现、分子对接、分子动力学等方面的研究，有十余年的研究经验。

向下划动查看全部内容

第一天上午：背景与理论知识以及工具准备

1.PDB数据库的介绍和使用

1.1数据库简介

1.2靶点蛋白的结构查询与选取

1.3靶点蛋白的结构序列下载

1.4靶点蛋白的下载与预处理

1.5批量下载蛋白晶体结构

2.Pymol的介绍与使用

2.1软件基本操作及基本知识介绍

2.2蛋白质-配体相互作用图解

2.3蛋白-配体小分子表面图、静电势表示

2.4蛋白-配体结构叠加与比对

2.5绘制相互作用力

3.notepad的介绍和使用

3.1优势及主要功能介绍

3.2界面和基本操作介绍

3.3插件安装使用

下午：一般的蛋白-配体分子对接讲解

1.对接的相关理论介绍

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

第二天：虚拟筛选

1.小分子数据库的介绍与下载

2.相关程序的介绍

2.1 openbabel的介绍和使用

2.2 chemdraw的介绍与使用

3.虚拟筛选的前处理

4.虚拟筛选的流程及实战演示

案例：筛选新冠病毒主蛋白酶抑制剂

5.结果分析与作图

6.药物ADME预测

6.1ADME概念介绍

6.2预测相关网站及软件介绍

6.3预测结果的分析

第三天：拓展对接的使用方法

1.蛋白-蛋白对接

1.1蛋白-蛋白对接的应用场景

1.2相关程序的介绍

1.3目标蛋白的收集以及预处理

1.4使用算例进行运算

1.5关键残基的预设

1.6结果的获取与文件类型

1.7结果的分析

以目前火热的靶点

PD-1/PD-L1等为例。

2.涉及金属酶蛋白的对接

2.1金属酶蛋白-配体的背景介绍

2.2蛋白与配体分子的收集与预处理

2.3金属离子的处理

2.4金属辅酶蛋白-配体的对接

2.5结果分析

以人类法尼基转移酶及其抑制剂为例

3.蛋白-多糖分子对接

4.1蛋白-多糖相互作用

4.2对接处理的要点

4.3蛋白-多糖分子对接的流程

4.4蛋白-多糖分子对接

4.5相关结果分析

以α-糖苷转移酶和多糖分子对接为例

5.核酸-小分子对接

5.1核酸-小分子的应用现状

5.2相关的程序介绍

5.3核酸-小分子的结合种类

5.4核酸-小分子对接

5.5相关结果的分析

以人端粒

g -四链和配体分子对接为例。

操作流程介绍及实战演示

第四天：拓展对接的使用方法

1.柔性对接

1.1柔性对接的使用场景介绍

1.2柔性对接的优势

1.3蛋白-配体的柔性对接

重点：柔性残基的设置方法

1.4相关结果的分析

以周期蛋白依赖性激酶

2（CDK2）与配体1CK为例

2.共价对接

2.1两种共价对接方法的介绍

2.1.1柔性侧链法

2.1.2两点吸引子法

2.2蛋白和配体的收集以及预处理

2.3共价药物分子与靶蛋白的共价对接

2.4结果的对比

以目前火热的新冠共价药物为例。

3.蛋白-水合对接

3.1水合作用在蛋白-配体相互作用中的意义及方法介绍

3.2蛋白和配体的收集以及预处理

3.3对接相关参数的准备

重点：水分子的加入和处理

3.4蛋白-水分子-配体对接

3.5结果分析

以乙酰胆碱结合蛋白

(AChBP)与尼古丁复合物为例

第五天：分子动力学模拟（linux与gromacs使用安装）

1. linux系统的介绍和简单使用

1.1 linux常用命令行

1.2 linux上的常用程序安装

1.3体验：如何在linux上进行虚拟筛选

2.分子动力学的理论介绍

2.1分子动力学模拟的原理

2.2分子动力学模拟的方法及相关程序

2.3相关力场的介绍

3.gromacs使用及介绍

重点：主要命令及参数的介绍

4.origin介绍及使用

第六天：溶剂化分子动力学模拟的执行

1.一般的溶剂化蛋白的处理流程

2.蛋白晶体的准备

3.结构的能量最小化

4.对体系的预平衡

5.无限制的分子动力学模拟

6.分子动力学结果展示与解读

以水中的溶菌酶为例

第七天：蛋白-配体分子动力学模拟的执行

1.蛋白-配体在分子动力学模拟的处理流程

2.蛋白晶体的准备

3.蛋白-配体模拟初始构象的准备

4.配体分子力场拓扑文件的准备

4.1高斯的简要介绍

4.2 ambertool的简要介绍

4.3生成小分子的力场参数文件

5.对复合物体系温度和压力分别限制的预平衡

6.无限制的分子动力学模拟

7.分子动力学结果展示与解读

8.轨迹后处理及分析

以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例

案例实操图片：

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-07-08，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习

本文分享自 Tom的小院微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

AlphaFold3来了！全面预测蛋白质与所有生命分子相互作用及结构，引领药物研发新革命

AlphaFold3来了！全面预测蛋白质与所有生命分子相互作用及结构，引领药物研发新革命

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐