首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【材料化学工具汇总】开源科学大模型;材料分析Python库;分子并行模拟器;自动材料探测

本期介绍的是材料化学领域的工具资源: *Pymatgen:材料分析 Python 库 *PubChemPy:化学工具包 *Bert-loves-chemistry:化学建模 *LAMMPS:大规模原子分子并行模拟器...:材料分析 Python 库 Pymatgen (Python Materials Genomics) 是一个开源的、可用于材料分析的 Python 库,拥有强大的材料分析代码,为结构分子定义了类别,...REST Web 服务的化学工具包,提供了一种在 Python 与 PubChem 交互的方法,允许用户通过名称、子结构相似性进行文件格式转换化学性质检索等功能。...在固态材料(金属、半导体)软物质(生物分子、聚合物)以及粗粒等方面具有潜力,可用于原子、介观或连续尺度的并行粒子模拟。...* Crystal Toolkit:开源 Web 应用程序框,用于显示常见的材料数据类型,如晶体结构、能带结构等,专门为 Python 用户设计,允许用户开发完整的网络应用程序,而无需学习传统的网络技术

34010

ICLR 2022 under review | 从零开始生成三维分子几何结构的自回归流模型

一、介绍 无法完整的二维分子图中获得全部的分子信息,因为分子的三维几何结构决定了分子的许多性质。三维分子几何结构表达了原子的三维坐标,而这对于量子性质的准确预测非常重要。...三、模型与方法 设k是原子类型的数量。作者使用G=(A, R)来表示一个具有n个原子的分子的三维几何结构,其中A∈{0,1}n×k是原子类型矩阵,R∈Rn×3是原子坐标矩阵。...矩阵A的每一行都是一个独热向量,a[j, u]=1表示第j个原子为u类型。在矩阵R的第j行处的行向量表示第j个原子的三维笛卡尔坐标。 作者认为三维分子几何结构的生成是一个连续的决策过程。...因此,作者使用一个对称不变模型来计算st。 然而,不能像原子类型ai的生成那样生成三维坐标ri。如果用自回归流模型直接计算ri,坐标的等变性似然的不变性都不满足。...G-SphereNet顺序生成过程的示意图 生成新原子原子类型三维坐标需要在每一步从中间几何结构捕获条件信息。可描述的条件信息应该包含几何结构的全面三维结构特征,并对任何刚性变换不变。

84620
您找到你想要的搜索结果了吗?
是的
没有找到

AAAI Spring Symposium 2019|CrystalGan:使用生成对抗网络发现晶体结构

晶体结构由一个局部分布来描述。这种分布由给出的晶体结构的每个原子的最近邻的距离决定。这一步满足几何约束,约束细节见图1 b。 ? 图2....AHBH带有占位符的编码 四、实验 4.1 任务描述 晶体结构可以使用POSCAR文件表示。这种文件是坐标文件,包括晶格几何信息、原子位置和和晶胞原子数目种类。...一个这种文件包括三个矩阵:第一个是晶格向量有关的abc矩阵,第二个矩阵包括H原子的位置,第三个矩阵包含金属原子A或B的坐标。这些文件的信息被存放在4维张量。一个POSCAR文件的例子见下图3。...每个二元MH氢化物包括两个元素:氢元素M元素(见图4的标黄元素)。本次实验专注于“钯-氢”“镍-氢”系统探索“钯-氢-镍”三元化合物。本文也考虑了另一个生成“镁-氢-钛”三元化合物的任务。...4.2 实现细节 使用python库Pymatgen来计算生成数据的所有最近邻距离。在这篇文章的所有实验距离被修正为d1=1.88Å,d2=3Å。

87810

. | 生物医药文献化学信息的自动提取系统

然而,还有大量的生物医药知识并没有以结构化的数据形式存储在数据库,而是隐藏在原始的科学文献。因此,直接生物医药文献挖掘学习知识是未来人工智能的一个重要应用场景。...修改后的SMILES不仅包含原子类型原子间连通性的信息,还包含精确的化学键类型信息,例如实心楔形键,交叉双键等。除了分子的SMILES,分子图像识别模型还会预测原子坐标。...当模型生成分子的SMILES序列时,它会同时生成表示原子x轴y轴坐标的两个序列。坐标序列的长度与SMILES序列相等,由坐标标记填充标记组成。...坐标序列坐标标记与SMILES序列原子标记对齐。基于模型预测的SMILES、原子坐标化学键类型,即可以构建出与图像中分子完全一致的分子图,这使得我们能够快速判断模型预测的分子是否正确。...生成分子图像的文本表示的过程的示意图 在这项工作,研究团队结合图像注释,目标检测和合成计算机视觉等技术,开发了一个文献自动提取化学结构的深度学习系统。

35820

Brief Bioinform|KGDiff:知识引导的扩散模型实现可解释的靶点感知分子生成

专家网络由SE(3)等变图神经网络,原子的三维坐标出发,对原子进行表征学习,然后通过两个多层感知器(MLP)函数分别对原子类型结合亲和度进行预测。...在扩散过程,有效分子可能无法噪声状态构建,这使得这些方法与扩散框架不相容。相比之下,专家网络在仅利用原子类型原子坐标的噪声信息就能预测原子的结合亲和力。...在扩散阶段,神经网络将原子类型的特征作为输入,从而在去噪过程,在蛋白质配体复合体重建分子。由于分子是由连续的坐标离散的原子类型决定的,因此如何制定合适的分子生成指导方案是一个挑战。...KGDiff设计了一个有效的知识引导,也就是原子坐标的概率梯度出发,实现对离散原子类型生成的引导,这是一种启发式的引导方案。...由于KGDiff在整个生成过程原子类型原子坐标进行引导,因此消融实验将其与只进行坐标引导,以及不进行引导的模型进行对比,并与现有的基于扩散模型的分子生成算法TargetDiff做对比。

16410

分子对接简明教程 (一)

显示与蛋白结合的小分子化合物水分子 蛋白结构的PDB文件(PDB文件格式解析见后面)或PDB官网的信息(如下图所示)可以看到,1hsg结构包含配体药物indinavir,其残基的名字为MK1。...我们需要在对蛋白小分子的PDB文件预处理,生成PDBQT文件同时包含以上信息PDB文件原子坐标信息。进一步地对于“柔性配体docking”,我们还需要定义配体的柔性部分刚性部分。...准备受体蛋白 PDB文件(1hsg.pdb)包含了蛋白、配体水分子;首先提取出蛋白的坐标,即以关键字ATOMTER开头的行 (具体解释例子见后面PDB格式解析)存储到文件1hsg_prot.pdb...加氢:晶体结构通常缺少氢原子坐标 (因为氢原子电子少,且质子核对电子吸引能力弱,因此很难定位,具体见http://www.uh.edu/~chembi/ChemSocRev_Jones_critical.pdf...准备配体 与蛋白结构类似,配体的结构也缺少氢原子,我们需要添加氢原子并且定义哪些键是可以旋转的以用于柔性docking。 PDB结构提取配体的原子位置。

14.4K159

ICML 2023 | DECOMPDIFF:解义先验的扩散模型进行基于结构药物设计

为了克服这些缺点,扩散模型进一步应用到该领域,近期的研究使用扩散模型标准高斯先验近似原子类型位置的分布,并使用后处理算法来分配原子之间的键。...这些基于扩散模型的方法可以同时模拟原子之间的局部全局相互作用,并且比自回归模型具有更好的性能。尽管性能优秀,但在建模过程忽略了键,可能导致不合理的分子结构。..., v\in\mathbb{R}^d 代表原子类型原子数量可以经验分布采样,或神经网络预测。...由于这里的先验知识为3D坐标的位置信息,因此作者省略了对原子类型类型扩散的一般过程,详细介绍了含有先验知识的3D坐标扩散的过程。...采用蓝色突出了先验坐标扩散一般坐标扩散的区别: 先验分布为: 2.3 模型结构 已有扩散模型多仅考虑对原子类型原子坐标的扩散,通过后处理算法(例如OpenBabel)加键。

35810

ProteinGCN | 使用图卷积网络表示学习蛋白质结构

对蛋白质结构模型准确性局部(单残基)全局(整个结构)的预测是许多蛋白质建模应用程序必不可少的步骤。...现在研究者已开发出各种方法来解决打分问题,其范围包括从一般物理原理,或已知蛋白质结构的各种不同集合,或从这两者推导而来的。经训练后,以估算特定相似分数之间的转换,直接从前者的原子坐标中计算得出结果。...2.2蛋白质GCN 给定蛋白质结构,用节点表示蛋白质各种非氢原子的组成部分。每个节点原子的K个最近邻,用边连接起来。20种氨基酸里面的重原子,共有167种类型,采用one-hot进行编码。...而且,提取坐标信息会提高局部预测的效果,表明了提取边缘方向特征的有效性。 ? 4.3定性分析 为了更好地了解ProteinGCN的性能,作者对模型对样品蛋白质靶标的预测进行了定量分析。...如图2所示,预测的全局分数能够指示真实结构预测结构之间的相似性,这对诱饵池中选择最佳模型非常有意义。

1K40

基于结构的药物设计的深度学习

此外,DNN在SBDD也找到了应用,这个想法本身并不新鲜。然而,结构信息的增加技术的进步,是最近利用深度学习提取相关特征预测蛋白质配体复合物的应用数量激增的基础。...值得注意的是,在有晶体结构坐标的情况下,也使用了重新对接的姿势,而不是晶体结构坐标,以避免让CNN单纯地学习模型实验之间的差异。...这个模型受到以前报道的原子指纹神经网络的启发。ACNN引入了原子类型卷积径向池化作为新的卷积操作。原子类型卷积层将原子类型笛卡尔坐标作为输入,以提取编码局部化学环境的特征。...在这个模型,蛋白质-配体复合物由紧密接触的原子类型对、静电作用能量、配体原子类型配体可旋转键的数量来描述。这样得到的输入被送入一个全连接的NN。隐蔽层输出层的所有神经元使用对数西格玛激活函数。...事实上,一些模型广泛地依赖于配体中提取的信息,而不是蛋白质-配体的相互作用中提取的信息。可以使用基于真实HTS数据的虚拟筛选基准,避免由选定的诱饵引入的偏差。

68910

使用Vabs-Net进行多层次蛋白质预训练

标准的预训练任务通常涉及随机屏蔽某些残基,预测被屏蔽残基的类型位置(即α碳原子坐标),以及它们与其他残基之间的角度。通过这一过程,该模型有效地捕获了残基信息,从而获得了蛋白质残基的高质量表征。...这种方法增加了残基任务的难度,使得仅从侧链主链原子推断残基类型结构变得不可能,从而促使模型学习有意义的残基表示。...传统的蛋白质预训练模型使用残基之间的距离来编码结构信息。然而,对于原子建模来说单纯的距离编码信息不足。本文通过在残基局部坐标绝对全局坐标编码边的方向来解决这个问题。...通过构建一个局部坐标系的旋转矩阵R,用于将全局坐标的向量转换为局部坐标的向量。...对比其他预训练模型未预训练的最佳基线模型,显示了方向编码的重要性。 表5:分子与等效键的对接结果 表5展示了各种结构蛋白预训练模型中提取的特征在分子对接任务的效果。

9110

AlphaFold3及其与AlphaFold2相比的改进

更新这些成对嵌入会将焦点转移到模板结构的“更重要”的区域 特征是输入序列的 UniRef90 MSA 的单个蛋白质链的模板搜索中提取的。非常长的序列被裁剪为前 300 个残基。...序列的结构数据 PDB70 中提取,或者如果与 PDB 数据库的相应 mmCIF 的序列不完全匹配,则在使用 KAlign 对齐后提取。...总之,与 AlphaFold2 相比,AlphaFold3 的模板搜索保持不变,除了一些细节,如模板的截止日期。 模板的结构提取特征,并与前一循环的成对嵌入一起输入到模板嵌入器。...Sample DiffusionPairformer模块获取单个成对表示,InputEmbedder获取特征单个输入嵌入,并生成原子/或标记的坐标。...总之,AlphaFold3 的扩散模型取代了 AlphaFold2 结构模型,噪声的原子坐标预测真实的原子坐标,采用了标准的扩散模型而没有旋转框架等变性。

90510

Drug Discov Today|配体-蛋白的分子对接的机器学习

数据类型的选择对对接性能有显着影响。即使 3D 坐标可以直接用作输入,但是通常需要使用3D坐标收集到的,包括描述符、分子指纹或交互指纹、基于图像或图形等信息作为输入源。...最后,这些描述符的几个组合通常用来表示一个复合体。这种描述符往往容易理解可用,但描述符只能表征唯一的对象,这限制了模型性能。 指纹是分子或复合物的高级表示。...原子卷积神经网络通过以下两种类型的独特操作来构建:原子类型专用的1x1的过滤器卷积原子近邻过滤器的径向池化。该方法以原子坐标原子类型作为输入,前者构建原子间距离矩阵,后者用于构建原子类型矩阵。...它们已经光谱方法发展成为一种更加灵活的综合建模工具。图卷积网络( GCNs )是一类特殊的GNNs,将卷积池化操作CNNs应用到图形。...Torgn等人提出了一种虚拟筛选方法,用两个图来表示靶标配体。在靶标侧,图节点为结合位点处的氨基酸残基,用边连接7 Å的球体范围内的对象,利用FEATURE程序中提取特征。

1.5K10

MGM、MolGPT、PAR、Uni-Mol、K-Bert、MolCLR…你都掌握了吗?一文总结生物制药必备经典模型(三)

形式上,原子对的更新可以表达成如下公式: 通过 3D 空间位置编码原子对表征,Uni-Mol 可以学习到一个分子 3D 表征。但它仍然缺乏直接输出坐标的能力,而这在 3D 空间任务是必不可少的。...具体实现,对于被掩码的 15% 的原子,给坐标同时加入 [-1Å , 1Å] 的均匀分布噪声,之后模型根据被污染的坐标计算出来空间位置编码。这样一来,对于原子掩码的预测任务就不再可有可无。...原子特征预测任务允许模型学习基于图的方法手动提取的信息(初始原子信息),分子特征预测任务允许模型学习基于描述符的方法手动提取的信息(分子描述符/指纹),而对比学习任务允许模型使同一分子的不同 SMILES...广泛使用的GNN模型、图卷积网络(GCN)图同构网络(GIN),被开发为MolCLR的GNN编码器,以分子图中提取信息表示。...当一个原子被掩码时,它的原子特征被一个掩码标记取代,该标记与图12(b)红框所示的分子图中的任何原子特征相区别。通过掩码处理,模型被迫学习内在的化学信息(比如由某些共价连接的原子的可能类型)。

49530

. | 基于序列基于结构的蛋白质-配体相互作用机器学习方法

例如,基于与靶蛋白相互作用的可能性,ML方法能够大规模分子数据库快速筛选潜在的配体分子。此外,人工智能技术可以分析蛋白质配体分子的结构信息,从而有助于预测基本参数,如结合模式强度。...这些描述符可用于提取与不同任务的结构特征或原始二级结构相关的特征。例如,基于进化信息,可以提取单个氨基酸的坐标、静电特性或表面积的坐标。...此外,AtomNet是第一个使用3D结构深度学习来预测蛋白质-配体结合亲和力的模型,研究人员蛋白质复杂的3D网格中提取特征。...此外,3DCNNSE-OnionNet对接软件获得的数据中提取蛋白质-配体复合物特征,预测结合亲和力。...这些模型依赖于蛋白质配体之间的结构信息,包括原子坐标、键分子形状,分析这些信息来预测蛋白质-配体之间的结合亲和力。

51710

BioRxiv|PointVS:识别重要的蛋白质-药物关联的机器学习打分函数

PointVS使用等变图神经网络给定的蛋白质靶标中提取重要的结合药效团。作者使用这些信息来执行片段细化,并分析相比于使用传统基于数据的结构信息方法而言,PointVS对接的改进。...PointVS是第一个通过深度学习分子设计靶点中提取结构信息的方法。...PointVS输入的n个原子被赋予一个添加了单个位的编码特征向量,以指示原子来自配体还是受体,以及位置p0(一个三维向量)。EGNN有四个输入:位置、节点嵌入、边缘索引边缘嵌入。...如果有n个原子在输入结构,位置是n×3矩阵,包含每个原子的x、yz坐标。节点嵌入是一个n×12矩阵,包括原子不同类型的独热编码,并区分配体受体原子。...机器学习的蛋白质-配体关联预测虚拟筛选是一个持续存在的问题,大多数深层神经网络都会导致单个原子的信息丢失,随着网络的加深,在原子层面上的表示学习变得越来越困难。

40860

PNAS | 一种用于蛋白质侧链装配逆向折叠的端到端深度学习方法

蛋白质侧链装配涉及根据主链构象主链序列,预测蛋白质侧链原子的三维坐标。这个问题在蛋白质结构预测、设计蛋白质相互作用等方面有重要的应用。传统的PSCP方法依赖于在固定库的一组构象中最小化能量函数。...通过修改组合这些架构的组件,作者的方法能够在速度、内存效率、侧链原子冲突以及整体准确性方面明显优于其他PSCP方法,而仅使用直接主要序列主链坐标得出的特征。...所有输入特征都是主要序列主链重原子坐标派生而来。给定一个蛋白质的主链,具有L个氨基酸残基主链由其氨基酸序列原子坐标表示。集合{N, Cα, C, O}为氨基酸的原子类型。...在PSCP的基础上,作者设计了AttnPacker的一个变种,可以同时部分序列信息预测侧链构象残基类型。...结论 作者开发了AttnPacker,这是一个SE(3)-等变模型,用于直接预测序列侧链坐标。AttnPacker利用蛋白质主链坐标获取的空间信息,有效地建模了残基成对邻域。

19310

Brief Bioinform|基于深度学习传统打分函数的配体构象优化框架

在特征提取方面,作者首先计算了蛋白质与配体原子两两之间的距离,并对这些距离值分别作-1-6次幂处理,然后根据特定的蛋白质-配体原子组合方式距离处理方式分别进行求和,进而得到该原子组合的特征值 (Eq....1): 式RAL分别是蛋白质配体的原子类型,i为-1或-6。...其中该向量的前六个值分别是第一个原子的3D坐标(x,y,z)和在空间中绕x, y, z轴旋转的角度(α,β,γ);kθk指的是配体可旋转键的数目第k个可旋转键的扭转角度。...在构建配体构象优化框架时,并没有直接对配体每个原子坐标进行改变,而是通过对分子进行平移、旋转以及扭转分子内部的可旋转键来实现,进而保证了配体分子在优化过程结构的合理性。...然后,由该向量还原出配体的3D坐标,用于提取蛋白质-配体相互作用特征以及计算Vina score。

56620

. | 由数据知识驱动的基于结构的分子生成模型

第三,目前大多数深度分子生成模型在训练生成过程不考虑化学键信息。相反,它们输出一组无连通性的离散原子,然后通过第三方方法(如OpenBabel)组装这些原子形成分子。...本质上,它通过模型训练在基础分布(如正态分布)与给定3D口袋原子类型共价键分布之间建立了一种可逆映射。在生成过程的每一步,模型基础分布抽样以生成一个新的原子,连同其对应的坐标共价键。...模型将结合位点已生成的分子片段作为环境信息(图1a)。环境编码器模块编码环境信息以提取环境特征C(t-1)(图1b)。...在生成新组件之前,一个辅助网络,焦点网(Focal Net),用于环境特征中选择一个焦点原子作为生成新原子的参考点(图1c)。...基于这些环境特征,PocketFlow采用序列依赖策略来生成一个新的原子原子类型a(t)、坐标r(t)共价键e(t)(图1d-f),即a(t)→r(t)→e(t)。

42810

榕树集-蛋白质表面指纹(MaSIF)

MACCS分子指纹是基于分子是否含有特定的亚结构来定义的,共包含166个不同的分子特征。每个特征都对应于一个特定的化学子结构,例如,一个羟基、一个苯环或一个氮原子等。...计算测地极坐标 (geodesic polar coordinates) 提取出的PATCH表面,MaSIF使用测地极坐标系统将顶点的位置映射到径向坐标(即距离中心的测地距离)和角坐标(即与随机方向的角度...这一任务在蛋白质设计是一个相当大的挑战,因为需要探索的结构可能性非常多,同时需要高精度,因为微小的原子级变化 - 例如放错的甲基基团,界面未协调的水分子或不兼容的电荷 都足以破坏PPI。...Decoy sets,作者使用了1,000个基序(范围600,000到700,000个Patchs),在螺旋集中,这些基序还具有螺旋二级结构,并且在非螺旋集中,由二三股β-片构成。...除了表现更好外,MaSIF-seed的速度也更快,速度增加了20倍到200倍之间,这主要取决于每个基序中提取的贴片数量。

57530
领券