只从PDB文件中提取我们需要的链

PDB文件是蛋白质数据银行（Protein Data Bank）的文件格式，用于存储蛋白质的结构信息。在云计算领域中，提取需要的链是指从PDB文件中获取特定蛋白质链的信息。

蛋白质链是由氨基酸残基组成的线性多肽链，在PDB文件中，每个链都有一个唯一的标识符，通常以字母表示（如A、B、C等）。提取需要的链可以通过解析PDB文件并根据标识符筛选出目标链的信息。

以下是一种可能的实现方法：

解析PDB文件：使用编程语言（如Python）中的相应库（如Biopython）来读取PDB文件的内容。
遍历链信息：遍历PDB文件中的所有原子信息，并提取每个原子所属的链的标识符。
筛选目标链：根据需求，选择目标链的标识符进行筛选，可以是单个链或多个链。
提取链信息：将目标链的原子信息提取出来，包括原子坐标、残基类型、氨基酸序列等。
可选的进一步处理：根据需求，可以对提取的链信息进行进一步处理，如计算二级结构、分析结构特征等。

在云计算领域中，可以利用云计算平台提供的弹性计算能力和存储服务来处理大规模的PDB文件和蛋白质结构数据。以下是腾讯云相关产品和服务的推荐：

云服务器（Elastic Compute Cloud，ECS）：提供可弹性伸缩的虚拟服务器实例，可用于运行解析PDB文件和提取链信息的程序。
云数据库（Cloud Database）：提供高性能、可扩展的数据库服务，可用于存储和管理提取的链信息。
云存储（Cloud Storage）：提供安全可靠的对象存储服务，可用于存储PDB文件和提取的链信息。
人工智能平台（AI Platform）：提供丰富的人工智能算法和工具，可用于进一步处理和分析提取的链信息。

请注意，以上推荐的腾讯云产品和服务仅供参考，具体选择应根据实际需求和预算来决定。

相关·内容

从ceph对象中提取RBD中的指定文件

前言之前有个想法，是不是有办法找到rbd中的文件与对象的关系，想了很久但是一直觉得文件系统比较复杂，在fs 层的东西对ceph来说是透明的，并且对象大小是4M，而文件很小，可能在fs层进行了合并，应该很难找到对应关系...，最近看到小胖有提出这个问题，那么就再次尝试了，现在就是把这个实现方法记录下来这个提取的作用个人觉得最大的好处就是一个rbd设备，在文件系统层被破坏以后，还能够从rbd提取出文件，我们知道很多情况下设备的文件系统一旦破坏...，所以在rbd层进行提取的时候是需要得到的是分区当中的文件相对整个磁盘的一个sector的偏移量 rbd的对象结构 [root@lab8106 ~]# rados -p rbd ls|grep datarbd_data...，大小为10G分成两个5G的分区，现在我们在两个分区里面分别写入两个测试文件，然后经过计算后，从后台的对象中把文件读出 mount /dev/rbd0p1 /mnt1 mount /dev/rbd0p2...的单位就是512b 这样就把刚刚的fstab文件读取出来了，skip就是文件的sector相对磁盘的起始位置，count就是文件所占的block数目继续我们的对象提取方式，上面的（10177..10184

4.8K2 0

如何从 Debian 系统中的 DEB 包中提取文件？

DEB 包是 Debian 系统中常见的软件包格式，用于安装和管理软件。有时候，您可能需要从 DEB 包中提取特定的文件，以便查看其内容、修改或进行其他操作。...本文将详细介绍如何从 Debian 系统中的 DEB 包中提取文件，并提供相应的示例。图片使用 dpkg 命令提取文件在 Debian 系统中，可以使用 dpkg 命令来管理软件包。...该命令提供了 -x 选项，可以用于从 DEB 包中提取文件。...示例 2: 提取 DEB 包中的特定文件dpkg -x package.deb /path/to/extract/file.txt这条命令将提取 package.deb 中名为 file.txt 的文件...提取文件后，您可以对其进行任何所需的操作，如查看、编辑、移动或复制。结论使用 dpkg 命令可以方便地从 Debian 系统中的 DEB 包中提取文件。

3.3K2 0

如何使用IPGeo从捕捉的网络流量文件中快速提取IP地址

关于IPGeo IPGeo是一款功能强大的IP地址提取工具，该工具基于Python 3开发，可以帮助广大研究人员从捕捉到的网络流量文件（pcap/pcapng）中提取出IP地址，并生成CSV格式的报告...在生成的报告文件中，将提供每一个数据包中每一个IP地址的地理位置信息详情。 ...报告中包含的内容该工具生成的CSV格式报告中将包含下列与目标IP地址相关的内容： 1、国家； 2、国家码； 3、地区； 4、地区名称； 5、城市； 6、邮编； 7、经度；...8、纬度； 9、时区、 10、互联网服务提供商； 11、组织机构信息； 12、IP地址；依赖组件在使用该工具之前，我们首先需要使用pip3包管理器来安装该工具所需的依赖组件...，你还需要手动安装Tshark： sudo apt install tshark 工具安装由于该工具基于Python 3开发，因此我们首先需要在本地设备上安装并配置好Python 3环境。

6.6K3 0

生物信息中的Python 05 | 从 Genbank 文件中提取 CDS 等其他特征序列

而NCBI 的基因库中已经包含有这些的信息，但是只有一部分是整理可下载的。而剩下的一部分可以通过 genbank给出的位点信息来提取，个人能力有限，这里只做抛转之用。...下面以提取 CDS 为例，记录提取序列过程，其他特征序列类似。 2 结构目录 ?...3 Python代码序列自动下载可以通过 Biopython 的 Entrez.efetch 方法来实现，这里以本地文件为例 #!...genbank 文件中提取 cds 序列及其完整序列 :param gb_file: genbank文件路径 :param f_cds: 是否只获取一个 CDS 序列 :return...: fasta 格式的 CDS 序列， fasta 格式的完整序列 """ # 提取完整序列并格式为 fasta gb_seq = SeqIO.read(gb_file, "genbank

4.7K1 0

使用Python分析蛋白质pdb文件

今天我们使用python中的一个处理pdb的库： Bio.pdb 就可以通过pdb文件获取蛋白质中各种有用的信息了：首先我们今天的实验目标是：随机从pdb bank抽取一个小蛋白质， pdb id...是1mh1 首先第一个很重要的函数，通过pdb文件加载蛋白质结构，我们接下来的操作都将基于此函数的返回进行操作： def load_structure(pdb_file): parser =...在形成肽键的过程中，每个氨基酸失去了一个水分子（一个羧基的-OH和另一个氨基的-H）。失去这些原子组成的水分子后，氨基酸在蛋白质中的部分被称为“氨基酸残基”。...简而言之，氨基酸残基是氨基酸在脱水缩合成蛋白质链后的形式。总结来说，氨基酸是单独存在时的形态，而当它们通过肽键连接成蛋白质时，每个氨基酸成为蛋白质链的一部分，这时它们被称为氨基酸残基。...氨基酸残基保留了氨基酸的侧链和与肽键相关的部分，但失去了参与形成肽键的一些原子。

4271 0

DSSP教程:一步步教你预测蛋白质二级结构

蛋白质的二级结构通常是以主链中氨基之间的氢键模式来定义〈与主链－侧链间以及侧链－侧链间的氢键无关〉，亦即DSSP的定义。而核酸的二级结构是以碱基之间的氢键来定义。...alphafold进行了预测，所以已经得到其pdb文件。...所以这次我们的分析，是建立在pdb文件的基础上的。...，这里我们主要实现了打印出蛋白质对应的结构的片段序列。...model = structure[0] dssp = DSSP(model, "/home/01.pdb") # 提取阿尔法螺旋和贝塔折叠的片段 helices = [res for res in

1.7K1 0

分子对接教程 | (4) 蛋白受体文件的预处理

我用的是2.4的版本，有点喜新厌旧啦。首先我们打开pyMOL这个软件 ? 我们这里可以直接打开我们下载的pdb格式的分子结构文件，如果是PDB数据库的蛋白，我们可以通过命令fetch 1e8y下载。...如果窗口中不显示该结构的信息，我们在软件的右下角点一下S，就出来了。或者从菜单栏Display里勾选Sequence ?...如果我们去掉的组分比较多，比如有多条链，去掉了其中的一些链，把不需要的水分子，离子，溶剂分子去掉，只保留对对接需要的部分，对剩下的结构我们需要进行一个修复。...我这里修复后的文件继续保存为：1E8Y_PYMOL.pdb，也就是覆盖了上面的那个文件。接下来我们打开AutoDockTools(ADT)，打开我们前面保存的文件1E8Y_PYMOL.pdb。 ?...我们这里已经去掉水分子了，所以这一步省略。 ? 接下来就是加氢，因为从pdb数据库中下载蛋白质晶体结构是没有氢原子的（除了很少分辨率小于1A的蛋白质有H），这是一个技术问题。

6K6 1

Alphafold预测后小工具

例如这个样子：首先是预测：然后是下载下来的压缩包：然后选择其中一个解压打开看一下：会有这样一个子文件夹然后就是这亚子：那么每次使用pymol查看蛋白质的三级结构都是需要打开那五个pdb文件中的一个...先理清楚思路：首先我们需要解压这个文件夹下所有的压缩文件，因为这些都是预测出来的蛋白质结构的压缩包。...然后我们需要提取或者把其中一个文件夹里的某个pdb结尾的文件复制出来，或者说复制到我们指定的某个系统文件下，然后使用代码来展示这个pdb的结构。...ok,我们来看一下花了多久？没错，只花了一秒时间，帮我们省了很多时间。...然后就是对应的展示了，直接使用py3dmol就可以了：首先还是遍历pdb文件，因为我们已经把21个pdb文件复制到了某一个目录下： os.chdir('D:\pdbCopy') # 获取当前文件夹中的所有文件和文件夹名

3101 0

备忘：Pymol补全蛋白质氨基酸

1ywt.pdb在该晶体结构中缺失的氨基酸残基情况为A链缺失了71-78部分。...使用Pymol软件打开需要补全的pdb文件，如这里的1ywt.pdb，然后使用文件—打开，打开模版结构3LW1。...为了能够调整两个结构到同一个坐标体系，这个时候就需要使用Pymol软件中的align命令了，也可以使用鼠标来实现。...1ywt.pdb上将文件111align.pdb中的71-78部分的残基信息复制到文件1ywt.pdb相应的位置上去，并另存为1ywt_new.pdb即可。...这样1ywt_new.pdb文件中就是完整蛋白的结构了。

4.7K3 0

PDB文件说明

在每个聚合链的末端都必须有TER记录, 但因序列无序造成的链中断处不需要该记录. 例如, 一个血红蛋白分子包含四个亚链. 彼此之间并不相连....原子的元素符号在13-14列中右对齐一般从14列开始写, 占四个字符的原子名称才会从13列开始写....如果你使用其他程序语言, 可根据上面的格式说明转换为相应的形式. PDB文件示例单链蛋白胰升血糖素(Glucagon)是一个小蛋白, 29个残基处于单条链中....根据PDB标准, TER记录标识了分子链的结束. 文件中如果缺失了TER记录, 应该插入它们. 或者, 作为替代方法, 对每条链使用不同的链标识符....序列之外的残基在下面的例子中, 出现于文件中的第二个残基(SER)被错误地编号为残基5. 许多可视化程序会显示残基5与残基1和3相连, 但只有当初确实需要这样时才正确.

1.6K1 0

分子对接简明教程（一）

显示与蛋白结合的小分子化合物和水分子从蛋白结构的PDB文件(PDB文件格式解析见后面)或PDB官网的信息(如下图所示)可以看到，1hsg结构中包含配体药物indinavir，其残基的名字为MK1。...准备docking需要的受体(蛋白)和配体(化合物) Docking算法需要每个原子带有电荷并且需要标记原子的属性。这些信息通常未包含在PDB文件中。...我们需要在对蛋白和小分子的PDB文件预处理，生成PDBQT文件同时包含以上信息和PDB文件中的原子坐标信息。进一步地对于“柔性配体docking”，我们还需要定义配体的柔性部分和刚性部分。...准备受体蛋白 PDB文件(1hsg.pdb)中包含了蛋白、配体和水分子；首先提取出蛋白的坐标，即以关键字ATOM和TER开头的行 (具体解释和例子见后面PDB格式解析)存储到文件1hsg_prot.pdb...准备配体与蛋白结构类似，配体的结构也缺少氢原子，我们需要添加氢原子并且定义哪些键是可以旋转的以用于柔性docking。从PDB结构中提取配体的原子位置。

14.6K15 9

.| 使用图卷积网络的基于结构的蛋白质功能预测

作者使用类似的方法从序列中提取特征和学习蛋白质表示。我们的方法的第一阶段是一个具有使用长短期记忆(LSTM-LM)的递归神经网络结构的自监督语言模型。...该语言模型对蛋白质家族数据库(Pfam)中的一组蛋白质结构域序列进行预训练，用于从PDB序列中提取残基水平的特征(见图1a)。...从序列构建的残基级特征，与接触图一起，被用作方法的第二阶段的输入。图卷积阶段的每一层都需要一个邻接矩阵和上面描述的残差层特征，并在下一层输出残差层特征。图1. 方法概述。...作者通过比较从SWISS-MODEL和其他新的结构预测协议中获得的模型上的性能，探讨了在PDB结构上训练的DeepFRI如何容忍建模错误。其次，作者研究了在DeepFRI训练程序中包含的同源性模型。...蛋白质结构上对于位点的功能预测的自动定位实验结果为了比较此方法与以前发表的方法的性能，作者使用了一个带有实验确认过的功能注释的PDB链的测试集，由与训练集具有不同程度序列同一性的PDB链子集组成。

1.4K4 0

读懂蛋白质PDB文件

从网上搜集了一些文章，结合自己的知识来对PDB文件中各个参数的意义做个解释： REMARK 该记录用来记述结构优化的方法和相关统计数据。...在每个聚合链的末端都必须有TER记录,但是由于无序序列而造成的链的中断处不需要该记录。 MODEL 当一个PDB文件中包含多个结构时(例:NMR结构解析),该记录出现在各个模型的第一行。...MODEL记录行的第11-14列上记入模型序号。序号从1开始顺序记入,在11-14列中从右起写。...ENDMDL 与MODEL记录成对出现,记述在各模型的链末端的TER记录之后。 END 该记录标志PDB文件的结束,是必需的记录。...在晶体学数据中, B 因子一般是以原子为单位给出的,我们可以换算成相应残基的B 因子,从而分析残基的构象稳定性1) .

1.5K2 0

分子对接简明教程（三）

从图中可以看到这两个蛋白酶体在空间的方向不同，因此我们需要重新比对这两个结构，运行PyMOL> align 1OHR, 1hsg_prot，可以看到两个结构完全重合了。...展示PDB文件中的蛋白结合的化合物提取1OHR中的nelfinavir (残基为1UN)，运行PyMOL> select nelfinavir, 1OHR and resn 1UN；在对象面板更改其展示方式...红色为本教程的结果(只加极性氢)。结果看到second best mode看上去吻合的更好，为什么呢？从日志的结合能量来看，best mode和second best mode只差了0.2。...前面提到，PDB结构中不包含原子的局部电荷信息，而这对静电力场的计算是很重要的。因此我们需要给PDB文件中增加这一数据。...得到这个图之后，我们首先需要看配体是否落在受体的”口袋”里；然后检查配体与受体之间原子的化学匹配，如配体中的碳原子应该与受体的疏水原子结合, 氮原子和氧原子与其受体中相近原子结合；然后看有没有电荷互补；

5.5K9 2

不是原配也可以-对接非原生配体

1.1K8 1

哈佛、哥大开源1600万组蛋白质序列，解决AlphaFold 2训练数据私有难题！

后续行是根据与查询序列的相似性，从大型序列数据库中检索到的进化相关（「同源」）蛋白质。...这一计数包括截至2022年4月PDB中所有14万个唯一链的MSAs，以及针对同一数据库为Uniclust30中的每个序列集群计算的1,600万个MSAs。...从后一组中，研究者确定了270,000个最大多样性代表性集群，比如可以适用于AphaFold2训练过程中的自我蒸馏集。对于每个PDB链，研究者使用了不同的对齐工具和序列数据库计算三个MSAs。...使用OpenFold中的脚本，可以从公开可用的PDBmmCIF文件中，检索相应的结构。与用于生成AIphaFold2训练集的过程一样，研究者更改了MSA生成工具的一些默认选项。...为了创建一个不同的、深度的MSAs子集，研究者通过迭代去除代表性链出现在其他MSAs中最多的MSAs。这样重复，直到每个代表链只出现在它自己的MSA中。

4891 0

Oracle Database 21c 十大新特性一览 - New Features

相反，我们将所有20c功能都合并到21c版本中，并使21c在我们的“自制数据库免费层”中可用，以便所有人都可以免费试用驱动新功能和增强功能。...,利用区块链的防篡改和不可否认属性，区块链表使客户可以在需要高度防篡改的数据管理，而又无需在多个组织中分布分类帐或依靠分散的信任模型时使用Oracle数据库。...在验证区块链表中的链时，数据库需要证书来验证行签名。下图是区块链表的示意图： ? 可以对区块链表进行索引和分区。您可以通过建表时的选项控制是否以及何时从区块链表中删除行。...在21c中，Native 数据类型 “JSON ”改进了对JSON的支持。在读取或更新操作时不必对JSON进行解析，而只在插入时才进行解析，JSON以内部二进制格式保存，这使得访问速度更快。...在 Oracle 19c 的授权文件中，有这样的描述：你可以使用 3 个PDB的多租户环境而不需要License，超过 3个 PDB则需要额外的授权。

1.3K3 0

OpenMM-组蛋白甲基转移酶分子动力学模拟-TIP3P

步骤 step 1 使用pdbfixer来处理蛋白获取1O9S的PDB文件，除去不是想要的链（将二体转化为单体，除去配体），加入缺失氨基酸（位于链中间），以及一些缺失的重原子。...我们将会使用以下水模型：TIP3P, TIP4P-ew, and TIP5P。对于后两个水模型，我们将会执行一个额外的步骤，向晶体水中增加额外的水粒子。...接下来我们将会使用来源于Modeller对象的topology以及positions来设置LangevinIntegrator以及进行模拟。在本案例中，我们将会使用CPU，混合精度。...step 2.2 溶剂化以及使用TIP4P-Ew进行模拟使用4点水模型TIP4P-Ew，需要我们使用modeller.addExtraParticles来模拟virtual sites 和上面十分相似...step 3 你会得到一个文件trajectory_tip3p.dcd,一个文件trajectory_tip3p.pdb,trajectory_tip3p.csv，这些文件会包含模拟的信息

1.4K2 0

Python每日一谈｜No.24.实例.5-PyMol.4-alter-更改

则需要rebuild 解释视觉型学习者这里来案例蛋白为：1UBQ 1.改变链名 alter (chain A),chain='B' sort 更改之后原始蛋白文件更改之后蛋白文件右边的...A应该是segid，而左边的A则为chainID 所以，alter真实的改变了链名 2.修改某一条链中的氨基酸的编号，类似于从氨基酸14-15变为氨基酸114-115 看下图，可以看到氨基酸从0...开始输入指令 alter (chain A),resi=str(int(resi)+100) sort 编号从100开始看下pdb文件原始文件更改之后 1.改变二级结构显示拿到一个蛋白...1UBQ 蛋白质链上40-45位氨基酸的主链，以stick形式显示，C为黄色重新定义40-45的二级结构命令框中输入指令 alter 40-45/, ss='L' rebuild 此时显示为...loop 命令框中输入 alter 40-45/, ss='H' rebuild 此时显示为螺旋可以看到 alter只是影响二级结构的显示，并不是真正的改变了主链原子的空间位置最后，仍然来强制使用

5.9K4 1

分子对接简明教程（4）

文件格式解释 PDB文件 (详细格式描述) 基本信息部分 HEADER记录: 包括分子的分类、提交日期、PDB ID TITLE记录: 为该结构的描述，如果有多行，除第一行外，其它行有连续的数字标示。...【注：此简易描述只为简单理解PDB文件而写；若需用程序解析PDB文件，请参照官方文档来设计程序。】 TER: 标记一条链的结束。...刚性root包含一个或多个PDBQT-格式的ATOM或HETATM记录。这些记录与其在PDB文件中的含义类似, 只是在最后2列增加了电荷信息和原子类型信息。...【注：这个文件的解析请见参考资料中的英文文档，此中文介绍只是为了方便理解】 ENDROOT记录标记配体刚性部分的结束。ROOT/ENDROOT原子块一般出现在PDBQT文件中的首部。...处理后文件 1hsg_prot.pdb 提取的蛋白结构 indinavir.pdb 提取的小分子结构 1hsg_prot.pdbqt 转换后的蛋白结构 indinavir.pdbqt 转换后的小分子结构

3.1K13 8

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云