前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python解析psiBlast输出的JSON文件结果

Python解析psiBlast输出的JSON文件结果

作者头像
生信宝典
发布2018-02-05 11:57:54
2K0
发布2018-02-05 11:57:54
举报
文章被收录于专栏:生信宝典

什么是JSON文件

JSON文件是一种轻量级的数据存储和交换格式,其实质是字典和列表的组合。这在定义生信分析流程的参数文件中具有很好的应用。

代码语言:javascript
复制
{
    "公众号": {
        "名字": "生信宝典", 
        "宗旨": "为生信服务", 
        "正确地打开方式": [
            "阅读", 
            "置顶", 
            "转发"
        ]    
    } 
}

在Python中解析JSON是通过如下代码完成的

代码语言:javascript
复制
import json
file_fh = open("test2.json")
ajsonD = json.load(file_fh)
ajsonD
{'公众号': {'宗旨': '为生信服务',  '正确地打开方式': ['阅读',  '置顶',  '转发'],  '名字': '生信宝典'}}
ajsonD['公众号']['名字']
'生信宝典'

什么是PSIBLAST

PSI-BLAST位置特异的迭代搜索工具,输入为位置得分矩阵或多序列比对图谱,搜索匹配到的序列会更新到搜索信息中进行进一步搜索,直到没有新的序列搜索到,常用于发现远同源基因。 (Position-Specific Iterative Basic Local Alignment Search Tool) derives a position-specific scoring matrix (PSSM) or profile from the multiple sequence alignment of sequences detected above a given score threshold using protein–protein BLAST. This PSSM is used to further search the database for new matches, and is updated for subsequent iterations with these newly detected sequences. Thus, PSI-BLAST provides a means of detecting distant relationships between proteins.

著名的TET家族蛋白(哺乳动物主动去甲基化酶, 美国科学院院士Anjana Rao), NgAgo(具体功能存疑,韩主席的工作),Cas家族蛋白(序列分析大牛Eugene V. Koonin的工作)都是通过PSI-BLAST搜索出来的, 可见其强大。

Python解析PSIBLAST的JSON输出结果

BLAST的输出结果可以有多种,在线的配对比较结果,线下常用的表格输出,这次尝试的是JSON的输出,运行命令如下

代码语言:javascript
复制
psiblast -db nr -out Known_CPS.CUI.mfa.psiblast -evalue 0.0001 -outfmt 13 -num_threads 10 -num_iterations 0 -in_msa Known_CPS.CUI.mfa

这次编程的目的是通过解析输出的JSON结果获取匹配的蛋白的名字和序列,JSON文件解析的关键是知道关注的信息在哪个关键字下可以找到,然后需要怎么操作进入到关键字所在数据层,具体操作见如下视频,视频中一步步尝试如何不断试错,解析JSON文件,获得想要的Python脚本和解析结果。

视频:https://v.qq.com/iframe/player.html?vid=p0542g1puwt&width=640&height=360&auto=0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-08-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信宝典 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是JSON文件
  • 什么是PSIBLAST
  • Python解析PSIBLAST的JSON输出结果
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档