首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用biopython解析kegg数据库

欢迎关注”生信修炼手册”!

KEGG数据库称之为基因组百科全书,是一个包含gene, pathway等多个子数据库的综合性数据库。为了更好的查询kegg数据,官方提供了对应的API。

在biopython中,通过Bio.KEGG模块,对kegg官方的API进行了封装,允许在python环境中使用kegg API。KEGG API与python代码的对应关系如下

利用REST模块,可以下载API支持的任何类型的数据,以pathway为例,示例如下

对于查询获得的内容,通过read方法可以转换为纯文本,示例如下

这样就可以通过字符串解析,来获取通路对应的编号,名称,注释等信息。对于KEGG数据的解析,biopython还提供了专门的解析函数,但是解析函数并不完整,目前只覆盖了compound, map, enzyme等子数据库。以enzyme数据库为例,用法如下

通过biopython,我们不仅可以在python环境中使用kegg api, 更重要的是,可以借助python的逻辑处理,来实现复杂的筛选逻辑,比如查找human中DNA修复相关的基因,基本思路如下

1. 通过list API获取human所有的pathway编号;

2. 通过get API获取每条pathway, 解析其description信息,筛选出现了repair关键词的通路;

3. 对于筛选出的通路,通过文本解析获取该通路对应的基因;

完整的代码如下

通过biopython, 可以更加高效的使用KEGG API, 结合API的数据获取能力和python的逻辑处理能力,来满足我们的个性化分析需求。‍

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210108A0EO1L00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券