生信编程直播第12题:json格式数据的格式化

json数据大家统一用我给的测试数据,自己在浏览器打开下载:http://biotrainee.com/jbrowse/JBrowse-1.12.1/sample_data/json/modencode/modencodeMetaData.json

范例如下:

[AppleScript] 纯文本查看 复制代码

?

{
   "types" : {
      "data set" : {
         "pluralLabel" : "data sets"
      }
   },
   "items" : [
      {
         "technique" : "ChIP-chip",
         "factor" : "BEAF-32",
         "target" : "Non TF Chromatin binding factor",
         "principal_investigator" : "White, K.",
         "Tracks" : [
            "fly/White_INSULATORS_WIG/BEAF32"
         ],
         "submission" : "21",
         "label" : "BEAF-32;Embryos 0-12 hr;ChIP-chip",
         "category" : "Other chromatin binding sites",
         "type" : "data set",
         "Developmental-Stage" : "Embryos 0-12 hr",
         "organism" : "D. melanogaster"
      },
      {
         "technique" : "ChIP-chip",
         "factor" : "CP190",
         "target" : "Non TF Chromatin binding factor",
         "principal_investigator" : "White, K.",
         "Tracks" : [
            "fly/White_INSULATORS_WIG/CP190"
         ],
         "submission" : "22",
         "label" : "CP190;Embryos 0-12 hr;ChIP-chip",
         "category" : "Other chromatin binding sites",
         "type" : "data set",
         "Developmental-Stage" : "Embryos 0-12 hr",
         "organism" : "D. melanogaster"
      },

因为帖子长度有限,我就只截取了一部分,请自己下载查看,如果是完整的json,可以用在线工具查看结构:http://json.parser.online.fr/ 如果不懂json格式的,请自行搜索哈,现在TCGA在GDC的metadata信息,就是json格式的。 我们需要从这个json文件里面提取:technique factor target principal_investigator submission label category type Developmental-Stage organism key 这几列信息,当然,是可以用正则表达式做的。 完成之后应该是:http://biotrainee.com/jbrowse/JBrowse-1.12.1/sample_data/json/modencode/modencodeMetaData.csv 同样可以在浏览器打开并且下载用excel查看哈

我就不多做介绍了,主要难点在于理解json,本次作业,推荐大家用已有的包,正则表达式虽然可以做,但是太麻烦了~ 给一个perl代码如下; [Perl] 纯文本查看 复制代码

?

#!/usr/bin/env perl
use strict;
use warnings;
use autodie ':all';
use 5.10.0;
 
use JSON 2;
 
my $data = from_json( do { local $/; open my $f, '<', $ARGV[0]; scalar <$f> } );
 
my @fields = qw( technique factor target principal_investigator submission label category type Developmental-Stage organism key );
 
say join ',', map "\"$_\"", @fields;
 
for my $item ( @{$data->{items}} ) {
    $item->{key} = $item->{label};
    no warnings 'uninitialized';
    for my $track ( @{$item->{Tracks}} ) {
        $item->{label} = $track;
        say join ',', map "\"$_\"", @{$item}{@fields};
    }
}

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-05-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏落花落雨不落叶

canvas画简单电路图

63411
来自专栏C#

DotNet加密方式解析--非对称加密

    新年新气象,也希望新年可以挣大钱。不管今年年底会不会跟去年一样,满怀抱负却又壮志未酬。(不过没事,我已为各位卜上一卦,卦象显示各位都能挣钱...)...

4928
来自专栏张善友的专栏

Miguel de Icaza 细说 Mix 07大会上的Silverlight和DLR

Mono之父Miguel de Icaza 详细报道微软Mix 07大会上的Silverlight和DLR ,上面还谈到了Mono and Silverligh...

2717
来自专栏张善友的专栏

Mix 10 上的asp.net mvc 2的相关Session

Beyond File | New Company: From Cheesy Sample to Social Platform Scott Hansel...

2607
来自专栏我和未来有约会

Kit 3D 更新

Kit3D is a 3D graphics engine written for Microsoft Silverlight. Kit3D was inita...

2586
来自专栏Ceph对象存储方案

Luminous版本PG 分布调优

Luminous版本开始新增的balancer模块在PG分布优化方面效果非常明显,操作也非常简便,强烈推荐各位在集群上线之前进行这一操作,能够极大的提升整个集群...

3195
来自专栏一个会写诗的程序员的博客

Spring Reactor 项目核心库Reactor Core

Non-Blocking Reactive Streams Foundation for the JVM both implementing a Reactiv...

2192
来自专栏一个爱瞎折腾的程序猿

sqlserver使用存储过程跟踪SQL

USE [master] GO /****** Object: StoredProcedure [dbo].[sp_perfworkload_trace_s...

2070
来自专栏魂祭心

原 canvas绘制clock

4164
来自专栏pangguoming

Spring Boot集成JasperReports生成PDF文档

由于工作需要,要实现后端根据模板动态填充数据生成PDF文档,通过技术选型,使用Ireport5.6来设计模板,结合JasperReports5.6工具库来调用渲...

1.2K7

扫码关注云+社区