我的第一R包- 生信配置文件大全

大家好,我是李剑峰,生信技能树论坛的VIP小编,目前在上海交通大学医学院附属瑞金医院进行研究生阶段的学习,主要研究方向是生物信息学、医学信息学、大数据综合分析、临床诊断数据分析、DNA-seq, RNA-seq数据分析。很高兴又和读者朋友见面啦,有心的同学应该还记得我的上一篇教程:

Pecan Data Portal 系列教程(一)

很不幸,该网站被我们伟大的长城给屏蔽了,所以系列教程暂时夭折,不过,分享的脚步不会停下,下面介绍我的一个R包!

简介

configr 是我上传到CRAN的第一个R包,主要功能是解析和生成配置文件(json/ini/yaml/toml),分别用到了jsonlite,ini, yaml和RcppTOML。

configr是一个整合的并且进行了解析扩展的R包(开发动机主要是我比较烦记函数,另外解析配置文件之后很多参数还要做进一步处理),本教程将介绍常见的几种配置文件格式,以及configr的基本用法。

常见的配置文件类型

在生物信息学工具或者方法开发过程中,给用户提供一个简洁明了的配置文件进行自定义配置是一个非常好的选择。所以,为了更好的编写和解析配置文件,大家首先就要熟悉目前R语言中常用的配置文件解析工具,我下面列出了目前主要的几种配置文件格式供大家参考:

json

{  "default": {    "debug": "{{debug}} {{debug2}}"  },  "comments": {    "version": "0.2.3"  }}

参考:json.org, json examples, json-wiki

ini

[default]debug = {{debug}} {{debug2}}[comments]version = 0.2.3

参考:ini-wiki

yaml

default:  debug: '{{debug}} {{debug2}}'comments:  version: 0.2.3

参考:yaml.org, yaml-wiki

toml

# This is a TOML document. Jianfeng.title = "TOML Example"[default]debug = "{{debug}} {{debug2}}"[comments]version = "0.2.3"[comments.ljf]content = "Hello World!"

参考:toml-github, toml-wiki

xml

<?xml version="1.0" encoding="ISO-8859-1"?><!--  Copyright w3school.com.cn --><note>    <to>George</to>    <from>John</from>    <heading>Reminder</heading>    <body>Don't forget the meeting!</body></note>

参考:XML-wiki

用法

configr选择支持了json, ini, yaml, toml四种配置文件格式,下面将主要讲一下configr的基本用法,主要分为一下几块内容:配置文件格式识别、配置文件读取、配置文件的格式转换、配置文件扩展解析

格式识别

# 获取R包configr中内置的四种配置文件library(configr)config.json <- system.file("extdata", "config.json", package = "configr")config.ini <- system.file("extdata", "config.ini", package = "configr")config.yaml <- system.file("extdata", "config.yaml", package = "configr")config.toml <- system.file("extdata", "config.toml", package = "configr")# 配置文件格式识别相关函数is.json.file(config.json)
## [1] TRUE
is.toml.file(config.toml)
## [1] TRUE
is.ini.file(config.ini)
## [1] TRUE
is.yaml.file(config.yaml)
## [1] TRUE
get.config.type(config.json)
## [1] "json"
get.config.type(config.yaml)
## [1] "yaml"
get.config.type(config.ini)
## [1] "ini"
get.config.type(config.toml)
## [1] "toml"

配置文件读取

# 获取配置文件中主键名称eval.config.sections(config.ini)
## [1] "default"            "comments"          ## [3] "extra_list_parse"   "other_config_parse"## [5] "rcmd_parse"         "bash_parse"        ## [7] "mulitple_parse"     "glue_parse"
eval.config.sections(config.toml)
## [1] "bash_parse"         "comments"          ## [3] "default"            "extra_list_parse"  ## [5] "glue_parse"         "mulitple_parse"    ## [7] "other_config_parse" "title"
# 读取配置文件生成R中的列表# 注意:可以直接传递fromJSON/read.ini/readLines/yaml.load相关参数给read.configread.config(file = config.toml)
## List of 8##  $ bash_parse        :List of 2##   ..$ parsed: chr "bash"##   ..$ raw   : chr "#>#echo bash#<#"##  $ comments          :List of 1##   ..$ version: chr "0.2.3"##  $ default           :List of 1##   ..$ debug: chr "{{debug}} {{debug2}}"##  $ extra_list_parse  :List of 2##   ..$ parsed: chr "1"##   ..$ raw   : chr "{{yes}}"##  $ glue_parse        :List of 4##   ..$ parsed_1: chr [1:10] "1" "2" "3" "4" ...##   ..$ parsed_2: int [1:10] 1 2 3 4 5 6 7 8 9 10##   ..$ raw_1   : chr "!!glue {1:10}"##   ..$ raw_2   : chr "!!glue_numeric {1:10}"##  $ mulitple_parse    :List of 2##   ..$ parsed: chr "configr, configr, yes, 1, config, config, no, 0"##   ..$ raw   : chr "@>@str_replace('config','g$','gr')@<@, #>#echo configr#<#, {{key:yes_flag}}, {{yes}}, @>@str_replace('configr',"| __truncated__##  $ other_config_parse:List of 2##   ..$ parsed: chr "yes no"##   ..$ raw   : chr "{{key:yes_flag}} {{key:no_flag}}"##  $ title             : chr "TOML Example"
# Get the same obj with config package, only get the 'default# or R_CONFIG_ACTIVE config sets' in config.cfg or# R_CONFIGFILE_ACTIVEeval.config(file = config.yaml)
## $debug## [1] "{{debug}} {{debug2}}"## ## attr(,"config")## [1] "default"## attr(,"configtype")## [1] "yaml"## attr(,"file")## [1] "/home/ljf/Rlibrary/configr/extdata/config.yaml"
# Read designated sectioneval.config(file = config.json, config = "comments")
## $version## [1] "0.2.3"## ## attr(,"config")## [1] "comments"## attr(,"configtype")## [1] "json"## attr(,"file")## [1] "/home/ljf/Rlibrary/configr/extdata/config.json"
# Read designated section with its one valueeval.config(file = config.ini, config = "comments", value = "version")
## [1] "0.2.3"
# eval.config.merge 可以合并几个主键并减少配置文件的层数eval.config.merge(file = config.json, sections = c("default",   "comments"))
## $debug## [1] "{{debug}} {{debug2}}"## ## $version## [1] "0.2.3"## ## attr(,"config")## [1] "default"  "comments"## attr(,"configtype")## [1] "json"## attr(,"file")## [1] "/home/ljf/Rlibrary/configr/extdata/config.json"
eval.config.merge(file = config.toml, sections = c("default",   "comments"))
## $debug## [1] "{{debug}} {{debug2}}"## ## $version## [1] "0.2.3"## ## attr(,"config")## [1] "default"  "comments"## attr(,"configtype")## [1] "toml"## attr(,"file")## [1] "/home/ljf/Rlibrary/configr/extdata/config.toml"
# fetch.config可以导入http:// ftp://以及本地文件,# 它会将这些文件进行收集和读取,然后生成一个合并的R列表对象links <- c("https://raw.githubusercontent.com/JhuangLab/BioInstaller/master/inst/extdata/config/db/db_annovar.toml",   "https://raw.githubusercontent.com/JhuangLab/BioInstaller/master/inst/extdata/config/db/db_main.toml",   system.file("extdata", "config.toml", package = "configr"))x <- fetch.config(links)x[c(1:5, length(x))]
## $db_annovar_1000g## $db_annovar_1000g$buildver_available## $db_annovar_1000g$buildver_available$`1000g`## [1] "hg18"## ## $db_annovar_1000g$buildver_available$`1000g2010`## [1] "hg18"## ## $db_annovar_1000g$buildver_available$`1000g2012apr`## [1] "hg19" "hg18"## ## $db_annovar_1000g$buildver_available$`1000g2012jul`## [1] "hg18"## ## $db_annovar_1000g$buildver_available$`1000g2014oct`## [1] "hg38" "hg19" "hg18"## ## $db_annovar_1000g$buildver_available$`1000g2015aug`## [1] "hg38" "hg19"## ## $db_annovar_1000g$buildver_available$other## [1] "hg19"## ## ## $db_annovar_1000g$description## [1] "alternative allele frequency data in 1000 Genomes Project"## ## $db_annovar_1000g$source_url## [1] "http://www.openbioinformatics.org/annovar/download/{{buildver}}_{{version}}.zip"## ## $db_annovar_1000g$version_available##  [1] "1000g2015aug" "1000g2014oct" "1000g2014sep"##  [4] "1000g2014aug" "1000g2012apr" "1000g2012feb"##  [7] "1000g2011may" "1000g2010nov" "1000g2012apr"## [10] "1000g2010jul" "1000g2010"    "1000g"       ## ## $db_annovar_1000g$version_newest## [1] "1000g2015aug"## ## ## $db_annovar_1000g_sqlite## $db_annovar_1000g_sqlite$buildver_available## [1] "hg19"## ## $db_annovar_1000g_sqlite$install## [1] "#R#for(i in c('all', 'afr', 'eas', 'eur', 'sas', 'amr')) {\\n  x <- set.1000g.db(sprintf('{{version}}_%s', i), '{{buildver}}', \\\"sql\\\");\\n  params <- list(sql.file = x, sqlite.path = str_replace(x, '.sql$', ''));\\n  do.call(sql2sqlite, params)\\n}\\n#R#"## ## $db_annovar_1000g_sqlite$source_url## [1] "http://bioinfo.rjh.com.cn/download/annovarR/humandb/{{buildver}}_{{version}}.tar.gz"## ## $db_annovar_1000g_sqlite$version_available## [1] "1000g2015aug"## ## $db_annovar_1000g_sqlite$version_newest## [1] "1000g2015aug"## ## ## $db_annovar_avsift## $db_annovar_avsift$buildver_available## [1] "hg19" "hg18"## ## $db_annovar_avsift$decompress## [1] TRUE TRUE## ## $db_annovar_avsift$description## [1] "whole-exome SIFT scores for non-synonymous variants (obselete and should not be uesd any more)"## ## $db_annovar_avsift$source_url## [1] "http://www.openbioinformatics.org/annovar/download/{{buildver}}_{{version}}.txt.gz"    ## [2] "http://www.openbioinformatics.org/annovar/download/{{buildver}}_{{version}}.txt.idx.gz"## ## $db_annovar_avsift$version_available## [1] "avsift"## ## $db_annovar_avsift$version_newest## [1] "avsift"## ## ## $db_annovar_avsnp## $db_annovar_avsnp$buildver_available## $db_annovar_avsnp$buildver_available$avsnp138## [1] "hg19"## ## $db_annovar_avsnp$buildver_available$avsnp142## [1] "hg38" "hg19"## ## $db_annovar_avsnp$buildver_available$avsnp144## [1] "hg38" "hg19"## ## $db_annovar_avsnp$buildver_available$avsnp147## [1] "hg38" "hg19"## ## $db_annovar_avsnp$buildver_available$avsnp150## [1] "hg38" "hg19"## ## ## $db_annovar_avsnp$decompress## [1] TRUE TRUE## ## $db_annovar_avsnp$description## $db_annovar_avsnp$description$avsnp138## [1] "dbSNP138 with allelic splitting and left-normalization"## ## $db_annovar_avsnp$description$avsnp142## [1] "dbSNP142 with allelic splitting and left-normalization"## ## $db_annovar_avsnp$description$avsnp144## [1] "dbSNP144 with allelic splitting and left-normalization (http://annovar.openbioinformatics.org/en/latest/articles/dbSNP/#additional-discussions)"## ## $db_annovar_avsnp$description$avsnp147## [1] "dbSNP147 with allelic splitting and left-normalization"## ## ## $db_annovar_avsnp$source_url## [1] "http://www.openbioinformatics.org/annovar/download/{{buildver}}_{{version}}.txt.gz"    ## [2] "http://www.openbioinformatics.org/annovar/download/{{buildver}}_{{version}}.txt.idx.gz"## ## $db_annovar_avsnp$version_available## [1] "avsnp150" "avsnp147" "avsnp144" "avsnp142" "avsnp138"## ## $db_annovar_avsnp$version_newest## [1] "avsnp150"## ## ## $db_annovar_avsnp_sqlite## $db_annovar_avsnp_sqlite$buildver_available## [1] "hg19"## ## $db_annovar_avsnp_sqlite$install## [1] "#R#sql2sqlite('{{buildver}}_{{version}}.sqlite.sql', sqlite.path = '{{buildver}}_{{version}}.sqlite')#R#"## ## $db_annovar_avsnp_sqlite$source_url## [1] "http://bioinfo.rjh.com.cn/download/annovarR/humandb/{{buildver}}_{{version}}.sqlite.sql.gz"## ## $db_annovar_avsnp_sqlite$version_available## [1] "avsnp147"        "avsnp147.common" "avsnp144"       ## [4] "avsnp142"        "avsnp138"       ## ## $db_annovar_avsnp_sqlite$version_newest## [1] "avsnp147"## ## ## $title## [1] "TOML Example"

配置文件格式转换

# Convert YAML configuration file to JSON formatout.json <- tempfile(fileext = ".json")convert.config(file = config.yaml, out.file = out.json, convert.to = "JSON")
## [1] TRUE
get.config.type(out.json)
## [1] "json"
# Generate a JSON format configuration filelist.test <- list(a = c(123, 456))out.fn <- sprintf("%s/test.json", tempdir())write.config(config.dat = list.test, file.path = out.fn, write.type = "json")
## [1] TRUE
get.config.type(out.fn)
## [1] "json"
# Generate a YAML format configuration file with defined# indentwrite.config(config.dat = list.test, file.path = out.fn, write.type = "yaml",   indent = 4)
## [1] TRUE
get.config.type(out.fn)
## [1] "yaml"

配置文件扩展解析

为了最大化利用配置文件,我定义了一些规则来进行扩展解析,也就是在jsonlite/ini/yaml/RcppTOML读取配置文件之后进行额外的解析和操作。

  • extra.list可以用来替换配置文件中两个大括号括起来的值,比如 {{debug}}会被替换为 extra.list = list(debug = 'self')中的 self
  • other.config可以被用来联系两个配置文件,如果你设置 other.config =system.file('extdata', 'config.other.yaml', package='configr'),它会在config.other.yaml中读取 key并且获取 yes_flag的值然后替换解析的配置文件中对应的 {{key:yes_flag}}值。
  • rcmd.parse可以被用来解析 @>@str_replace('config','g$','gr')@<@,它可以将这一部分替换为R命令运行的结果。
  • bash.parse可以被用来解析 #>#echo bash#<#,它可以将这一部分替换为系统终端的命令运行结果.
  • glue.parse使用了R包glue进行相关解析,它会替换 !!glue {1:5}变为["1", "2", "3", "4", "5"]; !!glue_numeric {1:5}变为 [1, 2, 3, 4, 5]

下面是一些具体的实例供大家参考。

other.config <- system.file("extdata", "config.other.yaml", package = "configr")read.config(file = other.config)
## $key## $key$test_parse## [1] 123## ## $key$test_parse2## [1] 234## ## $key$yes_flag## [1] "yes"## ## $key$no_flag## [1] "no"## ## ## $`samtools@1.3.1`## $`samtools@1.3.1`$source_dir## [1] "/tmp"
config.1 <- read.config(file = config.json)config.1$default
## $debug## [1] "{{debug}} {{debug2}}"
read.config(file = config.json, extra.list = list(debug = "self",   debug2 = "self2"))$default
## $debug## [1] "self self2"
sections <- c("default", "other_config_parse")config.1[sections]
## $default## $default$debug## [1] "{{debug}} {{debug2}}"## ## ## $other_config_parse## $other_config_parse$raw## [1] "{{key:yes_flag}} {{key:no_flag}}"## ## $other_config_parse$parsed## [1] "yes no"
read.config(file = config.json, extra.list = list(debug = "self",   debug2 = "self2"), other.config = other.config)[sections]
## $default## $default$debug## [1] "self self2"## ## ## $other_config_parse## $other_config_parse$raw## [1] "yes no"## ## $other_config_parse$parsed## [1] "yes no"
sections <- c("default", "other_config_parse", "rcmd_parse")# The followed two line command will return the same valueconfig.1[sections]
## $default## $default$debug## [1] "{{debug}} {{debug2}}"## ## ## $other_config_parse## $other_config_parse$raw## [1] "{{key:yes_flag}} {{key:no_flag}}"## ## $other_config_parse$parsed## [1] "yes no"## ## ## $rcmd_parse## $rcmd_parse$raw## [1] "@>@ Sys.Date() @<@"
read.config(file = config.json, extra.list = list(debug = "self",   debug2 = "self2"), other.config = other.config, rcmd.parse = T)[sections]
## $default## $default$debug## [1] "self self2"## ## ## $other_config_parse## $other_config_parse$raw## [1] "yes no"## ## $other_config_parse$parsed## [1] "yes no"## ## ## $rcmd_parse## $rcmd_parse$raw## [1] "2017-11-26"
parse.extra(config.1, extra.list = list(debug = "self", debug2 = "self2"),   other.config = other.config, rcmd.parse = T)[sections]
## $default## $default$debug## [1] "self self2"## ## ## $other_config_parse## $other_config_parse$raw## [1] "yes no"## ## $other_config_parse$parsed## [1] "yes no"## ## ## $rcmd_parse## $rcmd_parse$raw## [1] "2017-11-26"
sections <- c("default", "other_config_parse", "rcmd_parse",   "mulitple_parse")config.1[sections]
## $default## $default$debug## [1] "{{debug}} {{debug2}}"## ## ## $other_config_parse## $other_config_parse$raw## [1] "{{key:yes_flag}} {{key:no_flag}}"## ## $other_config_parse$parsed## [1] "yes no"## ## ## $rcmd_parse## $rcmd_parse$raw## [1] "@>@ Sys.Date() @<@"## ## ## $mulitple_parse## $mulitple_parse$raw## [1] "@>@str_replace('config','g$','gr')@<@, #>#echo configr#<#, {{key:yes_flag}}, {{yes}}, @>@str_replace('configr','r','')@<@, #># echo config#<#, {{key:no_flag}}, {{no}}"## ## $mulitple_parse$parsed## [1] "configr, configr, yes, 1, config, config, no, 0"
parse.extra(config.1, extra.list = list(debug = "self", debug2 = "self2",   yes = "1", no = "0"), other.config = other.config, rcmd.parse = T,   bash.parse = F)[sections]
## $default## $default$debug## [1] "self self2"## ## ## $other_config_parse## $other_config_parse$raw## [1] "yes no"## ## $other_config_parse$parsed## [1] "yes no"## ## ## $rcmd_parse## $rcmd_parse$raw## [1] "2017-11-26"## ## ## $mulitple_parse## $mulitple_parse$raw## [1] "configr, #>#echo configr#<#, yes, 1, config, #># echo config#<#, no, 0"## ## $mulitple_parse$parsed## [1] "configr, configr, yes, 1, config, config, no, 0"
# glue parseraw <- c("a", "!!glue{1:5}", "c")list.raw <- list(glue = raw, nochange = 1:10)list.raw
## $glue## [1] "a"           "!!glue{1:5}" "c"          ## ## $nochange##  [1]  1  2  3  4  5  6  7  8  9 10
expect.parsed.1 <- c("a", "1", "2", "3", "4", "5", "c")expect.parsed.2 <- list(glue = expect.parsed.1, nochange = 1:10)parse.extra(list.raw, glue.parse = TRUE, glue.flag = "!!glue")
## $glue## [1] "a" "1" "2" "3" "4" "5" "c"## ## $nochange##  [1]  1  2  3  4  5  6  7  8  9 10

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-11-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯NEXT学位

那些让编码效率起飞(前端)的工具了解一下

? | 导语 想晚上吃鸡?前端编码效率提升工具了解一下? 一、Bash篇(Mac) iTerm2 iTerm 2 is a terminal emulato...

833
来自专栏晨星先生的自留地

渗透某摄像头系统

1343
来自专栏疯狂的小程序

关于微信小程序内置组件swiper,circular使用分享

swiper,关于滑块的一些效果无缝,断点,视差等等...我想这里就不用做太多的赘述,这里给大家分享一下实战项目中使用circular(衔接)的一点小特性、小技...

36010
来自专栏快乐八哥

列举一下项目中使用的产品和技术

浏览器兼容水平: IE7-10, Firefox和Chrome最新版 开发环境: Windows7+Visual Studio 2010+Oracle Tort...

18110
来自专栏Python中文社区

用Python模拟登录学校教务系统抢课

-- Illustrations by Vladislav Solovjov --

1002
来自专栏ionic3+

【两天完成简书搬家】——第一天,NodeJS爬取简书数据

分析下简书,还挺好爬取的,写个简单的爬虫还是有挺多开发语言可选择。本来我用C#也写过一个简单的爬虫框架,只是用Mac后.Net的相关代码基本全放在家里的旧电脑里...

683
来自专栏北京马哥教育

用 Python 搞定正方教务系统之抢课篇

最近学校开始选课,但是如果选课时间与自己的事情冲突,这时候就可以使用Python脚本自助抢课,抢课的第一步即是模拟登录,需要模拟登录后保存登录信息然后再进行操作...

610
来自专栏CDA数据分析师

工具 | Python Web 开发的十个框架

Python 是一门动态、面向对象语言。其最初就是作为一门面向对象语言设计的,并且在后期又加入了一些更高级的特性。除了语言本身的设计目的之外,Python标准 ...

22810
来自专栏区块链源码分析

超级账本(Hyperledger Fabric)源码分析之一:总览

1)Go,注意设置好gopath(笔者安装的是go1.8.3,对应的源码是v1.0.0这个tag,版本不对可能会出现编译不过或者运行出现问题)

2225
来自专栏企鹅号快讯

史上最全的web前端学习教程汇总!

第一阶段:HTML+CSS HTML进阶、CSS进阶、div+css布局、HTML+css整站开发、 JavaScript基础:js基础教程、js内置对象常用方...

2025

扫描关注云+社区