R语言获取ArrayExpress数据库数据

大家可能有一部分人对ArrayExpress数据库是比较熟悉的,当然也有人可能没怎么听说过。今天我么主要介绍一个可以获取ArrayExpress数据库数据的R包的安装以及使用。

首先我们看下Array Express (https://www.ebi.ac.uk/arrayexpress/)的网站页面:

接下来我们介绍下ArrayExpress包的安装:

既然是组学数据的R包一般都会是以Linux为主当然也会开发windows版本。首先我们看下Linux版本的安装,其实比较简单只要调用bioconductor中提供的命令就可以:

source("https://bioconductor.org/biocLite.R")

biocLite("ArrayExpress")

关键是windows下的安装有点复杂。如果电脑安装了Rtool那么也可以直接调用以上的命令进行安装;反之,我们也可以下载包到本地进行安装,下载地址:http://www.bioconductor.org/packages/release/bioc/bin/windows/contrib/3.5/ArrayExpress_1.40.0.zip

然后就是直接本地启动就可以了。

以上不管是在Linux还是在windows下安装完成后,都需要去测试另一个系统工具的运行状态,那就是curl工具,当然Linux一般都会安装好,只需要更新下就好,如果没安装好那需要安装。不管是windows还是Linux版本都在以下链接中:https://curl.haxx.se/download.html

Linux下的安装过程:

wgethttps://curl.haxx.se/download/curl-7.55.1.tar.gz

tar-xzvf curl-7.55.1.tar.gz

cd curl-7.55.1

./configure

make

makeinstall

便可以安装成功,检测命令 curl –version。

Windows下的安装过程:

下载对应的Windows下的版本,一般包含两个文件:

证书是需要安装的,.exe的文件需要拷贝到指定的文件夹即可。然后为curl配置环境变量,环境变量的配置我就不赘述了。

安装成功与否的测试和linux下一样。

至此,我们ArrayExpress的前期工作准备完毕。

最后就是如何使用ArrayExpress包进行数据的获取以及数据的分析。

首先,我们看下其中几个主要的函数:

1. queryAE()获取数据集的ID及相关描述信息

例: sets = queryAE(keywords = "kidney", species ="homo+sapiens")以下是成功结果以及获取的结果的结构。

2. getAE()获取指定ID下的所有数据并下载到本地

例:mexp1422=getAE("E-MEXP-1422")

3. ae2biocae()将下载到本地数据转化为R语言可以识别的AffyBatch数据形式。

例:rawset= ae2bioc(mageFiles = mexp1422)

4. ArrayExpress( )对数据进行整合形成数据object,如果进一步进行表达的分析可以借助affy包,affy包的使用我们将在后面的教程中介绍使用。

例:AEset = ArrayExpress("E-MEXP-1416")

欢迎大家学习交流:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180517G11E4S00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券