R语言获取ArrayExpress数据库数据

文章来源：企鹅号 - R语言交流中心

大家可能有一部分人对ArrayExpress数据库是比较熟悉的，当然也有人可能没怎么听说过。今天我么主要介绍一个可以获取ArrayExpress数据库数据的R包的安装以及使用。

首先我们看下Array Express (https://www.ebi.ac.uk/arrayexpress/)的网站页面：

接下来我们介绍下ArrayExpress包的安装：

既然是组学数据的R包一般都会是以Linux为主当然也会开发windows版本。首先我们看下Linux版本的安装，其实比较简单只要调用bioconductor中提供的命令就可以：

source("https://bioconductor.org/biocLite.R")

biocLite("ArrayExpress")

关键是windows下的安装有点复杂。如果电脑安装了Rtool那么也可以直接调用以上的命令进行安装；反之，我们也可以下载包到本地进行安装，下载地址：http://www.bioconductor.org/packages/release/bioc/bin/windows/contrib/3.5/ArrayExpress_1.40.0.zip

然后就是直接本地启动就可以了。

以上不管是在Linux还是在windows下安装完成后，都需要去测试另一个系统工具的运行状态，那就是curl工具，当然Linux一般都会安装好，只需要更新下就好，如果没安装好那需要安装。不管是windows还是Linux版本都在以下链接中：https://curl.haxx.se/download.html

Linux下的安装过程：

wgethttps://curl.haxx.se/download/curl-7.55.1.tar.gz

tar-xzvf curl-7.55.1.tar.gz

cd curl-7.55.1

./configure

make

makeinstall

便可以安装成功，检测命令 curl –version。

Windows下的安装过程：

下载对应的Windows下的版本，一般包含两个文件：

证书是需要安装的，.exe的文件需要拷贝到指定的文件夹即可。然后为curl配置环境变量，环境变量的配置我就不赘述了。

安装成功与否的测试和linux下一样。

至此，我们ArrayExpress的前期工作准备完毕。

最后就是如何使用ArrayExpress包进行数据的获取以及数据的分析。

首先，我们看下其中几个主要的函数：

1. queryAE（）获取数据集的ID及相关描述信息

例: sets = queryAE(keywords = "kidney", species ="homo+sapiens")以下是成功结果以及获取的结果的结构。

2. getAE（）获取指定ID下的所有数据并下载到本地

例：mexp1422=getAE("E-MEXP-1422")

3. ae2biocae()将下载到本地数据转化为R语言可以识别的AffyBatch数据形式。

例：rawset= ae2bioc(mageFiles = mexp1422)

4. ArrayExpress( )对数据进行整合形成数据object，如果进一步进行表达的分析可以借助affy包，affy包的使用我们将在后面的教程中介绍使用。

例：AEset = ArrayExpress("E-MEXP-1416")

欢迎大家学习交流：

发表于: 2018-05-172018-05-17 16:02:08
原文链接：https://kuaibao.qq.com/s/20180517G11E4S00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

R语言获取ArrayExpress数据库数据

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐