【数据科学】R语言连接数据库

数据是关系数据库系统中存储的统一化格式。 因此,实施我们需要非常先进和复杂的SQL查询统计计算。但是R能够轻松地连接到诸如MySql, Oracle, Sql server等多种关系数据库并且可以从它们的记录转为R中的数据帧。一旦数据是在R环境中可用,就变成了正常R数据集,并可以被操纵或使用所有强大包和函数来进行分析。

在本教程中,我们将使用 MySQL 作为参考数据库,用于连接到 R 中。

RMySQL 软件包

R有一个名为“RMySQL”它提供了与 MySQL 数据库之间的本地连接的内置软件包。可以使用下面的命令来安装这个包到 R 的环境。

install.packages("RMySQL")

连接R到MySql

一旦软件包安装,我们创建 R 的连接对象连接到数据库。这需要用户名,密码,数据库名和主机名作为输入。

# Create a connection Object to MySQL database.
# We will connect to the sampel database named "sakila" that comes with MySql installation.
 mysqlconnection = dbConnect(MySQL(), user='root', password='', dbname='sakila', host='localhost')

# List the tables available in this database.
 dbListTables(mysqlconnection)

当我们上面的代码执行时,它产生以下结果:

 [1] "actor"                      "actor_info"                
 [3] "address"                    "category"                  
 [5] "city"                       "country"                   
 [7] "customer"                   "customer_list"             
 [9] "film"                       "film_actor"                
[11] "film_category"              "film_list"                 
[13] "film_text"                  "inventory"                 
[15] "language"                   "nicer_but_slower_film_list"
[17] "payment"                    "rental"                    
[19] "sales_by_film_category"     "sales_by_store"            
[21] "staff"                      "staff_list"                
[23] "store"

查询表

我们可以使用函数 dbSendQuery()查询在MySQL数据库表。查询获取执行在MySQL中并使用fetch()函数返回结果集。最后,它被存储为R的数据帧。

# Query the "actor" tables to get all the rows.
result = dbSendQuery(mysqlconnection, "select * from actor")

# Store the result in a R data frame object. n=5 is used to fetch first 5 rows.
data.frame = fetch(result, n=5)
print(data.fame)

当我们上面的代码执行时,它产生以下结果:

  actor_id first_name    last_name         last_update
1        1   PENELOPE      GUINESS 2006-02-15 04:34:33
2        2       NICK     WAHLBERG 2006-02-15 04:34:33
3        3         ED        CHASE 2006-02-15 04:34:33
4        4   JENNIFER        DAVIS 2006-02-15 04:34:33
5        5     JOHNNY LOLLOBRIGIDA 2006-02-15 04:34:33

查询与筛选子句

我们可以通过任何有效的 select 查询得到结果。

result = dbSendQuery(mysqlconnection, "select * from actor where last_name='TORN'")

# Fetch all the records(with n = -1) and store it as a data frame.
data.frame = fetch(result, n=-1)
print(data)

当我们上面的代码执行时,它产生以下结果:

  actor_id first_name last_name         last_update
1       18        DAN      TORN 2006-02-15 04:34:33
2       94    KENNETH      TORN 2006-02-15 04:34:33
3      102     WALTER      TORN 2006-02-15 04:34:33

更新表的行

我们可以通过传递更新查询到dbSendQuery()函数更新一个MySQL表中的行。

dbSendQuery(mysqlconnection, "update mtcars set disp = 168.5 where hp = 110")

在执行上面的代码后,我们可以看到该表在MySQL环境中已经更新。

将数据插入到表

dbSendQuery(mysqlconnection,
"insert into mtcars(row_names, mpg, cyl, disp, hp, drat, wt, qsec, vs, am, gear, carb)
values('New Mazda RX4 Wag', 21, 6, 168.5, 110, 3.9, 2.875, 17.02, 0, 1, 4, 4)"
)

执行上面的代码后,我们可以看到插入到表在MySQL环境的记录行。

在MySQL中创建表

我们可以使用函数dbWriteTable()创建一个表在MySQL中。它覆盖表,如果它已经存在,并且需要一个数据帧输入。

# Create the connection object to the database where we want to create the table.
mysqlconnection = dbConnect(MySQL(), user='root', password='', dbname='sakila', host='localhost')

# Use the R data frame "mtcars" to create the table in MySql.
# All the rows of mtcars are taken inot MySql.
dbWriteTable(mysqlconnection, "mtcars", mtcars[, ], overwrite = TRUE)

在执行上面的代码后,我们可以看到在MySQL环境中有创建后的表。

在MySQL删除表。

我们可以把 MySql 数据库这个表删除,通过 DROP TABLE 语句发送到 dbSendQuery(),与之前从表查询数据的方式相同。

dbSendQuery(mysqlconnection, 'drop table if exists mtcars')

在执行上面的代码后,我们可以看到该表在MySQL环境被丢弃。

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-11-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员的SOD蜜

还在写SQL的同志,去喝杯咖啡吧!

--标题可能比较“雷人”,但这是我今天早上的第一个感受。我们有一个同事昨天加班写了一大堆有关某些大表(字段很多的表)的增、删、查的SQL语句,看着哪些SQL语句...

2385
来自专栏人工智能LeadAI

ElasticSearch优化系列三:索引过程

大家可能会遇到索引数据比较慢的过程。其实明白索引的原理就可以有针对性的进行优化。ES索引的过程到相对Lucene的索引过程多了分布式数据的扩展,而这ES主要是用...

4029
来自专栏杨建荣的学习笔记

物化视图自动刷新的碰壁(r7笔记第61天)

今天和开发的同事讨论一个问题,他们说source 1的环境中存在一个表,现在希望目标环境target 1和target 2中都需要用到这部分的数据。 ? 对...

3634
来自专栏Albert陈凯

Hbase二级索引

二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以Hbase做...

5364
来自专栏张善友的专栏

SQLite vs MySQL vs PostgreSQL:关系型数据库比较

自1970年埃德加·科德提出关系模型之后,关系型数据库便开始出现,经过了40多年的演化,如今的关系型数据库种类繁多,功能强大,使用广泛。面对如此之多的关系型数据...

2925
来自专栏IT派

如何用Python 编写知乎爬虫?So easy!

在爬虫系统中,待抓取 URL 队列是很重要的一部分。待抓取 URL 队列中的 URL 以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取...

1480
来自专栏Hadoop数据仓库

HAWQ技术解析(十七) —— 最佳实践

一、HAWQ参数配置最佳实践 (原文地址:http://hawq.incubator.apache.org/docs/userguide/2.1.0.0-inc...

2157
来自专栏数据和云

Oracle数据库中最让人匪夷所思的十大问题盘点

数据的世界无奇不有,常常会遇到一些超出常识之外的故障的发生。这就要求广大的DBA要深入了解数据库的内部机制,面对一些奇葩的故障或者问题能够拨开迷雾找到真相。今...

3015
来自专栏数据库

不得不看,只有专家才知道的17个SQL查询提速秘诀!

“ 除非你遵循本文介绍的这些技巧,否则很容易编写出减慢查询速度或锁死数据库的数据库代码。 ? 由于数据库领域仍相对不成熟,每个平台上的 SQL 开发人员都在苦苦...

2106
来自专栏me的随笔

SQL SERVER FOR LINUX初体验

今天得空,就在Ubuntu17.04上安装了SQL SERVER 2017体验下,总体来说还是不错的。

2953

扫码关注云+社区

领取腾讯云代金券