前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何在CDSW中使用R绘制直方图

如何在CDSW中使用R绘制直方图

作者头像
Fayson
修改2018-04-01 19:17:48
3.3K0
修改2018-04-01 19:17:48
举报
文章被收录于专栏:Hadoop实操Hadoop实操

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.文档编写目的


Cloudera的新产品CDSW(Cloudera Data Science Workbench)集成了R、Scala、Python2、Python3等语言进行统计和数据分析。本文档主要讲述如何在CDSW中使用R语言绘制直方图和饼图,并使用Hive数仓作为数据源。

  • 内容概述

1.创建R工程

2.工程启动及示例运行

3.R直方图示例代码

4.R饼图示例代码

  • 测试环境

1.CM和CDH版本为5.11.2

2.RedHat7.2

3.CDSW1.1.1

  • 前置条件

1.CDH集群正常

2.Impala/Hive中已有TPC_DS相应的表和数据

3.CDSW安装且正常运行

2.创建R工程


1.登录CDSW平台

2.点击“New Project”创建R工程,输入工程名称,选择模板为R

3.点击“Create Project”,完成R工程创建

创建工程选择Template模板时会附带R的示例。

3.启动工程及运行示例


1.进入myfirstR工程

2.点击“Open Workbench”

3.选择R运行环境及 Engine配置

4.点击“Launch Session”

5.等待容器启动成功

6.验证是否启动成功

以上version内容正常显示,terminal均能正常打开则表示启动成功。

7.运行示例

显示如下

点击运行Run或者旁边播放按钮运行代码(Run可以逐行运行或者运行所有)

运行结果

整个界面由三个区域组成,左边工程文件列表,中间代码显示区域,右边运行结果展示。

4.R直方图示例代码


1.安装R依赖包

## 安装R运行依赖包
install.packages("Rcpp",dependencies = TRUE)
install.packages("gcookbook",dependencies = TRUE)
install.packages("data.table",dependencies = TRUE)
install.packages("ggplot2",dependencies = TRUE)
install.packages("RJDBC")

2.创建一个新的R文件

3.编写R绘制直方图代码

## 加载R运行依赖包
library(ggplot2)
library(gcookbook)
library(data.table)
library(DBI)
library(rJava)
library(RJDBC)

## 将R连接Impala所依赖的jar包加载到当前运行环境
hadoop.class.path = list.files(path=c("/opt/cloudera/parcels/CDH/lib/hadoop"),pattern="jar", full.names=T);
#hive.class.path = list.files(path=c("/opt/cloudera/parcels/CDH/lib/hive/lib"),pattern="jar", full.names=T); #此处是加载Hive的依赖包,如果使用hive jdbc则加载相应的依赖包
impalajdbc.class.path = list.files(path=c("/driver/impalajdbc"), pattern="jar", full.names=T)
cp = c(hadoop.class.path,impalajdbc.class.path)
  .jinit(classpath=cp,parameters="-Djavax.security.auth.useSubjectCredsOnly=false")

## 设置Java运行参数
options(java.parameters = "-Xmx8g")

## 使用RJDBC连接Impala
drv <- JDBC("com.cloudera.impala.jdbc41.Driver", "/driver/impalajdbc/ImpalaJDBC41.jar",identifier.quote="`")
conn <- dbConnect(drv, "jdbc:impala://ip-172-31-26-80.ap-southeast-1.compute.internal:21050/tpcds_parquet")

## 获取当前时间
tt <- Sys.time()

sql = "select tt.scope,count(*) count from (
select case
    when cs_sales_price >=0 and cs_sales_price < 15 then '1'
    when cs_sales_price >= 15 and cs_sales_price < 30 then '2'
    when cs_sales_price >=30 and cs_sales_price < 45 then '3'
    when cs_sales_price >= 45 and cs_sales_price < 60 then '4'
    when cs_sales_price >= 60 and cs_sales_price < 75 then '5'
    when cs_sales_price >= 75 and cs_sales_price < 100 then '6'
    when cs_sales_price >= 100 then '7'
    else '8'
  end as scope,cs_sales_price
    from catalog_sales ) tt GROUP BY tt.scope"

## 执行SQL获取查询结果
tabledata <- dbGetQuery(conn, sql)
## 将SQL返回的结果转化为data.table数据集
VDT <- data.table(tabledata)
## 设置直方图的横坐标和纵坐标及类型
p <- ggplot(VDT, aes(x=scope, y=count)) + geom_bar(stat="identity")
### 销售额区间分布直方图
p + scale_x_discrete(breaks=c("1","2","3","4","5","6","7","8"),
  labels=c("0~15","15~30","30~45","45~60","60~75","75~100","100~","other"))
## 输出直方图耗时:
Sys.time() - tt
dbDisconnect(conn) #关闭连接

4.示例运行

5.R饼图示例代码


  1. 编写R绘制饼图代码
## 加载R运行依赖包
library(ggplot2)
library(gcookbook)
library(data.table)
library(DBI)
library(rJava)
library(RJDBC)

## 将R连接Impala所依赖的jar包加载到当前运行环境
hadoop.class.path = list.files(path=c("/opt/cloudera/parcels/CDH/lib/hadoop"),pattern="jar", full.names=T);
#hive.class.path = list.files(path=c("/opt/cloudera/parcels/CDH/lib/hive/lib"),pattern="jar", full.names=T);
impalajdbc.class.path = list.files(path=c("/driver/impalajdbc"), pattern="jar", full.names=T)
cp = c(hadoop.class.path,impalajdbc.class.path)
.jinit(classpath=cp,parameters="-Djavax.security.auth.useSubjectCredsOnly=false")

## 设置Java运行参数
options( java.parameters = "-Xmx8g" )

## 使用RJDBC连接Impala
drv <- JDBC("com.cloudera.impala.jdbc41.Driver", "/opt/cloudera/parcels/CDH/lib/hive/lib/hive-jdbc.jar",identifier.quote="`")
conn <- dbConnect(drv, "jdbc:impala://ip-172-31-26-80.ap-southeast-1.compute.internal:21050/tpcds_parquet")

## 获取当前时间
tt <- Sys.time()

sql = "select tt.scope,count(*) count from (
select case
    when cs_sales_price >=0 and cs_sales_price < 15 then '1'
    when cs_sales_price >= 15 and cs_sales_price < 30 then '2'
    when cs_sales_price >=30 and cs_sales_price < 45 then '3'
    when cs_sales_price >= 45 and cs_sales_price < 60 then '4'
    when cs_sales_price >= 60 and cs_sales_price < 75 then '5'
    when cs_sales_price >= 75 and cs_sales_price < 100 then '6'
    when cs_sales_price >= 100 then '7'
    else '8'
  end as scope,cs_sales_price
    from catalog_sales ) tt GROUP BY tt.scope"

## 执行SQL获取查询结果
tabledata <- dbGetQuery(conn, sql)

## 将SQL返回的结果转化为data.table数据集
VDT <- data.table(tabledata)

## 用order()让数据框的数据按 scope 列数据从大到小排序
VDT = VDT[order(VDT$scope, decreasing = TRUE),]
## 将数字1替换为"0~15"方式
myLabel = c("0~15","15~30","30~45","45~60","60~75","75~100","100~","other")
myLabel = paste(myLabel, "(", round(VDT$count / sum(VDT$count) * 100, 2), "%)", sep = "")

## 绘制销售额区间分布饼图
ggplot(VDT, aes(x = "", y = count, fill = scope)) +
  geom_bar(stat = "identity", width = 1) +    ## width >= 1 时中心的杂点将消失
  coord_polar(theta = "y") +
  labs(x = "", y = "", title = "") +
  theme(axis.ticks = element_blank()) +
  theme(legend.title = element_blank(), legend.position = "top") +
  scale_fill_discrete(breaks = VDT$scope, labels = myLabel) +
  theme(axis.text.x = element_blank())   ## 白色的外框即是原柱状图的X轴,把X轴的刻度文字去掉即可

## 输出饼图耗时:
Sys.time() - tt

dbDisconnect(conn)
#关闭连接

2.示例运行效果

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花! 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。


推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-10-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
专用宿主机
专用宿主机(CVM Dedicated Host,CDH)提供用户独享的物理服务器资源,满足您资源独享、资源物理隔离、安全、合规需求。专用宿主机搭载了腾讯云虚拟化系统,购买之后,您可在其上灵活创建、管理多个自定义规格的云服务器实例,自主规划物理资源的使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档