本文以 Zepplin 0.91 以上版本为例,主要介绍常见 Zeppelin 解析的配置以及验证方法。
使用 root 用户登录 Zepplin WebUI,密码默认与创建集群时的密码相同,单击右上角用户 > Interpreter,搜索需配置解析器的组件,单击 edit 即可进行配置。
Spark 解析器
配置
SPARK_HOME: /usr/local/service/sparkspark.master: yarnspark.submit.deployMode: clusterspark.app.name: zeppelin-spark
验证
1. 先把 wordcount.txt 文件上传到 emr hdfs 的/tmp 路径下。
2. 通过 core-site.xml 找到 fs.defaultFS 配置项值 hdfs://HDFS45983。
3. 在 notebook 中执行 spark 相关代码。
%sparkval data = sc.textFile("hdfs://HDFS45983/tmp/wordcount.txt")case class WordCount(word: String, count: Integer)val result = data.flatMap(x => x.split(" ")).map(x => (x, 1)).reduceByKey(_ + _).map(x => WordCount(x._1, x._2))result.toDF().registerTempTable("result")%sqlselect * from result
Flink 解析器
配置
FLINK_HOME: /usr/local/service/flinkflink.execution.mode: yarn
验证
%flinkval data = benv.fromElements("hello world", "hello flink", "hello hadoop")data.flatMap(line => line.split("\\\\s")).map(w => (w, 1)).groupBy(0).sum(1).print()
HBase 解析器
配置
hbase.home: /usr/local/service/hbasehbase.ruby.sources: lib/rubyzeppelin.hbase.test.mode: false
注意
此解析器依赖的 jar 包已集成到集群/usr/local/service/zeppelin/local-repo 路径下,因此不用配置 dependencies,如需已定义 jar 包才需配置dependencies。
验证
%hbasehelp 'get'%hbaselist
Livy 解析器
配置
zeppelin.livy.url: http://ip:8998
验证
%livy.sparksc.version%livy.pysparkprint "1"%livy.sparkrhello <- function( name ) {sprintf( "Hello, %s", name );}hello("livy")
Kylin 解析器
配置
1. 在 Kylin 控制台页面中新建一个 default 的 Project。
2. 配置 zeppelin 的 kylin interpreter。
kylin.api.url: http://ip:16500/kylin/api/querykylin.api.user: ADMINkylin.api.password: KYLINkylin.query.project: default
验证
%kylin(default)select count(*) from table1
JDBC 解析器
1. MySQL 解析器配置
default.url: jdbc:mysql://ip:3306default.user: xxxdefault.password: xxxdefault.driver: com.mysql.jdbc.Driver
注意
此解析器依赖的 jar 包已集成到集群/usr/local/service/zeppelin/local-repo 路径下,因此不用配置 dependencies,如需已定义 jar 包才需配置 dependencies。
验证
%mysqlshow databases
2. Hive 解析器配置
default.url: jdbc:hive2://ip:7001default.user: hadoopdefault.password:default.driver: org.apache.hive.jdbc.HiveDriver
注意
此解析器依赖的 jar 包已集成到集群/usr/local/service/zeppelin/local-repo 路径下,因此不用配置 dependencies,如需已定义 jar 包才需配置 dependencies。
验证
%hiveshow databases%hiveuse default;show tables;
3. Presto 解析器配置
default.url: jdbc:presto://ip:9000?user=hadoopdefault.user: hadoopdefault.password:default.driver: io.prestosql.jdbc.PrestoDriver
注意
此解析器依赖的 jar 包已集成到集群/usr/local/service/zeppelin/local-repo 路径下,因此不用配置 dependencies,如需已定义 jar 包才需配置 dependencies。
验证
%prestoshow catalogs;%prestoshow schemas from hive;%prestoshow tables from hive.default;