Livy,基于Apache Spark的开源REST服务,加入Cloudera Labs

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 Cloudera Labs的新成员Livy,为web/mobile应用简化了Spark架构。

Hadoop生态圈的Spark(https://www.cloudera.com/products/open-source/apache-hadoop/apache-spark.html),一夜之间成为默认的数据处理引擎,并被作为高级分析的标准。但是它依旧有许多东西需要完善,特别是在大规模/多租户,开发与投产,以及可扩展性方面。

比如,基于Spark的应用程序一直有以下限制:如果不做复杂的客户端配置,远程的应用程序无法直接访问Spark资源,这对于开发人员的体验相当差,而且也拉长了投产的过程。这个限制也使得Spark与其他系统集成变得很麻烦。

因为这些原因,所以我们把Livy项目加入到了Cloudera Labs中,跟其他的实验室项目一样,Livy只能用于开发和测试目的,而不建议用于生产环境,目前Cloudera也不会提供支持。Cloudera Labs中的项目玩法,你还可以参考Fayson之前翻译的Phoenix文章《Cloudera Labs中的Phoenix》

Livy是基于Apache许可的一个服务,它可以让远程应用通过REST API比较方便的与Spark集群交互。通过简单的REST接口或RPC客户端库,它可以让你轻松的提交Spark作业或者Spark代码片段,同步或者异步的结果检索,以及SparkContext管理。Livy还简化了Spark和应用程序服务器之间的交互,从而为web/mobile应用简化Spark架构。

通过Livy,你可以:

1.由多个客户端为多个Spark作业使用长时间运行的SparkContexts。

2.同时管理多个SparkContexts,让它们在集群中(YARN/Mesos)运行,从而实现很好的容错和并发,而不是在Livy服务上运行。

3.预编译的jars,代码片段或者Java/Scala客户端API都可以用来提交作业。

4.安全认证的通信。

要使用Livy,集群中必须安装Spark 1.4或以上版本,Scala2.10。你可以通过以下链接下载并开始:

http://archive.cloudera.com/beta/livy/livy-server-0.3.0.zip

1.导入以下环境变量

export SPARK_HOME=/usr/lib/spark
export HADOOP_CONF_DIR=/etc/hadoop/conf

2.启动服务

./bin/livy-server

通过上面的配置你可以看到,Livy在默认情况下使用了SPARK_HOME下的Spark配置。强烈建议配置Spark on YARN,以确保用户会话可以连接到YARN集群中,并使用YARN分配的资源,也可以保证当有多个会话连接时,运行Livy服务的节点不会负载太高。Livy在自己的conf目录下还有一些自己的配置文件。可以参考:

https://github.com/cloudera/livy/blob/master/README.rst

到目前为止,Livy主要由Cloduera,Microsoft和Intel的员工一起来开发维护,但Livy社区欢迎更多的贡献者,如下:

https://github.com/cloudera/livy/wiki/Contributing-to-Livy

我们鼓励你尝试一下,并欢迎将任何反馈提交到Cloudera Labs社区:

http://community.cloudera.com/t5/Cloudera-Labs/bd-p/ClouderaLabs

参考:

https://blog.cloudera.com/blog/2016/07/livy-the-open-source-rest-service-for-apache-spark-joins-cloudera-labs/

Livy更多文章你还可以参考:

https://zh.hortonworks.com/blog/livy-a-rest-interface-for-apache-spark/

https://mp.weixin.qq.com/s/SMfB-3wQBSqK7Nhv2KooWA

Fayson在接下来会对Livy的安装使用进行实操,欢迎持续关注:

Livy编译,包括与CDH的集成

Livy在非Kerberos的CDH集群下的使用

Livy在Kerberos的CDH集群下的使用

附带一个PPT,Azure广告略过,主要参考Livy架构

提示:代码块部分可以左右滑动查看噢 为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

原文发布于微信公众号 - Hadoop实操(gh_c4c535955d0f)

原文发表时间:2018-02-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

大数据技术Hadoop面试题,看看你能答对多少?答案在后面

a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker

1462
来自专栏大数据

Spark Streaming入门

本文将帮助您使用基于HBase的Apache Spark Streaming。Spark Streaming是Spark API核心的一个扩展,支持连续的数据流...

7059
来自专栏大数据智能实战

spark 2.0.1(技术预览版)的编译与测试(附一些新特性的介绍)

spark 2.0的预览版在前几个月已经吵得沸沸扬扬,趁着今天一起编译了下这个版本,还是非常方便的。 这回采用MVN来进行编译,具体见官网的编译帮助。 Bui...

1986
来自专栏美团技术团队

HDFS NameNode重启优化

一、背景 在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用...

5697
来自专栏CSDN技术头条

整合Kafka到Spark Streaming——代码示例和挑战

作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术...

3328
来自专栏Spark学习技巧

关于Spark Streaming感知kafka动态分区的问题

本文主要是讲解Spark Streaming与kafka结合的新增分区检测的问题。读本文前关于kafka与Spark Streaming结合问题请参考下面两篇文...

1564
来自专栏IT派

10分钟大数据Hadoop基础入门

目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。

1224
来自专栏PPV课数据科学社区

盘点Hadoop让人讨厌的12件事

? 1. Pig vs. Hive 你在 Pig 里用不了 Hive UDFS。在 Pig 中你必须用 HCatalog 来访问 Hive 表。你在 Hive...

3278
来自专栏CSDN技术头条

大数据技术Hadoop面试题,看看你能答对多少?答案在后面

单项选择题 1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameN...

30010
来自专栏PPV课数据科学社区

干货 | 98道常见Hadoop面试题及答案解析(一)

这是一篇hadoop的测试题及答案解析,题目种类挺多,一共有98道题,题目难度不大,对于高手来说,90分以上才是你的追求。 1 单选题 1.1 下面哪个程序负责...

3534

扫码关注云+社区

领取腾讯云代金券