前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >EMR(弹性MapReduce)入门之组件Hue(十三)

EMR(弹性MapReduce)入门之组件Hue(十三)

原创
作者头像
小司机带你入门EMR
修改2020-02-14 18:17:07
1.9K0
修改2020-02-14 18:17:07
举报
文章被收录于专栏:EMR冲鸭EMR冲鸭

Hue介绍

HUE=Hadoop User Experience

Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。

通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。

Hue的核心功能

  • SQL编辑器,支持Hive, Impala, MySQL, Oracle, PostgreSQL, SparkSQL, Solr SQL, Phoenix…
  • 搜索引擎Solr的各种图表
  • Spark和Hadoop的友好界面支持
  • 支持调度系统Apache Oozie,可进行workflow的编辑、查看

Hue使用

Hue控制台

1、 登录腾讯官网控制台

2、 进入EMR控制页面,点击左侧组件管理页面

3、找到Hue组件,点击“原生WebUI访问地址”进入Hue页面

Hue创建Workflow

一个Workflow 包含多个作业。目前支持Hive, MR, Spark, Shell, Java 可执行程序等多种类型的作业。

通过一个简单的Workflow, 以MR、Spark、Hive. 作为例子。

在菜单中通过【Query】,【Schedule】,【Workflow】进入页面,如图:

进入Workflows编辑页面后,给新建Workflow增加名字,以及描述:

我们创建一个名为hello-workflow的Workflow, 共包含3个作业:MR类型左右、Spark类型作业、HIVE类型作业。这些作业依次执行。

接下来,分别介绍不同类型作业创建过程。

创建MapReduce类型作业

在创建MapReduce类型作业前,需要把可执行Jar, 以及数据存放在HDFS上。在Workflow编辑页面中,选择MapReduce作业类型图标,用鼠标拖动到编辑区,具体创建作业步骤如下:

填写Jar路径,注意是HDFS上的路径,填写作业参数:

注意:(1)填写可执行Jar在HDFS中的路径;(2)填写Jar所需参数,在本例子中是数据输入和输出路径。

点击右上角保存按钮,保存当前作业配置,至此,我们在Hello-workflow中又增加了一个MR类型的作业。

创建hive类型作业

在创建Hive类型作业前,请确认EMR实例中已经部署了Hive组件,否则作业执行将失败。

将要执行的Hive存放在HDFS中,拖拽Hive作业图标至Workflow编辑区,填写Hive脚本所在路径,具体步骤如下:

点击右上角保存按钮,保存作业配置。

创建spark类型作业

在创建Spark作业前,请确认EMR实例中已经部署了Spark组件,否则作业将执行失败;

将要执行的Spark作业可执行文件存放至HDFS中;在本例子中,将Spark作业可执行文件存放在HDFS的/tmp/spark-terasort-1.1-SNAPSHOT-jar-with-dependencies.jar,将代表Spark类型作业的图片,用鼠标拖拽至Workflow编辑区,具体步骤如下:

填写作业参数:

注意:1处填写可执行程序名称,本例中是Jar包名称;2处填写可执行程序所需参数,注意参数顺序与程序参数顺序一致;3处填写可执行程序在HDFS中的路径;4处填写Spark任务所需参数

点击右上角保存按钮,保存作业配置,至此,我们为hello-workflow 增加了Spark类型作业。

Hue常见故障

1、Hue输入界面写SQL 语句,输入异常。

详细信息:通过HUE写稍复杂的SQL语句时,键入一个字符会自动打印出一串不规则字符

原因:Hue本身默认会开启自动补充语句功能,但是这个功能是有bug的,到导致键入异常,非输入sql语句也可能遇到键入异常情况。

解决方法:在hue写sql时,在页面按【ctrl+,】会弹出一个右边窗口,然后把Enable Autocompleter 这项去掉就可以了。

2、EMR集群中Hue执行报错,jar包不存在的情况。

解决方法:确认文件路径;用户自定义的udf包,应放入hdfs永久目录,方便共享,不应放入临时目录,避免会话清空

3、Hue工作流无法使用

详细信息:

EMR hue工作流计算无法使用:报错信息如下:

JA006: Call From 172.16.0.17/172.16.0.17 to 172.16.0.17:5022 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused

原因分析:

从hue任务报错信息来看,时yarn jobhistory server挂了,这个机器负载比较重,内存使用一致很高,经常有这种因内存不足kill进程的情况。

解决方法:

升级master节点配置,或者新增router节点跑hue任务。

4、Hue访问hive权限问题

详细信息:使用root用户登录hue访问hive时权限问题。

原因分析:由于客户后安装了ranger,安装之后没有重启,因此ranger一直没有生效,客户能通过root在hue上访问hive,突然重启后发现不能访问了。

解决方案:后安装ranger(集群创建好后增加的组件)需要重启组件才能生效建议在产品上提示用户重启。

5、Hue UI无法访问

原因分析:

机器上少了这个文件。

/usr/local/service/hue/build/static/desktop/art/hue-login-logo-ellie

解决方案:

在其他集群上找到这个文件放在机器上。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Hue介绍
  • Hue的核心功能
  • Hue使用
    • Hue控制台
      • Hue创建Workflow
        • 创建MapReduce类型作业
        • 创建hive类型作业
        • 创建spark类型作业
    • Hue常见故障
    相关产品与服务
    大数据
    全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档