首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

何在Kerberos环境下CDH集群部署Spark2.1Thrift及spark-sql客户端

CDH启用Spark Thrift》,《如何在Kerberos环境下CDH集群部署Spark1.6 Thrift及spark-sql客户端》,《如何在Kerberos环境下CDH集群部署Spark2.1...本篇文章Fayson主要介绍如何在Kerberos环境下CDH集群中部署Spark2.1Thrift Server服务和Spark SQL客户端。...2.集群启用Sentry 3.集群Spark2.1.0已部署且正常运行 2.部署Spark Thrift ---- 在CDH自带Spark2.1.0缺少spark-hive-thriftserver...3.将解压出来spark-2.1.0-bin-hadoop2.6/jars目录下hive-cli-1.2.1.spark2.jar和 spark-hive-thriftserver_2.11-2.1.0...3.启动与停止Spark Thrift ---- 1.由于集群启用Kerberos,这里我们需要为Spark Thrift服务创建一个Kerberos账号 在KDC所在服务器上执行如下命令创建一个hive

2.5K50

何在Kerberos环境下CDH集群部署Spark2.1Thrift及spark-sql客户端

CDH启用Spark Thrift》和《如何在Kerberos环境下CDH集群部署Spark1.6 Thrift及spark-sql客户端》,本篇文章Fayson主要介绍如何在非Kerberos环境下...内容概述 1.部署Spark Thrift 2.启动与停止Spark Thrift 3.功能验证及总结 测试环境 1.CM和CDH版本为5.12.1 2.使用root用户操作 前置条件 1.集群启用Kerberos...2.集群启用Sentry 3.集群Spark2.1.0已部署且正常运行 2.部署Spark Thrift ---- 在CDH自带Spark2.1.0缺少spark-hive-thriftserver...3.将解压出来spark-2.1.0-bin-hadoop2.6/jars目录下hive-cli-1.2.1.spark2.jar和spark-hive-thriftserver_2.11-2.1.0...注意:为了防止和HiveServer210000端口冲突,可以在启动脚本增加如下配置自定义端口,端口默认绑定地址为127.0.0.1,不能远程访问需要将指定绑定host,0.0.0.0为监听所有IP

2.2K30
您找到你想要的搜索结果了吗?
是的
没有找到

使用TPC-DS基准测试SQL-on-Hadoop系统性能

在Red和Gold集群(基于Hadoop 2.7.3运行HDP 2.6.4)上: • HDP 2.6.4包含Hive-LLAP • Presto 0.203e(启用基于成本优化) • HDP 2.6.4...包含SparkSQL 2.2.0 • Hive 3.1.0 on Tez 在Indigo集群(基于Hadoop 3.1.0运行HDP 3.0.1)上: • HDP 3.0.1包含Hive-LLAP...• Presto 0.208e(启用基于成本优化) • HDP 3.0.1包含SparkSQL 2.3.1 • HDP 3.0.1包含Hive on Tez 对于Hive-LLAP,我们使用...Hive引擎性能(LLAP,Hive on Tez)基本上是Spark4-5倍。 • 在Indigo集群上,HDP 3.0.1Hive-LLAP是最快系统。...请注意,HDP 3.0.1Hive-LLAP在查询78上失败。 • 在这三个集群,SparkSQL是最慢。这不是因为某些查询由于超时而失败,而是因为几乎所有查询运行速度都很慢。

1.7K20

0816-CDP Hive3升级说明

3.资源是为整个集群应用程序分配。 4.Hive更新数据源数据并返回查询结果。 Hive on Tez在临时容器上运行任务,并使用标准YARN shuffle服务。...如果集群没有启用Ranger安全服务或者其他安全,默认情况下CDP Private Cloud BaseHive使用基于存储授权(SBA)。...CDP升级过程将尝试保留你Hive配置属性,这些属性是你在旧CDH或HDP集群Hive一些自定义值。...3.14覆盖设置Hive配置 对于旧Hive集群自定义配置,你需要知道如何在升级过程中保留这些配置。根据记录旧配置项,参考以下步骤至少设置6个关键属性值。...CREATE INDEX Hive自动在主表(而不是其他表)ORC或Parquet构建和存储索引,将hive.optimize.index.filter启用即可,不过不推荐使用,而是使用物化视图。

3.1K40

Hive数据迁移到CDP

处理表引用语法 为了符合 ANSI SQL,Hive 3.x 拒绝 SQL 查询 `db.table`, Hive-16907 错误修复所述。表名不允许使用点 (.)。...您必须了解从旧集群到新集群升级过程。 CDP 升级过程会尝试保留您 Hive 配置属性覆盖。这些覆盖是您为在旧 CDH 或 HDP 集群配置 Hive 而设置自定义值。...在 Spark 上启用 Hive 脚本不起作用。 需要采取行动 从您脚本删除set hive.execution.engine=spark。...配置 HMS 以实现高可用性 要在主实例出现故障时提供到辅助 Hive Metastore 故障转移,您需要知道如何在 Cloudera Manager 添加 Metastore 角色并配置属性。...Ranger 与 Hive Metastore 集成提供了在 HiveServer (HS2) 启用 Ranger 授权一致性。SBA 没有为没有关联文件/目录元数据提供授权支持。

1.2K30

Hive LLAP概念透析

执行引擎 LLAP 在现有的、基于流程 Hive 执行工作,以保持 Hive 可扩展性和多功能性。 它不会取代现有的执行模型,而是增强它。 守护程序是可选。...Hive 可以在没有它们情况下工作,并且即使它们已部署和运行也能够绕过它们。 保持与语言特征相关特征对等。 外部编排和执行引擎。 LLAP 不是执行引擎( MapReduce 或 Tez)。...其他框架( Pig)也可以选择使用 LLAP 守护程序。 部分执行。 LLAP 守护程序执行工作结果可以构成 Hive 查询结果一部分,也可以传递给外部 Hive 任务,具体取决于查询。...LLAP 只接受 Hive 代码和blessed UDF。 没有代码被本地化并即时执行。 这样做是出于稳定性和安全性原因。 并行执行。...LLAP 守护进程列表是从集群启动 Zookeeper 服务器中提取

1.6K10

退役Apache Slider

不得不说,Apache Slider是一个很有远见项目。 假设将HBase运行在Yarn上后,它便拥有了以下特性: (1)在一个物理机群,可以同时部署多个HBase集群。...(2)为HBase集群提供了资源隔离。 (3)可以将多个版本HBase部署到同一个集群。...而且除了微服务这样应用场景之外,Hive LLAP运行也需要依赖Slider服务。...LLAPHive部署在Yarn之上一个用于数据缓存服务,这样Hive任务在运行时,可以直接从LLAP中提取数据,或者缓存频繁查询数据结果。利用LLAP,官方表示可以提升大概25倍运行效率。...如果需要安装Apache Slider,需要从github获取源码。并且可以尝试在Yarn集群中部署HBase,或者LLAP

1.6K00

CDPHive3系列之管理Hive工作负载

触发器根据由 Apache Hadoop、Tez 和 Hive 计数器表示查询指标启动操作,例如终止池中查询或集群运行所有查询。 下图描绘了一个简单资源计划。...创建资源计划 作为管理员,您可以创建资源计划,为不同条件配置集群,使您能够改进并行查询执行并在运行Hive节点上共享查询。您可以将资源分配给用户、组或应用程序池,并在计划触发操作。...LLAP 集群资源分配给一个池,将 25% 分配给另一个池,并允许一个池中用户进行 5 个并发查询,另一个池中用户进行 10 个并发查询。...您连接到要管理集群 HiveServer,并从 Beeline shell 启动 Hive、或打开另一个 Hive UI。 您启用了资源计划。 您一次只能激活一个资源计划。 激活资源计划。.../topics/hive_workload_management.html sys工作负载管理实体数据 从 Hive sys 数据库,您可以获得有关工作负载管理和其他 Hive 实体信息。

73830

CDPhive3概述

查询级别的工作负载管理 您可以配置谁使用查询资源,可以使用多少资源以及Hive对资源请求响应速度。工作负载管理可以改善并行查询执行,查询集群共享以及查询性能。...您提交给HiveSQL查询执行方式如下: Hive编译查询。 Tez执行查询。 资源是为整个集群应用程序分配Hive更新数据源数据并返回查询结果。...如果启用,请使用Cloudera Manager安全阀功能hive.server2.enable.doAs在 hive-site.xml禁用 (请参阅下面的链接)。...如果启用动态分区,则Hive会生成分区规范。...您执行以下与存储分桶相关任务: 设置hive-site.xml以启用存储分桶 SET hive.tez.bucket.pruning=true 既有分区又有分桶批量加载表: 将数据加载到既分区又存储分桶

3K21

在TPC-DS基准测试CDP数据仓库性能比EMR快3倍

在此博客文章,我们使用TPC-DS 2.9基准测试比较了使用Cloudera数据平台(CDP )上Cloudera数据仓库(CDW)Apache Hive-LLAP与Amazon上EMR 6.0...(也由Apache Hive-LLAP支持)。...尽管这两种服务都由开源Apache Hive-LLAP相同版本提供支持,但基准测试结果清楚地表明CDW更适合使用LLAP来提供最佳性能: CDW运行TPC-DS基准测试套件速度是EMR3倍以上,...在EMR上,我们启用了10个具有与CDW相同节点类型工作程序,以进行类似的比较,其中100%容量专用于LLAP。...结论 CDW使用市场上最新、最优化Hive引擎,由Apache Hive LLAP项目的先驱贡献者构建和支持,并立即提供了Cloudera在调整其性能平台方面的全部知识和经验。

81610

Hortonworks正式发布HDP3.0

2.2.NameNode联邦 ---- 1.使用Ambari UI向导可以启用NameNode联邦,从而线性扩展HDFS namespace,同时支持Hive,Spark和Ranger。 ?...4.Hive 1.LLAP工作负载管理 你可以在LLAP池中分配资源池,并基于每个用户或每个组分配资源。这样可以支持大型集群多租户功能。...随着存储格式和执行引擎性能改进,与非ACID表相比,我们看到了相同或更好性能。因此,我们默认启用ACID并启用对数据更新完全支持。...6.JDBC存储连接器 你现在可以将任何支持JDBC数据库映射到Hivecatalog。这意味着你现在可以使用Hive对其他数据库和Hive表进行join操作。...8.集成新Metastore Catalog特性 9.Spark thrift serverBeeline支持 10.在Ambari配置LLAP模式 集成: 1.支持每个notebook解释器配置

3.5K30

大规模SQL分析:为正确工作选择正确SQL引擎

对于物联网(IoT)数据和相关用例,Impala与流解决方案(NiFi,Kafka或Spark Streaming)以及适当数据存储(Kudu)一起可以提供不到十秒端到端管道延迟。...Impala具有对S3,ADLS,HDFS,Hive,HBase等原生读/写功能,是运行低于1000个节点集群(有100万亿行或更多表,或者50PBB大小或者更大数据集)时使用出色SQL引擎...Hive LLAP “实时长期处理”或“长期延迟分析处理”(也称为LLAP)是Hive执行引擎,它通过利用相同资源进行缓存和处理来支持长期运行流程。...因此,Hive LLAP非常适合作为企业数据仓库(EDW)解决方案,在该解决方案,我们将遇到许多需要长时间进行长时间运行查询,这些查询需要进行大量转换,或者在海量数据集表之间进行多次联接。...借助Hive LLAP包含缓存技术,我们客户能够将3,300亿条记录与920亿条记录(无论是否具有分区键)连接在一起,并在数秒内返回结果。

1.1K20

Hive On LLAP搭建&常见问题

部分查询、权限控制将由LLAP执行,短查询任务结果会很快返回。 相对于Hive 1.x,提升大约25倍性能。 ?...环境搭建 首先编辑hive-site.xml,配置LLAP,这里hive.llap.daemon.service.hosts配置为运行在yarn上LLAP服务名,这里可以自定义设置,但要与下一步中使用...hive命令生成LLAP环境包服务名一致。...SpanReceiverHost.getInstance方法而导致,所以,需要替换掉llaptez依赖(如果使用更高版本tez,则不需要进行替换): # 进入生成llap目录,这里以llap-slider...在公众号《数舟》,回复【10124】获取当前PDF版手册,也可以免费获取专栏《数据仓库》配套视频课程、大数据集群自动安装脚本,并获取进群交流途径。 我所有的大数据技术内容也会优先发布到公众号

91620

何在CDH中部署及使用Kylin

Hive更好性能 4.多维立方体(MOLAP Cube): - 用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体 5.与BI工具无缝整合: - Kylin提供与BI工具整合能力,Tableau.../cn/,本文主要描述如何在CDH集群中部署及使用Kylin。...内容概述 1.下载Kylin 2.部署Kylin 3.Demo1 4.Demo2 测试环境 1.RedHat7.4 2.CM/CDH5.13.3 3.Apache Kylin2.1.0 4.集群启用Kerberos...前置条件 1.CDH集群正常运行 2.Hive,HBase服务运行正常 3.安装Kylin服务节点已经部署Hive Gateway 2.下载Kylin ---- 社区版kylin下载地址:https...查看Hive default库表,多了五张表 ? 2.进入kylin Web界面reload metadata ? 3.查看导入模型 ? 4.构建cube ? 5.选择数据分区范围 ?

2.2K61

2019年,Hadoop到底是怎么了?

接下来,越来越多工具( Yahoo Pig)出现,Hortonworks、Cloudera 和 MapR 主要发行版一直在发布,不断刷新性能数据 (2008/2009),Apache Hive...这些变化让组织可以改变 Hadoop 集群运行方式,放弃在 YARN 上运行绝大部分批处理作业、分隔本地 ML 作业传统方法,转而采用更现代化基于容器方法,利用 GPU 驱动机器学习,并把云服务提供商集成到...Hive LLAP(低时延分析处理)技术,在 Hive 2.0 第一次引入,它所提供功能正如其名一样。...这种方式可以进行更快查询,同时仍可以让用户选择运行很多需要访问大量数据作业,从而接近大型 RDMBS 集群 Postgres 所能提供功能。 ?...我们也可以将现有的 Hadoop 负载迁移到云, EMR 或 Dataproc,利用云可扩展性和成本优势,来开发可在不同云服务上进行移植软件。

1.9K10

Cloud Dataproc已完成测试,谷歌云平台生态更加完善

去年9月份,谷歌为Hadoop和Spark推出了Cloud Dataproc服务beta版本,如今半年过去了,Cloud Dataproc服务已完成测试,现在可以被广泛使用。...谷歌在旧金山一次活动 谷歌在今年2月22日宣布,他们Cloud Dataproc服务——一个全面的管理工具,基于Hadoop和Spark开源大数据软件,现在可以被广泛使用。...这些服务支持MapReduce 引擎服务,用Pig平台编写程序以及Hive数据仓库软件。该服务首先在去年9月份进行了测试,而且谷歌已经加强了该工具。...谷歌产品经理James Malone在博客写道: 在测试,Cloud Dataproc 添加了几个重要特性包括性能调优,VM元数据和标签,以及集群版本管理等。...但这个服务区别在于Cloud Dataproc可以和谷歌其他云服务无缝对接,例如Google Colud Storage、Google Cloud Bigtable和BigQuery。

88750

Hadoop已死?Hadoop万岁!

各种博客文章、杂志投稿,“Hadoop已死”说法死灰复燃,且又开始甚嚣尘上。近年来,Cloudera不再满足于Hadoop开源平台身份,转而以企业数据公司身份进行营销。...• 在经济学理论,商品被定义为一种物品或服务,具有充分可替代性和广泛可获得性,这通常会导致较小利润率,使价格以外因素(品牌)变得并不那么重要。...• Hadoop生态系统提供了多种工具,因为它们适用于不同场景,并且具有不同优势(可以通过Spark或Hive实现ETL,通过Hive/Tez或Impala实现SQL,通过LLAP或SparkSQL...亚马逊 EMR、AzureHDInsight,以及谷歌Dataproc都是很好例子,能够很好地说明“Hadoop”是如何在客户群公共云中大规模推动巨头价值和业务。...这导致在产品生命周期早期出现了一些不合理、不切实际期望。现在我们需要努力去说服客户,才能让其使用我们产品,但是带给他们价值和理念是毋庸置疑。我们还需要说服客户使用CDP之类技术。

84530
领券