CDH5.13和CM5.13的新功能

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

CDH5.13在美国时间10月12日正式发布,距离上次CDH5.12的7月16日,相距差不多3个月的时间,这也是Cloudera发布CDH的minor version的一般时间间隔。让我们先概括一下新功能:

1.Sentry实现HA

2.Kafka0.11集成,0.11目前为社区最新版

3.Kudu1.5开始默认打包到CDH,不需要使用额外的Parcle安装

4.Kudu与Sentry授权集成,支持列授权

据说CDSW1.2发布,与CM完美集成,实现Parcel安装

Openstack支持,Ceph支持,架构更新,参考:

http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_redhat_osp11.pdf

https://specs.openstack.org/openstack/sahara-specs/specs/juno/cdh-plugin.html

以下我们看看CDH5.13和CM5.13具体的更新内容。

1.CDH5.13的新功能

1.1Apache Impala


1.通过缓冲池改善内存管理。这种机制允许查询使用较少的内存,在查询启动期间保留所需的内存,并减少OOM的概率。它使查询计划和内存评估更加精准,因此如果一个查询开始执行,中间不太可能会遇到OOM的错误。Impala在溢出到磁盘期间使用内存缓冲区较小,此缓冲区默认是2MB,而不是8MB,同时Impala可以在适当的时候将其减少到64KB。

对于新的查询的内存微调可以使用的参数包括:MIN_SPILLABLE_BUFFER_SIZE, DEFAULT_SPILLABLE_BUFFER_SIZE,MAX_ROW_SIZE, 和BUFFER_POOL_LIMIT。

2.改进缓存HDFS文件句柄的机制。这种缓存机制提高了多次访问同一文件的查询性能和扩展性,比如从Parquet文件中检索不同的列。通过open()调用缓存文件句柄可以降低Namenode的负载。

默认情况下,此功能是被禁用的。可以通过给max_cached_file_handles设置一个非零的值来开启这个功能。目前,通过关闭一些Impalad主机的short-circuit reads,在ETL过程中对于HDFS文件追加或者覆盖可以使用到这个功能。查看HDFS-12528获取更多信息:https://issues.apache.org/jira/browse/HDFS-12528

3.impala-shell提供了一个新的命令,rerun或者简写@,可以让你根据历史命令的编号来重新执行。

4.新的内置函数和更新

除了TIMESTAMP之外,trunc()现在可以应用于数值类型(FLOAT,DOUBLE和DECIMAL)。虽然这个功能已经可以通过truncate()函数实现,但是trunc()的改进可以更方便的将主流RDBMS的代码迁移到Impala。

新的date/time函数utc_timestamp()可以从TIMESTAMP的值获取到准确的相应时间,而不需要用特定的时区通过一些其他的函数来转换。

5.CREATE TABLE LIKE PARQUET语句现在可以处理不是由Impala生成的包含ENUM类型的Parquet文件。ENUM列会在目标表中转变为相应的STRING列。

6.Kudu提升

Kudu现在建表可以不使用PARTITION BY。Kudu会自动创建一个单独的分区来覆盖所有的可能的值的范围。此功能适用于小表,这样那些每个查询都是全表扫描因为分区带来的开销将不存在。

Kudu表更细粒度的Sentry授权,支持列授权。SELECT和INSERT语句对应到Sentry里的SELECT和INSERT权限。其他Kudu操作需要ALL的权限。

ALTER TABLE语句可以修改Kudu表字段的多个属性。你可以使用ALTER TABLE的ALTER COLUMN和SET关键字来更改DEFAULT,BLOCK_SIZE,ENCODING和COMPRESSION属性。还可以使用DROP DEFAULT从列中删除默认值。

7.对于非Kudu表,可以使用ALTER TABLE如:ALTER COLUMN col SET COMMENT 'text'来更改单个列的注释。

1.2Apache Kudu


从CDH5.13,Kudu1.5开始,CDH默认打包Kudu,不需要使用额外的Parcel安装。Kudu1.5的新功能请参考:https://www.cloudera.com/documentation/enterprise/release-notes/topics/kudu_release_notes.html#release_notes

1.3Apache Hive/Hive on Spark


Hive on Spark支持map joins的动态分区修剪。动态分区修剪(DPP)是一种数据库优化技术,它可以显着减少查询扫描的数据量,从而更快地执行作业。 默认情况下禁用,但可以通过将hive.spark.dynamic.partition.pruning.map.join.only属性设置为true来启用。 启用时,当使用分区字段map join时,DPP才会触发。更多细节参考:https://www.cloudera.com/documentation/enterprise/latest/topics/admin_hos_oview.html

Sentry支持Hive metastore的HA。以前的CDH版本,Sentry服务和Hive metastore的HA是不能共存的,从CDH5.13开始,Hive metastore的HA可以与Sentry服务共存,同时你还可以选择开启Sentry的HA。

1.4Apache Sentry


从CDH5.13开始,你可以安装两个Sentry服务,并通过配置实现Sentry服务的高可用,当Primary的Sentry挂了以后,可以自动实现Sentry服务的切换。更多细节请参考:https://www.cloudera.com/documentation/enterprise/latest/topics/sg_sentry_ha.html

Sentry现在支持Hive metastore的HA。

2.Cloudera Manager5.13的新功能

2.1Dashboard User角色


如果一个CM的用户属于Dashboard User角色,他可以执行以下操作:

  1. 创建,编辑或者删除属于他自己的dashboards
  2. 创建或者增加已有的图标到属于他的dashboards
  3. 查看CM的数据
  4. 查看服务和监控信息

2.2Impala Query Profiles查看优化


对于每个profile counter的值,从CM下载的文本格式的Impala query profiles现在包含了一个更易于阅读的版本,而不是原始值。比如:time counters在CM5.13之前显示的是纳秒:TotalTime: 492626971556。而现在是:TotalTime:8.2m (492626971556)。

2.3Sentry HA


Sentry服务支持HA,具体参考:https://www.cloudera.com/documentation/enterprise/latest/topics/sg_sentry_ha.html

2.4改善License管理


1.License信息

一个banner条现在会显示License的剩余日期比如60,30,14或者0天。

2.从CDH企业版降级到免费版

以前,从企业版降级到免费版需要修改CM的数据库。现在在License页面可以通过Downgrade按钮来实现。

2.5如果主机名是大小字母,启用Kerberos会警告


因为Kerberos的principal名字不能包括大写字幕,如果有任何一台主机名字包含大写字幕,启用Kerberos的欢迎页面会提示警告。你可以忽略这个警告继续进行Kerberos的向导式安装。警告最多显示10个主机。

2.6Hadoop配置文件用户模拟的校验


加入了一个新的校验,来确保Service Monitor能够校验多个配置文件的用户名都是有效的Linux用户名。包括以下服务:

HDFSUser to Impersonate - HDFS service

HBaseUser to Impersonate - HBase service

MapReduceUser to Impersonate - MapReduce service

YARNContainer Usage MapReduce Job User - YARN service

如果配置无效,相应的服务不会启动。

2.7丰富CM API


1.控制Management Services维护模式的新的CM API

Enter Maintenance Mode for Cloudera Management Service:

http://cloudera.github.io/cm_api/apidocs/v18/path__cm_service_commands_enterMaintenanceMode.html

Exit Maintenance Mode for Cloudera Management Service:

http://cloudera.github.io/cm_api/apidocs/v18/path__cm_service_commands_exitMaintenanceMode.html

Enter Maintenance Mode for Cloudera Management Serviceroles:

http://cloudera.github.io/cm_api/apidocs/v18/path__cm_service_roles_-roleName-_commands_enterMaintenanceMode.html

Exit Maintenance Mode for Cloudera Management Serviceroles:

http://cloudera.github.io/cm_api/apidocs/v18/path__cm_service_roles_-roleName-_commands_exitMaintenanceMode.html

2.集群资源报告的新的CM API

新的API可以以CSV的格式返回集群资源使用报告,如果你不晓得资源使用报告,可以参考:

https://www.cloudera.com/documentation/enterprise/latest/topics/admin_cluster_util_report.html

Cluster Utilization:

http://cloudera.github.io/cm_api/apidocs/v18/path__clusters_-clusterName-_utilization.html

Impala Utilization:

http://cloudera.github.io/cm_api/apidocs/v18/path__clusters_-clusterName-_impalaUtilization.html

YARN Utilization:

http://cloudera.github.io/cm_api/apidocs/v18/path__clusters_-clusterName-_yarnUtilization.html

3.删除集群credentials的API

增加了一个新的API可以删除单个集群所有服务的Kerberos credentials,而不是删除由CM管理的所有集群的credentials。更多细节参考:

http://cloudera.github.io/cm_api/apidocs/v18/path__clusters_-clusterName-_commands_deleteCredentials.html

2.8大规模集群新的校验


1.Management Roles的校验

如果CM管理超过80个节点,如果很多管理角色都部署在一个节点上,会给出警告。

2.Service Monitor和Host Monitor内存分配的校验

如果Service Monitor和Host Monitor的heap和非Java内存配置太低的话,会给出警告。警告是基于集群规模,以及集群上运行的服务类型。

2.9Solr图标库


Solr服务现在包含了每个指标的例子图表。

2.10提升BDR性能


通过在源集群运行第一阶段的复制(复制列表阶段,创建要复制的文件和文件夹的列表),从而提升BDR的性能。如果源集群和目标集群的延迟很高,这样会显著提升BDR的性能。此功能需要源集群和目标集群都是CM5.13或更高版本,通过API可以禁用该功能。

2.11描述符的新配置


在CM中增加了一个新的配置,scm.server.proxy.timeout,用来配置Descriptor fetch timeout。主要是用作CM部署超大规模的集群。以前这个配置需要配置多个服务的Advanced configuration snippets。

Administration> Settings,你可以找到该配置。

2.12CSD的健康报告


增加CSD服务的健康报告,具体参考:

https://github.com/cloudera/cm_ext/wiki/Service-Descriptor-Language-Reference#healthaggregation

2.13校验Banned YARN Users


开启Kerberos认证后,新的校验功能会确保Banned System Users列表在所有YARN的NodeManager节点是相同的。如果校验失败,YARN服务无法启动。如果需要查看banned的users,可以选择YARN服务,然后点击“配置”,搜索banned.users。

2.14恢复滚动重启


升级时执行滚动重启,在修复升级失败的某个故障后,比如某些主机启动失败,你可以恢复滚动重启。在你修复故障后,你可以继续滚动重启,而且CM会自动跳过成功重启的主机。这个改进加快了大型集群重试滚动重启的时间。

2.15搜集升级失败的诊断包


在集群升级时,如果失败了,CM现在可以允许你发送诊断包到Cloudera Support。升级向导会打开“发送诊断数据”对话框,其中包含当前集群的名称和预先填充的时间段。

2.16Impala的新监控指标


增加Catalog Server和Hedged reads的Java堆栈使用监控指标。

2.17新的CSD服务放置规则


CSD服务新的放置规则alwaysWithAny加入到Service Descriptor Language。当此规则存在时,必须始终将指定的角色置于放置规则中指定的角色的同一主机上。 添加此服务时,向导中不再显示指定的角色。 相反,此角色的一个实例将自动放置在至少具有一个主要角色的任何主机上。 如果多个主要角色本身放在同一主机中,则该角色的仅一个实例将自动放置在该主机上。在alwaysWithAny规则中应至少定义两个唯一的主要角色。而且,alwaysWithAny规则与alwaysWith规则是互斥的,并且不应该为同一个角色定义它们。 如果用户以违反此规则的方式分配角色,则该服务将显示配置错误,且无法启动。参考:

https://github.com/cloudera/cm_ext/wiki/Service-Descriptor-Language-Reference

2.18Hue的Navigator搜索和打标签默认开启


CM5.13中,增加Hue服务,对于CDH5.12或以上集群,Navigator的搜索和打标签会默认开启。

2.19增加protocol, accept_count和acceptor_thread_count 参数到LUNA_KMS和THALES_KMS CSDs


KMS服务(用于集成Luna和Thales硬件加密模块HSM)中增加新的Tomcat调优参数。这些参数只在CDH5.12.1或以上的版本生效。如下:

  • protocol
  • accept_count
  • acceptor_thread_count

3.参考


https://www.cloudera.com/documentation/enterprise/release-notes/topics/cm_rn_new_changed_features.html#concept_avj_t31_jbb

https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_rn_new_in_cdh_513.html

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花! 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看


推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

本文分享自微信公众号 - Hadoop实操(gh_c4c535955d0f)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-10-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FSociety

SQL中GROUP BY用法示例

GROUP BY我们可以先从字面上来理解,GROUP表示分组,BY后面写字段名,就表示根据哪个字段进行分组,如果有用Excel比较多的话,GROUP BY比较类...

5.2K20
来自专栏haifeiWu与他朋友们的专栏

复杂业务下向Mysql导入30万条数据代码优化的踩坑记录

从毕业到现在第一次接触到超过30万条数据导入MySQL的场景(有点low),就是在顺丰公司接入我司EMM产品时需要将AD中的员工数据导入MySQL中,因此楼主负...

30140
来自专栏怀英的自我修炼

考研英语-1-导学

英二图表作文要重视。总体而言,英语一会比英语二难点。不过就写作而言,英语二会比英语一有难度,毕竟图表作文并不好写。

12110
来自专栏Ken的杂谈

【系统设置】CentOS 修改机器名

18230
来自专栏钱塘大数据

中国互联网协会发布:《2018中国互联网发展报告》

在2018中国互联网大会闭幕论坛上,中国互联网协会正式发布《中国互联网发展报告2018》(以下简称《报告》)。《中国互联网发展报告》是由中国互联网协会与中国互联...

13750
来自专栏微信公众号:小白课代表

不只是软件,在线也可以免费下载百度文库了。

不管是学生,还是职场员工,下载各种文档几乎是不可避免的,各种XXX.docx,XXX.pptx更是家常便饭,人们最常用的就是百度文库,豆丁文库,道客巴巴这些下载...

44730
来自专栏腾讯高校合作

【倒计时7天】2018教育部-腾讯公司产学合作协同育人项目申请即将截止!

16020
来自专栏腾讯社交用户体验设计

ISUX Xcube智能一键生成H5

51420
来自专栏钱塘大数据

理工男图解零维到十维空间,烧脑已过度,受不了啦!

让我们从一个点开始,和我们几何意义上的点一样,它没有大小、没有维度。它只是被想象出来的、作为标志一个位置的点。它什么也没有,空间、时间通通不存在,这就是零维度。

34530
来自专栏前端桃园

知识体系解决迷茫的你

最近在星球里群里都有小伙伴说道自己对未来的路比较迷茫,一旦闲下来就不知道自己改干啥,今天我这篇文章就是让你觉得一天给你 25 个小时你都不够用,觉得睡觉都是浪费...

22340

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励